国家重点基础研究发展计划(2011CB302200-G)
- 作品数:6 被引量:28H指数:3
- 相关作者:王国仁袁野吴刚刘辉林赵越更多>>
- 相关机构:东北大学沈阳大学更多>>
- 发文基金:国家自然科学基金国家重点基础研究发展计划国家高技术研究发展计划更多>>
- 相关领域:自动化与计算机技术更多>>
- 概率XML数据上的ELCA关键字检索被引量:1
- 2014年
- 关键字检索是大多数普通用户用来查找信息的首选方式,概率XML数据是时下受到较多关注的不确定数据的一种表现形式。论文主要针对概率XML数据研究其关键字检索的方法。首先选取在确定XML数据上受到广泛认可的ELCA检索结果集,进而提出概率XML数据上的ELCA的结果集定义。其次,基于这样的结果集理论,给出在概率XML数据上进行ELCA的关键字检索的算法,并引入概率阈值的概念加以实现。最后利用实验数据证明了使用合成数据的检索算法具有效率和有效性。
- 赵越袁野王国仁
- 关键词:关键字检索
- 内存数据库的可用性综述被引量:5
- 2014年
- 随着计算机硬件技术的高速发展,内存的成本不断降低,数据库管理系统将其工作数据集完全放入内存变得可行.相比于常规的磁盘数据库,内存数据库具有更快的数据存储速度、更高的吞吐量和更强的并发访问能力,满足了许多应用的快速响应需求.然而,由于内存是易失性存储介质,与磁盘数据库在可用性方面有一定区别.本综述重点讨论了适用于内存数据库提高可用性的主要策略,包括快速恢复策略、冗余备份和容错等.
- 江泽源刘辉林吴刚王国仁
- 关键词:内存数据库可用性可靠性容错
- 概率XML关键字检索排序算法被引量:1
- 2016年
- 探讨了针对概率XML文档集中与内容相关的关键字检索结果的排序问题,针对概率XML文档的特征提出了一种新的排序模式.与仅取决于检索结果概率的检索排序算法不同,本文提出的排序算法充分考虑了节点对文档的区分程度、节点描述文档的程度,以及XML文档本身的结构特性,设计了满足以上特征的检索结果排序模型,并针对排序模型提出了新的倒排索引结构.新的排序算法可以快速完成关键字检索,并将最相关的信息提供给用户.模拟数据集实验验证了该方法的有效性.
- 赵越袁野王国仁
- 关键词:排序
- 数据库性能测试可视化工具VisualDBBench及面向内存数据库的应用被引量:2
- 2014年
- 从开发自动化数据库基准测试工具的角度,深入研究了TPC组织发布的TPC-C测试标准和TPC-H测试标准.在此基础上,给出了测试模型,介绍了所开发的自动化测试工具VisualDBBench的架构和主要类的功能.并且针对内存数据库进行测试,验证了内存数据库的性能优势.
- 李梁吴刚刘辉林王国仁
- 关键词:内存数据库
- 一个基于概率潜语义分析的多模态多媒体检索模型被引量:5
- 2015年
- 互联网上快速增长的多媒体信息往往包含几种不同的模态,并且在同一个多媒体文档中的这些不同形式的模态往往包含相似的含义.因此,最近多模态检索已经变成了多媒体检索领域的热点问题.提出一个基于概率潜语义分析的多模态检索模型用来完成多模态的检索.两个假设被提出:(1)同一个多媒体文档的不同模态是这个文档的多种表达方式,因此它们都表示相似的含义;(2)文本单词和图像特性是独立地被生成出来的.利用概率潜语义分析分别模拟训练集中文本和图像的生成过程并且通过期望最大化算法学习获得它们的潜在主题分布.利用多元线性回归方法分析文本表达和图像表达,并利用最小二乘法得到回归矩阵的估计.这个矩阵用于将文本和图像模态互相转换.实验表明了该方法的有效性.
- 张宇袁野王国仁
- 关键词:多模态多媒体
- 基于LDA模型的中文微博话题意见领袖挖掘被引量:14
- 2013年
- 有效挖掘微博空间中的话题意见领袖成为亟待解决的热点问题.针对这一问题,提出了基于LDA语义信息和HowNet知识库的短文本子话题分类算法.对分类后的微博从显式、隐式及用户等方面综合衡量微博的影响力,并根据层次分析法对多个因素进行科学地权值分配.实验结果表明,提出的方法较基于支持向量机的方法具有更好的效果,同时提出的影响力度量模型可以有效地挖掘出微博中的话题意见领袖.
- 冯时景珊杨卓王大玲
- 关键词:意见领袖情感分析LDA