孙伟
- 作品数:7 被引量:13H指数:2
- 供职机构:哈尔滨工程大学计算机科学与技术学院更多>>
- 相关领域:自动化与计算机技术更多>>
- 一个基于粗糙集的XML多值依赖发现算法
- 1引言1998年2月,W3C推出了可扩展标记语言XML。随着XML成为Web上进行半结构化数据表示和数据交换的标准,XML数据相关技术的研究成为热点。例如:XML数据的存储技术与发布技术的研究,XML数据查询与优化技术等...
- 孙伟刘大昕张万松
- 关键词:XMLSEMANTICS
- 文献传递
- 基于XML的索引动态更新研究与实现被引量:4
- 2005年
- 提出了一种基于倒排表的索引,能很好地支持文档结构和内容的动态更新。该索引结构建有基于词条的水平索引和基于元素标志GID的垂直索引,这种双重索引结构能高效地支持文档的局部更新。另外给出了基于上下文共现分析技术的语义检索和利用关系数据库实现该索引的方法。
- 孙伟刘大昕张万松
- 关键词:结构化文档XML索引语义检索
- 一种改进的XML向量空间模型及其近似匹配算法
- 2006年
- XML已成为网上数据交换和存储的标准,然而现有的XML文档模型存在很多问题.综合了数据挖掘和信息检索两方面的技术,对传统的向量空间模型加以扩展,提出一种新的基于语义和支持度的XML向量空间模型并给出其生成算法,该模型抽取文档集的频繁路径作为特征,然后利用XML本身的语义特性,对标签之间作ontology判断.最后,基于该模型提出一种XML近似查询算法,将文档矩阵从改进的VSM空间映射到潜在语义空间,并在转换后的空间获得近似查询结果并排序.对提出的方法进行理论分析和实验验证,得到满意的结果.
- 王桐刘大昕田迪孙伟张万松
- 关键词:向量空间模型XMLLSI
- 一个基于粗糙集的XML函数依赖发现算法
- 2007年
- 数据依赖是数据库的一个重要概念。函数依赖是一种常见的数据依赖关系,是数据语义的重要组成部分。随着XML文档的大量出现,这一概念被引入到XML的领域中。本文在约束限制范围的基础上,给出了XML函数依赖的定义。引入粗糙集解决XML数据不完整的特点,给出XML函数依赖的判定定理。并且提出了一个发现XML文档中最小非平凡函数依赖的算法。该算法基于一致集的概念,通过不可分辨关系划分元组集减少求一致集的运算次数,使用逐层求精的算法来计算最小非平凡XML函数依赖集的左部。通过该算法得到的XML函数依赖的语义信息对数据存储模式设计、查询优化和更新异常检查来说是十分重要的。
- 孙伟刘大昕
- 关键词:可扩展标记语言语义数据依赖粗糙集
- 支持动态更新的XML文档索引及其实现被引量:1
- 2004年
- 随着XML文档的大量涌现,如何高效地像存取整个文档一样直接存取文档中任意元素已成为一个亟待解决的关键问题.另外,能够快速高效地支持XML文档更新的索引技术在商业领域也更加急需.提出了一种基于倒排表的索引,能很好地支持文档结构和内容的动态更新.给出了利用关系数据库实现该索引的方法.
- 孙伟刘大昕张万松
- 关键词:结构化文档XML索引
- XCC:一种基于聚类的XML文档压缩存储方法
- XML文档压缩处理是XML数据管理研究领域的一个热点问题,已有的研究工作均以XML文档为基本处理单元,而没有考虑因文档间存在相似性所造成的数据冗余.聚类方法是XML文档分类的有效手段,提出了一种XML文档紧凑结构构造算法...
- 张万松刘大昕孙伟王桐
- 关键词:XML数据管理数据压缩聚类文档相似度
- 文献传递
- 一种XML代数及其查询优化方法被引量:8
- 2007年
- 现有的XQuery处理策略有基于核心语法一次一结点的方法和基于代数的一次一集合2种,单独使用这2种方法都不能很好地解决XQuery查询处理和查询优化问题.该文提出了一个有效的XML代数系统-ETA.总结已有的XML代数的工作,分析新的XML查询问题,并在前述2种策略的思想的基础上提出了操作范围的概念.提出XML代数查询优化策略,主要包括选择谓词下移、抽取下移与分合、抽取替代自连接以及XML函数依赖及键约束等策略.ETA代数能够表达W3C的用例和XMark测试集的所有查询,查询效率得到提高.
- 孙伟刘大昕
- 关键词:XML数据库查询优化XML代数