王腾蛟 作品数:184 被引量:1,106 H指数:17 供职机构: 北京大学 更多>> 发文基金: 国家高技术研究发展计划 国家自然科学基金 国家重点基础研究发展计划 更多>> 相关领域: 自动化与计算机技术 文化科学 电子电信 医药卫生 更多>>
一种XML数据流之上持续查询执行器的增量维护方法 被引量:8 2005年 在XML数据流的海量持续查询处理领域中,很少有研究涉及到在查询集合发生变化的情况下,如何调整查询执行器以满足当前查询集合的问题.由于XML数据查询的数目是海量的,查询执行器重新构建的代价非常高.针对上述问题,提出了基于转换累计自动机的查询执行器的增量维护方法,来完成查询集合的增量增加和删除,从而避免了执行器重构的昂贵代价.同时,利用XML文档DTD结构约束,提高了查询执行器增量维护的效率,减少了增量维护所导致的空间冗余.实验表明,该方法能够以有限空间为代价,有效完成XML数据流持续查询执行器的动态维护. 高军 杨冬青 王腾蛟 唐世渭关键词:XML 持续查询 数据流 一种变步长XML编码方法 本发明公开了一种变步长XML编码方法,属于数据库存储领域。本方法为:1)设定XML文档编码的步长值为PACE;2)对于新插入的XML节点r:如果r作为某非叶节点j的第一个子节点插入时,则将j中原第一个子节点编码最后一位减... 郭思祺 包小源 郭少松 王腾蛟 杨冬青CloudCD:基于云计算平台的交往社区发现系统 被引量:1 2011年 交往社区发现已经成为社会网络分析中一个重要的研究课题.借助于社区发现技术,可以挖掘网络中更多有价值的、可靠的隐含信息,有利于用户做出更准确、更有价值的判断和决策.但是随着社交网络的信息量日益庞大,传统技术已经很难满足对海量数据的处理需求.为有效处理大规模网络数据,借助于云计算平台,实现了一种基于云计算平台的社区发现系统———CloudCD;考虑到社区中各节点的重要性差别,CloudCD首先挖掘社区中处于核心地位的节点,然后再扩展得到附属节点,用户可以通过设定扩展步长来获得不同层次粒度的社区结构;另外,系统也充分考虑了社区重叠的状况.通过不同粒度社区挖掘、社区重叠、系统加速比3个实验,展示了系统的效果. 赵鹏 苗高杉 王腾蛟 李红燕关键词:云计算 社会网络 海量数据 XML模式匹配:整体连接算法TurboStack 含谓词的XPath查询为小枝查询(twig query),它是XQuery最基本的查询模式。小枝查询算法有两大类:小枝分解和整体小枝连接,其中TwigStack系列算法处理小枝查询的效率是最优的,但其缺点在于不支持Twi... Guo Shaosong 郭少松 Bao Xiaoyuan 包小源 Chen Wei 陈薇 Wang Tengjiao 王腾蛟 Lei Kai 雷凯 Yang Dongqing 杨冬青关键词:信息查询 ACT-LDA:集成话题、社区和影响力分析的概率模型 被引量:4 2013年 随着社交网络的发展,社交网络中的用户形成大规模的用户关系图,用户在社交网络中发表内容,这些内容及其链接关系形成大规模的文档图。如何根据用户关系图、文档图,挖掘出用户所形成的社区、社区用户的影响力以及各个社区的话题,是重要的问题,而目前这些工作相对独立。考虑了用户发表内容、用户之间的关系信息,利用话题传播、社区形成和用户影响力之间的关联性,提出了一个基于LDA(latent Dirichlet allocation)的集成话题发现、社区发现和用户影响力分析的统一模型ACT-LDA(author-community-topicLDA)。模型采用变分推理的方法解决推理问题。在DBLP数据上进行了实验,取得了非常好的结果,证明了模型的有效性。 吴良 黄威靖 陈薇 王腾蛟 雷凯 刘月琴关键词:社交网络 基于关系数据库的关键词查询 被引量:50 2010年 介绍了基于关系数据库的关键词查询问题的研究背景;阐述了解决该问题的两大类方法,即基于数据图的方法和基于模式图的方法,并详细介绍了各种方法的原理以及各自的优缺点;最后展望了未来的研究方向. 林子雨 杨冬青 王腾蛟 张东站关键词:关键词查询 关系数据库 信息检索 一种基于均衡哈希编码的飞行器查询方法及系统 本发明公开一种基于均衡哈希编码的飞行器查询方法及系统。本方法为:利用数据集中每一飞行器的飞行参数数据和飞行条件数据建模表示对应的飞行器;为每一个编码后的飞行器生成对应的向量空间用于限制生成哈希编码的均衡性以及可辨别性,确... 黄梓铭 王腾蛟 陈薇文献传递 一种XML文档树实例查询方法 本发明公开了一种XML文档树实例查询方法,属于模糊查询领域。本方法为:1)将数据库中的XML文档和待查询XML文档分别转化为文档树;2)根据待查询XML文档树在XML文档树数据库中选取节点数在设定范围内的XML文档树,得... 包小源 李树节 王腾蛟 杨冬青一种无线通信环境中用户移动模式的挖掘算法 被引量:8 2002年 发现无线通信环境中用户的移动模式是移动对象管理中的一个关键问题.提出一种快速挖掘该模式的算法SAM(split and merge),用来挖掘移动对象所产生有序数据集中潜在的移动模式,从而为移动对象管理提供服务.该算法将自底向上搜索和自顶向下过滤技术相结合,采用图存储压缩数据集方法,利用非频繁项集分解子图和频繁长模式过滤数据集相结合的技术,大大减少了迭代次数,降低了CPU时间.最后给出了算法性能比较和算法分析.结果表明,该算法是有效的. 宋国杰 唐世渭 杨冬青 王腾蛟 叶恒强关键词:无线通信 数据挖掘 最大频繁项集 移动通信 面向XPath执行的XML数据流压缩方法 被引量:25 2005年 由于XML(extensible markup language)本身是自描述的,所以XML数据流中存在大量冗余的结构信息.如何压缩XML数据流,使得在减少网络传输代价的同时有效支持压缩数据流上的查询处理,成为一个新的研究领域.目前已有的XML数据压缩技术,都需要扫描数据多遍,或者不支持数据流之上的实时查询处理.提出了一种XML数据流的压缩技术XSC(XML stream compression),实时完成XML数据流的压缩和解压缩,XSC动态构建XML元素事件序列字典并输出相关索引,能够根据XML数据流所遵从的DTD,产生XML元素事件序列图,在压缩扫描之前,产生更加合理的结构序列编码.压缩的XML数据流能够直接解压缩用于XPath的执行.实验表明,在XML数据流环境中,XSC在数据压缩率和压缩时间上要优于传统算法.同时,在压缩数据之上查询的执行代价是可以接受的. 王腾蛟 高军 杨冬青 唐世渭 刘云峰关键词:XML 数据流 DTD XPATH