浙江省自然科学基金(LY13F020040) 作品数:7 被引量:15 H指数:3 相关作者: 钱江波 陈叶芳 董一鸿 王忠伟 陈华辉 更多>> 相关机构: 宁波大学 更多>> 发文基金: 浙江省自然科学基金 宁波市自然科学基金 国家自然科学基金 更多>> 相关领域: 自动化与计算机技术 更多>>
一种高维大数据全k近邻查询算法 被引量:3 2015年 全k近邻(all k-nearest neighbor,AkNN)查询,是k近邻查询的一个变型,旨在在一个查询过程中为给定数据集的每个对象确定k个最近邻。提出了一种在Hadoop分布式平台下处理高维大数据的AkNN查询算法。首先使用行条化思想结合p-stable LSH算法将高维数据对象降维,然后结合空间填充曲线Z-order的优良特性,把降维后的数据嵌入一维空间中,接着进行范围查询。整个过程使用MapReduce框架分布式并行处理。实验结果表明。所提出的算法可以高效处理高维大数据的AkNN查询。 王忠伟 陈叶芳 肖四友 钱江波关键词:高维 MAPREDUCE 基于LSH的高维大数据k近邻搜索算法 被引量:4 2016年 局部敏感哈希(LSH)及其变体是解决高维数据k近邻(k NN)搜索的有效算法.但是,随着数据规模的日趋庞大,传统的集中式LSH算法结构已经不能够满足大数据时代的需求.本文分析传统LSH方案的不足之处,拓展AND-OR结构,提出通过索引而不比较原始数据直接实现高维大数据k近邻搜索算法C2SLSH.理论分析和实验证明,C2SLSH在分布式平台下具有稳定的可扩展性,在保证同等精确率的情况下,处理速度大约是现有方法的3倍. 王忠伟 陈叶芳 钱江波 陈华辉关键词:MAPREDUCE 延迟容忍网络中基于邻居信息精确度的查询算法 被引量:3 2014年 与传统网络不同,延迟容忍网络(DTN)具有节点移动性、网络间歇连通性,并且能够容忍适当的延迟。随着移动设备的普及,如何在延迟容忍网络中充分利用这些移动设备进行数据查询及信息分享成为值得研究的问题。一般网络可以采用泛洪的方法进行信息的查询,然而这类方法会消耗较多的网络通信资源及移动设备电池能量。针对这一问题,模仿社会网络中人的自然行为特点,充分利用信息精确度(IA)机制提高网络查询成功率。实验结果表明,基于IA的方法具有高效性和稳定性。 吴大猛 钱江波 陈叶芳 董一鸿关键词:延迟容忍网络 信息查询 社会网络 基于GPU的不确定数据流窗口连接运算 2014年 在很多新兴应用领域、如传感器网络,实时监控系统等,产生的数据流是不断变化的、连续到达的、数据值可能不确定、且必须被快速处理。其中有些操作,如数据流的实时窗口连接运算,非常消耗时间,这对数据流处理系统的性能提出了严峻的挑战。目前,大多数算法采用软件优化来提高处理速度,但其性能提高有限。利用GPU(图形处理器)的高并行度、多线程、高带宽的并行处理能力,设计了一种软硬件结合的方法来加速处理数据流的窗口连接操作。在CUDA(统一计算架构)下,由CPU控制将内存中的数据传输至GPU存储器中,然后利用多线程进行并行处理。实验验证了提出的方法可以大幅度提高多数据流窗口连接的处理速度,可达到纯软件处理的50倍左右。 江虹 钱江波 陈叶芳关键词:图形处理器 统一计算架构 不确定数据流 大规模复杂网络下重叠社区的识别 被引量:3 2015年 随着网络规模的不断扩大,经典的复杂网络重叠社识别算法已不能高效处理现有的大规模网络图数据.本文在GraphLab并行计算模型上提出了基于重要节点扩展的重叠社区识别算法DOCVN(Detecting the Overlapping Community algorithm based on Vital Node Expanding in GraphLab).算法选取网络中PageRank值大的节点作为重要节点,计算其他节点归属于重要节点的节点归属度,并以重要节点为中心形成核心社区及扩展社区,最后根据重要节点间的连接紧密度合并核心社区及扩展社区,并计算出每个节点在所属社区里的节点重要度,实现了大规模网络的重叠社区识别.实验表明该算法与PD(Propinquity Dynamics)等现有并行算法相比更能有效地识别大规模网络的重叠社区结构. 王诗懿 董一鸿 李志超 陈华辉 钱江波关键词:社会网络 Skyline代表点的选择 被引量:1 2015年 Skyline查询在多维决策和数据挖掘等方面发挥重要作用,然而随着数据属性维度的增大,Skyline集变得非常庞大.为克服该不足,提出Skyline代表点查询.文中提出新的评价函数改进Skyline点的得分计算方法以选择k个具有代表性的Skyline点.在二维空间提出动态规划算法(DPBA),利用覆盖圆的性质确定非代表点与代表点间的覆盖距离,迭代计算评价函数值,从而得到k个代表点;在高维空间针对NP-hard问题提出一个基于aR-tree结构的近似解决方法,遍历索引结构中的节点,通过与候选Skyline集比较判断是否被支配进行剪枝,降低计算开销.大量基于合成数据与真实数据的实验证明该算法的有效性. 杨立龙 董一鸿 何贤芒 钱江波关键词:SKYLINE查询 动态规划 一种基于LSH的时间子序列匹配查询算法 被引量:1 2015年 提出了一种基于LSH(locality sensitive hashing,局部敏感散列)算法处理时间子序列匹配问题的方法LSHSM。不同于FRM和Dual Match方法 ,该方法不需要对时间序列做DFT、DWT等特征变换,而是直接把序列看成高维数据点,利用LSH能处理高维数据的特性来查找相似时间子序列。实验采用3种不同的时间序列数据集,通过与线性扫描算法比较,验证了算法的有效性,性能有很大的提高。 刘根平 陈叶芳 杜呈透 钱江波关键词:匹配查询