国家重点基础研究发展计划(2012CB316201)
- 作品数:39 被引量:207H指数:8
- 相关作者:于戈申德荣聂铁铮寇月谷峪更多>>
- 相关机构:东北大学辽宁科技大学中国刑事警察学院更多>>
- 发文基金:国家重点基础研究发展计划国家自然科学基金中央高校基本科研业务费专项资金更多>>
- 相关领域:自动化与计算机技术更多>>
- 基于差分隐私的频繁序列模式挖掘算法被引量:8
- 2017年
- 针对当数据集含有敏感信息时,直接发布频繁序列模式本身及其支持度计数都有可能泄露用户隐私信息的问题,提出一种满足差分隐私(DP)的频繁序列模式挖掘(DP-FSM)算法。该算法利用向下封闭性质生成候选序列模式集,基于智能截断方法从候选模式中挑选出频繁的序列模式,最后采用几何机制对所选出模式的真实支持度添加噪声进行扰动。另外,为了提高挖掘结果的可用性,设计了一个阈值修正的策略来减小挖掘过程中的截断误差和传播误差。理论分析证明了该算法满足ε-差分隐私。实验结果表明了该算法在拒真率(FNR)和相对支持度误差(RSE)两个指标上明显低于对比算法PFS2,有效地提高了挖掘结果的准确度。
- 李艳辉刘浩袁野王国仁
- 关键词:隐私保护数据挖掘
- 基于可信度的投票列表合并算法被引量:1
- 2016年
- 在投票系统中,每个投票人按照自己对候选人的认可程度对候选人进行排名,从而得到大量的有序投票列表.为了从这些列表中得到一个综合投票结果,需要找到一种合理有效的列表合并算法,综合分析列表数据并将它们合并为一个综合列表.本文提出一种基于可信度的投票列表合并算法,其基本思路是:通过综合分析投票列表中蕴含的众多排名信息,度量出每个列表中每条排名信息可被采信的程度,简称为可信度,然后基于已经得到的可信度,让那些高可信度的排名信息在综合排名中发挥更大的作用,从而得到一个更好的综合排名结果.实验结果充分表明,本文提出的算法能够更有效地挖掘出排名信息的可信度,从而得到准确度更高的合并结果.
- 杨红果申德荣寇月于戈
- 关键词:投票系统综合排名
- 面向海洋监测的传感数据可用性评价技术
- 2015年
- 无线传感器网络已成为监测海洋环境信息的一种重要手段,然而由于传感设备部署的范围和密度不同,造成不同位置的感知数据的可用性差异很大,针对此建立模型并进行评价对于高质量的数据获取和清洗具有重要的意义。基于传感器节点的感知模型、能耗模型和改进的Leeway漂流模型,面向感知数据的可靠性和时效性两个方面,建立了围绕海洋监测应用的综合评判指标,进一步提出数据采集船航行路线的评价方法和数据源的选择方法,最后通过实验验证了提出模型和方法的有效性。
- 刘红蕾张峰谷峪鲍玉斌李芳芳于戈
- 关键词:数据质量海洋监测无线传感器网络
- 数据空间中数据模型及实体关联关系挖掘的研究被引量:8
- 2012年
- 数据模型的研究是目前数据空间中研究的主要问题之一,是数据空间管理系统提供其它服务的基础.由于数据空间中多种异构性数据资源的共存和松散连接的特点,有必要提出一个有效、简单而且通用的数据模型来描述和管理这些数据.本文提出了分层的图数据模型lgDM来描述数据空间中的各种数据并捕捉实体间和实体类间的语义关联信息;并给出了实体关联关系挖掘的不同策略和对图加权重的方法.lgDM具有较好地通用性和扩展性,实验结果表明所提出模型的可行性和有效性.
- 杨丹申德荣聂铁铮于戈寇月
- 关键词:数据空间数据模型
- 大图数据上顶点驱动的并行最小生成树算法被引量:7
- 2014年
- 最小生成树(minimum spanning tree,MST)是图论中最为经典算法之一.基于MST结构的聚类、分类和最短路径查询等复杂图算法,在效率和结果质量方面均有显著提高.然而,随着互联网的迅猛发展,图数据规模也变得越来越大,包含千万甚至上亿个顶点的大图数据越发常见.因此,如何在大图数据上实现查询处理和数据挖掘算法已成为亟待解决的问题之一.除此之外,由于大图数据的动态性特征,如何动态地维护算法结果也势必成为最受关注的问题之一.针对目前集中式的最小生成树算法无法解决海量和动态图数据的问题,首先提出了分区Prim(partition Prim,PP)算法,基于此提出了顶点驱动的并行MST算法——PB(PP Boru。vka)算法,并论证了PB算法的正确性.另外,基于MapReduce和BSP框架实现了PB算法.针对只删除动态图特征,提出了MST维护算法,以实现高效的增量计算.对提出的计算和维护算法进行了代价分析和比较.最后,使用真实和模拟数据集,验证了PB算法和维护算法的有效性、高效性和可扩展性.
- 谷峪杨佳学鲍玉斌于戈
- 关键词:最小生成树
- 基于外存后缀树的top-k局部比对算法
- 2016年
- 局部比对是一种衡量字符串间相似程度的技术,它在生物信息学领域具有十分重要的作用.介于此,许多学者已对其进行了深入的研究.然而,随着数据规模的扩大,常规的内存算法已不适用于支持大规模文本数据的局部比对.为解决上述问题,该文研究了基于外存后缀树的top-k局部比对算法.它从根本上消除了内存空间对算法的束缚.为了提高算法的性能,该文首先将经典内存算法中的过滤策略引入该文.通过适当的修改,这些策略可以基于外存后缀树有效地降低计算开销.其次,该文提出一种巧妙的算法支持top-k局部比对查询.该算法通过引入启发式策略有效规避了TA算法的固有问题.具体地,它一方面可以提高算法的过滤能力,另一方面可以降低候选对象的维护代价.再次,该文对外存后缀树和磁盘的工作原理进行了研究.基于此,该文提出一种槽的结构支持查询.该结构既可以实现磁盘的顺序访问,又可以降低磁盘的访问次数.因此,它可以有效提高算法的查询效率.最后,大量的实验验证了该文所提出算法的有效性.
- 王斌朱睿杨晓春王国仁于戈
- 关键词:TOP-K
- 面向Web数据集成的真值发现算法被引量:8
- 2016年
- 在Web数据集成中,常出现多个数据源对同一实体对象的描述存在冲突.解决冲突,发现真值有助于提高数据集成质量或构建高质量的知识库等.已有的解决单真值数据冲突的方法存在数据源评价指标不充分,无法区分数据源的数据缺失和假真,以及无法处理数据源间传递复制、共同复制等高阶复制的局限性.因此,本文采用召回率和假真率度量数据源质量,提出能处理数据源间复杂数据复制的真值发现算法.三个真实数据集和人工数据集上的实验结果表明,本文算法能有效降低错误数据复制带来的真值计算偏差,提高真值发现的准确率.
- 余东申德荣寇月聂铁铮于戈
- 关键词:数据复制数据冲突数据集成
- 基于内容相关的条件函数依赖的一致性清洗方法被引量:1
- 2016年
- 基于条件函数依赖提出了一种内容相关的条件函数依赖,并给出基于内容相关的条件函数依赖的一致性清洗方法.通过分析条件函数依赖之间的关系,将相关联的条件函数依赖合并组成内容相关的条件函数依赖.内容相关的条件函数依赖可以检测多条件值下的数据一致性问题并提供可用于一致性修复的参考值.同时,提出了一种一致性修复的代价模型.模型参考内容相关的条件函数依赖对应元组的实际情况进行修复,实现代价最优,同时保证数据一致性.通过在两组真实数据集上进行试验测试,证明提出的基于内容相关的条件函数依赖的一致性清洗方法能够准确地检测数据的一致性问题并加以修复.
- 杜岳峰申德荣张亮于戈
- 关键词:数据清洗条件函数依赖数据一致性
- 异构网络中关联实体识别模型及增量式验证算法研究被引量:6
- 2013年
- 利用关联实体识别技术可以对异构网络中主题相关的实体进行检测并整合,更好地帮助用户理解搜索目标.然而,目前关联实体识别技术考虑的因素较为单一、对识别结果缺乏验证而影响识别准确性.文中提出了一种两阶段的关联实体识别模型,充分考虑了实体的模式特征与属性特征.此外,提出了一种增量式验证算法,基于迭代对识别结果进行增量式的验证并修正,以保证结果的准确性.通过实验验证了文中所提出的关键技术的可行性和有效性.
- 寇月申德荣刘恒王泰明聂铁铮于戈
- 关键词:异构网络迭代
- 一种基于数据质量的异构多源多模态感知数据获取方法被引量:21
- 2013年
- 近年来,物联网由于其广阔的应用前景得到快速发展,感知设备的种类也越来越丰富.并且很多应用中均通过部署多个相互独立的异构数据源对监测对象的多维属性进行度量,由此得到异构多源多模态感知数据.但由于硬件设备固有的限制以及环境噪声等因素的影响,感知设备不可避免地存在漏读、多读、错读等现象,导致感知数据的数据质量降低.而数据是信息的载体,其能否准确反映物理世界的真实信息是决定其在上层应用中发挥效用的关键.基于此,该文提出一种基于数据质量的异构多源多模态感知数据获取方法.首先定义了数据质量的3个方面:准确性、完整性和一致性;进而对数据质量在这3个方面进行建模,提出评价异构多源多模态感知数据综合数据质量的方法;最后提出基于数据质量的感知数据获取算法,根据用户给定的任意精度,选择部分数据源用于数据传输,在保证数据质量的前提下尽可能地减少网络资源的消耗,并通过大量实验验证了算法的高效性和可用性.
- 马茜谷峪张天成于戈
- 关键词:多模态数据质量数据获取