国家重点基础研究发展计划(2012CB316200) 作品数:58 被引量:610 H指数:10 相关作者: 李建中 高宏 黄冬梅 王宏志 王振华 更多>> 相关机构: 哈尔滨工业大学 上海海洋大学 黑龙江大学 更多>> 发文基金: 国家重点基础研究发展计划 国家自然科学基金 中国博士后科学基金 更多>> 相关领域: 自动化与计算机技术 环境科学与工程 社会学 经济管理 更多>>
大规模数据清洗关键技术研究 随着信息技术的快速发展,数据规模的急剧增长以及数据种类的不断丰富,“数据即资产”的核心理念已经得到企业和政府机构的广泛认可。作为科技创新的原动力,“数据”在资产中的占比不断攀升,日益成为继“土地”和“资本”之后又一重大的... 樊峰峰关键词:数据清洗 一种扩展条件函数依赖的发现算法 被引量:5 2015年 扩展条件函数依赖(extended conditional functional dependency,eCFD)是一种描述数据一致性的语义规则,是条件函数依赖(conditional functional dependency,CFD)的扩展.相比于CFD,eCFD能够描述更多的模式从而表达更丰富的语义信息.然而,关注eCFD的研究工作并不多.从给定数据中发现eCFD规则是一个重要问题,据笔者所知,目前还没有这方面的工作.该问题的难点在于,给定数据中所有合法的eCFD规则之间存在不一致的情况,且包含大量冗余,而CFD和传统的函数依赖规则并没有这样的问题.为避免不一致,同时尽可能地消除冗余,定义了"强合法eCFD"和"近似无冗余eCFD".基于这些概念给出了eCFD发现问题的形式化定义,并给出了MeCFD算法.利用划分属性的方法,MeCFD首先生成所有的基本eCFD,然后,通过合并基本eCFD来构造"组合eCFD".使用先深序来搜索候选空间,使得MeCFD仅用常数的存储空间来维护数据划分,节省了大量的空间开销,有效的剪枝策略被用来改进MeCFD的性能.真实数据集上的实验结果显示出MeCFD良好的可扩展性以及剪枝策略和优化方法的有效性. 刘显敏 李建中关键词:搜索算法 剪枝策略 冗余 不一致数据上查询结果的一致性估计 被引量:2 2015年 主键约束是描述关系数据一致性的常用方法,基于主键约束的数据一致性修复返回一个极大子集,子集中不同数据的主键不同.对于合取查询Q,一致性合取查询返回一个答案集合,答案集合是Q在数据集合I的每一个修复下查询结果的交集.文中将Q在I中的查询结果满足一致性的个数占总的结果个数的比例定义为查询结果的一致性程度.若Q不可一阶表达且不能在多项式时间内得到其一致性解,则当Q答案个数超过30时,使用抽样的方法给答案集合一致性程度的一个(ε,δ)-估计.由于布尔合取查询的一致性判定问题是coNP-完全问题,因此在估计过程中,使用攻击图,通过攻击图对布尔查询q进行改写近似判断q近似一致性回答.实验表明了估计算法和近似判定算法具有较高的效率和准确率. 刘雪莉 李建中大数据的一个重要方面:数据可用性 被引量:265 2013年 随着信息技术的发展,特别是物理信息系统、互联网、云计算和社交网络等技术的突飞猛进,大数据普遍存在,正在成为信息社会的重要财富,同时也带来了巨大的挑战.数据可用性问题就是大数据的重要挑战之一.随着数据的爆炸性增长,劣质数据也随之而来,数据可用性受到严重影响,对信息社会形成严重威胁,引起了学术界和工业界的共同关注.近年来,学术界和工业界开始研究数据可用性问题,取得了一些的研究成果,但是针对大数据可用性问题的研究工作还很少.介绍了大数据可用性的基本概念,讨论大数据可用性的挑战,探讨大数据可用性方面的研究问题,并综述数据可用性方面的研究成果. 李建中 刘显敏关键词:大数据 数据可用性 数据一致性 数据完整性 利用AQL的逐批海洋大数据质量检验模型 2014年 海洋数据的质量是数据处理和应用的基础,如何准确高效地评价海洋数据的质量是制约其精确有效应用的关键问题之一.质量检验方案主要涉及3个参数,即批量、样本量和接收数,而现有的质量检验方案大多集中于样本量与接收数之间的关系推导,忽略了数据批量对于质量检验方案的影响.此类方案不适用于批量大小不固定的海洋大数据的质量检验.针对该问题,通过基于接收质量限(acceptance quality limit,AQL)提出了符合超几何分布的海洋大数据优化质量检验模型,建立了批量和样本量之间的联系,平衡了数据生产方和使用方对于数据精确度的需求.最后,通过与传统质量检验模型的比较,验证了其对海洋大数据质量检验的有效性. 黄冬梅 周雪楠 王振华关键词:超几何分布 复杂数据上的实体识别技术研究 被引量:19 2011年 复杂数据当前有着广泛的应用.有效地使用复杂数据需要对其质量进行管理.实体识别是数据质量管理的基本操作,用于在数据集合中发现同一实体的不同描述,其在数据质量管理中可以用于错误检测、不一致数据发现等.由于包含复杂的结构信息,复杂数据上的实体识别与传统文本和关系数据上的实体识别不同,带来了新的技术上的挑战.该文介绍了复杂数据上实体识别的概念和应用,分别讨论了XML数据、图数据和复杂网络上实体识别技术的原理,最后展望了未来的研究方向. 王宏志 樊文飞关键词:数据质量 复杂数据 复杂网络 基于标签权重评分的推荐模型及算法研究 被引量:37 2017年 推荐系统已经被越来越频繁地应用到电子商务网站与一些社交网站,在提高用户满意度的同时也带来了巨大的商业利益.然而,当前的推荐算法由于原始数据的不完整性以及算法本身处理数据的特殊性,导致推荐效果不理想.例如,某些推荐系统会产生冷启动、复杂兴趣推荐困难、解释性差等问题.为此,该文提出一种基于标签权重评分的推荐系统模型(Label-Weight Rating based Recommendation,LWR),旨在使用一种较为简洁的方式——标签权重评分来获取用户最准确的评价和需求,并通过改进当前的一些推荐算法来处理标签权重评分数据,从而生成对用户的推荐,最后以标签权重评分的形式向用户展示推荐结果并作出合理的解释.扩展实验中,通过电影推荐实验,证明了该文技术的有效性和可行性. 孔欣欣 苏本昌 王宏志 高宏 李建中关键词:推荐系统 标签 数据挖掘 人工智能 TSEA:极地科考在线系统中海量走航数据的剔除算法 被引量:1 2017年 在对环境极端恶劣的两极区域进行科考的过程中,科考船状态的实时监控及反馈是推动极地科考事业的重要保障。在极地科考过程中,由于走航数据采集频率高,监测手段多样化,催生了具有多源、多类、多态等特性的海量数据,因此如何实时在线快速展示极地科考走航数据是21世纪海洋事业面临的巨大挑战。针对极地监控业务化平台中的快速可视化关键问题,提出了TSEA(Time-Space elimination algorithm)数据剔除算法,通过对数据进行冗余剔除及压缩等操作,使得在对数据进行快速展示时更加快速与高效。TSEA算法在极地科考在线系统中提供了技术支撑,已投入使用于第31次南极科学考察,并得到了相关单位的一致好评。 黄冬梅 韦躐晟 王振华 何盛琪 苏诚 黄雅馨PEIF:基于并行机群的大数据实体识别算法 被引量:4 2013年 数据清洗中很重要的一步是实体识别,实体识别要做到将数据与实际物体一一对应.但其中有2个问题:一个是同一个物体可能具有不同或者相似的名字,这会造成有大量重复的数据需要清理;另一个是同一个名字可能代表着不同的物体即为重名现象,这会给清洗工作带来阻碍需要识别并避免.而现有的算法大多只是解决了第1个问题,只有在EIF系统中同时解决两个问题.可是EIF系统又不适宜解决数据量较大的问题且其中的解决同一物体不同名字问题的算法有待提高.因此利用并行处理平台Hyracks设计并行算法,提出了PEIF:基于并行机群的大数据实体识别算法.此算法借助n-Gram算法辅助解决同一物体有不同名字的问题,在较短的时间内高效地对大数据进行实体识别.理论分析和实验结果表明提出的算法可以快速有效地对大数据进行实体识别. 李明达 王宏志 张佳程 李建中 高宏关键词:大数据 高效的实体匹配结果消解算法 2013年 实体同一性检测问题,即实体识别问题,是数据质量领域一个比较热门的研究问题.利用运行在两个实体上的实体匹配算法求解实体识别问题是目前研究工作中最主要的一个思路.然而,实体匹配算法的输出结果中可能有"歧义",使得算法的输出很难直接转化为实体识别问题的结果.考虑如何利用额外的知识来消去这种"歧义",形式化定义了实体匹配结果消解问题.该问题被证明是NP-完全问题.一个基于线性规划的近似算法Round被给出,它的近似比是O(log n),针对特殊情况,一个随机近似算法KwikResolution被给出.考虑到两个算法各自的不足,4个直观的启发式算法被给出.实验结果验证了理论分析的结果,并且证明了给出的启发式算法是有效的. 刘显敏 李建中关键词:消解 启发式算法