广东省科技计划工业攻关项目(2010B050400011) 作品数:8 被引量:69 H指数:4 相关作者: 郝志峰 温雯 蔡瑞初 谢光强 李杨 更多>> 相关机构: 广东工业大学 华南理工大学 更多>> 发文基金: 广东省科技计划工业攻关项目 国家自然科学基金 广东省自然科学基金 更多>> 相关领域: 自动化与计算机技术 更多>>
差分隐私DPE k-means数据聚合下的多维数据可视化 被引量:3 2013年 近年来隐私保护下的数据挖掘发展迅速,但应用广泛的数据可视化中的隐私保护问题则成果鲜见,差分隐私保护是一种新兴的具有广阔发展前景的隐私保护方法,目前,差分隐私保护下的多维数据可视化方法却未见报道.文章研究如何在数据可视化的过程中满足差分隐私保护.现有的DP k-means算法不支持较大的k,因此在数据聚合的过程中仅有理论意义.提出一个ε-Differential Privacy Equipartition k-means算法(DPE k-means),能够支持较大的k,较好地解决了可视化中数据的叠加问题,在一定的隐私保护级别下极大地改善了数据可视化后的图像质量.仿真实验中计算了衡量数据聚合质量的几项指标,结果表明DPE k-means算法优于现有的DP k-means算法. 李杨 郝志峰 肖燕珊 袁淦钊 谢光强关键词:K-均值 数据聚合 数据可视化 基于多扰动的局部自适应软子空间聚类融合算法 被引量:1 2014年 提出基于随机初始化、参数扰动和特征子集映射的多扰动的局部自适应软子空间聚类(LAC)融合算法(MLACE)。MLACE具有以下特点:(i)多扰动融合:从初始化、参数和特征子集等不同侧面,探测数据内部结构,使之相互融合,从而达到改善聚类正确性的目的;(ii)融合信息提升:根据LAC算法输出的子空间权重矩阵,定义数据属于每一类的概率,形成提升的融合信息;(iii)融合一致性函数改进:融合信息的形式由0/1二值信息转换成[0,1]实值信息,因此,一致性函数采用了性能较优的实数值融合算法Fast global K-means来进一步改善融合正确性。实验选取2个仿真数据库和5个UCI数据库测试MLACE的聚类正确性,实验结果表明,MLACE聚类正确性优于K-means、LAC、基于参数扰动LAC融合算法(P-MLACE)。 王丽娟 郝志峰 蔡瑞初 温雯关键词:聚类融合 融合信息熵与信任机制的防攻击推荐算法研究 被引量:4 2015年 由于对用户偏好信息的过分依赖,致使推荐系统易受到恶意攻击,从而影响系统的推荐质量。提出一个融合信息熵与信任机制的防攻击推荐算法。在考虑了托攻击与正常用户之间的评分变化幅度差异基础上,提出融合信息熵的相似性改进算法,同时引入信任更新机制,在推荐过程中将用户间信任度与相似度有机相结合,通过筛选推荐权重较高的邻居用户方法获得可靠推荐,从而降低恶意攻击对系统的影响。通过在真实数据集上实验表明该算法在提高推荐系统的准确性和脆弱性上有较好的表现。 郝志峰 牛晓龙 蔡瑞初 温雯关键词:协同过滤 恶意攻击 脆弱性 质量度量指标驱动的数据聚合与多维数据可视化 被引量:3 2013年 以多维数据可视化为研究对象,在质量度量模型下,采用数据聚合为基本手段,来提高多维数据可视化的图像质量.在质量度量指标驱动的框架下提出了均分K-means++数据聚合算法,在传统K-means算法的基础上,专门以数据可视化为目的对算法进行了改进,使得算法聚合得到的数据既能够较好地保持原数据的大部分特性,又能显著地提高可视化后的图像质量.仿真实验证明,在不同的数据抽象级别DAL下,无论是图像质量指标还是质量度量指标HDM(直方图差值度量)、NNM(最近邻距离度量),算法都表现出了较好的仿真结果. 李杨 郝志峰 谢光强 袁淦钊关键词:数据空间 数据聚合 K-均值 多维数据可视化 基于随机取样的选择性K-means聚类融合算法 被引量:4 2013年 由于缺少数据分布、参数和数据类别标记的先验信息,部分基聚类的正确性无法保证,进而影响聚类融合的性能;而且不同基聚类决策对于聚类融合的贡献程度不同,同等对待基聚类决策,将影响聚类融合结果的提升。为解决此问题,提出了基于随机取样的选择性K-means聚类融合算法(RS-KMCE)。该算法中的随机取样策略可以避免基聚类决策选取陷入局部极小,而且依据多样性和正确性定义的综合评价值,有利于算法快速收敛到较优的基聚类子集,提升融合性能。通过2个仿真数据库和4个UCI数据库的实验结果显示:RS-KMCE的聚类性能优于K-means算法、K-means融合算法(KMCE)以及基于Bagging的选择性K-means聚类融合(BA-KMCE)。 王丽娟 郝志峰 蔡瑞初 温雯关键词:聚类融合 K-MEANS 基于实数值链接分析的ESSC融合算法 2014年 为了进一步提升ESSC聚类融合性能,采用实数值链接分析(real valued link analysis)计算聚类融合中模糊数据类的相似性。根据模糊决策及其相似性定义优化的融合信息,从而达到改进聚类性能的目的。实验选用了两个仿真数据库和五个UCI数据库。实验结果表明,基于实数值链接分析的ESSC聚类融合算法(RLA-ESSCE)的性能优于K-means聚类算法(KMC)、ESSC、ESSCE。 王丽娟 郝志峰 蔡瑞初 温雯关键词:聚类融合 基于全局变量CRFs模型的微博情感对象识别方法 被引量:7 2015年 微博行文具有较大的自由性,其中情感对象识别是一个困难的问题,尤其是情感对象未显性出现情况下的情感对象识别,暂未发现有效解决方法。该文针对这一难题,结合中文微博的特点,提出了一种改进的条件随机场的模型。该模型把情感对象识别看作一个序列标记问题,通过在传统的CRF序列标记模型上增加情感对象的全局节点,有效地结合上下文信息、句法依赖以及情感词典,从而可以识别出微博中的情感对象。该方法的优势在于能够应用于情感对象未显性出现的情况。实验结果表明该方法比现有方法能更有效地识别出微博中的情感对象。 郝志峰 杜慎芝 蔡瑞初 温雯关键词:条件随机场 信息抽取 情感分析 差分隐私保护k-means聚类方法研究 被引量:48 2013年 研究了基于差分隐私保护的k-means聚类隐私保护方法。首先介绍了隐私保护数据挖掘和隐私保护聚类分析的研究现状,简单介绍了差分隐私保护的基本原理和方法。为了解决差分隐私k-means聚类方法聚类结果可用性差的问题,提出了一个新的IDP k-means聚类方法,并证明了其满足ε-差分隐私保护。最后的仿真实验表明,在相同隐私保护级别下,IDP k-means聚类方法与差分隐私k-means聚类方法相比,聚类可用性得到了较大程度的提高。 李杨 郝志峰 温雯 谢光强关键词:K-均值 聚类 隐私保护