姜高霞 作品数:29 被引量:67 H指数:6 供职机构: 山西大学计算机与信息技术学院 更多>> 发文基金: 国家自然科学基金 山西省回国留学人员科研经费资助项目 山西省高等学校科技创新项目 更多>> 相关领域: 自动化与计算机技术 理学 经济管理 文化科学 更多>>
一种个性化k近邻的离群点检测算法 被引量:11 2020年 在基于近邻思想的离群点检测算法中,参数k的选择是无法避免的,而k值过大或者过小都会对检测效果产生很大的影响.因此,如何选择k值是近邻方法研究中的重要内容之一.本文提出一种个性化k近邻(Personalized k-Nearest Neighbor,PKNN)的离群点检测方法,其每一个数据点的近邻个数是由算法自动确定,而不需要人为指定.位于稠密区域的点具有更多邻居,而位于稀疏区域的点具有更少的邻居.因此,PKNN方法确定的个性化近邻参数,更符合数据集的直观分布.实验结果表明,与现有方法相比,PKNN算法有很好的离群点检测效果. 樊瑞宣 姜高霞 王文剑关键词:离群点检测 参数选择 基于局部概率抽样的标签噪声过滤方法 被引量:4 2021年 分类学习任务中,在获取数据的过程中会不可避免地产生噪声,特别是标签噪声的存在不仅使得学习模型更复杂,而且容易造成过拟合并导致分类器泛化能力的下降。标签噪声过滤算法虽然在一定程度上可以解决上述问题,但是仍然存在噪声识别能力较差、分类效果不够理想以及过滤效率低等问题。针对这些问题,提出一种基于标签置信度分布的局部概率抽样方法来进行标签噪声过滤。首先利用随机森林分类器对样本的标签进行投票,从而获取每个样本的标签置信度;然后根据标签置信度的大小,将样本划分为易识别样本和难识别样本;最后分别采用不同的过滤策略对样本进行过滤。实验结果表明,在标签噪声存在的情况下,所提方法在大多数案例上能够保持较高的噪声识别能力,并且在分类泛化性能上也具有明显优势。 张增辉 姜高霞 王文剑关键词:噪声过滤 面向回归任务的数值型标签噪声过滤算法 被引量:8 2022年 回归任务中的数值型标签噪声可能误导模型训练,进而弱化模型泛化能力.作为一种常用的标签噪声处理技术,噪声过滤通过去除误标记样本来降低噪声水平,但无法保证过滤后模型能够获得更好的泛化表现.一些过滤算法过于关注噪声水平,以至于大量无噪样本也被去除.尽管已有样本过滤框架能够平衡样本去除量和噪声水平,但其形式过于复杂不利于直观理解和实际应用.根据无噪回归任务中的学习理论提出了面向数值型标签噪声数据的泛化误差界,从而明确了影响模型泛化能力的关键数据因素(数据量和噪声水平).在此基础上提出一种可解释的噪声过滤框架,其目标是以较小的样本去除代价最大程度地降低噪声水平.针对噪声估计问题,从理论上分析了噪声与覆盖区间关键指标(中心和半径)之间的变化趋势,进而构建了相对噪声估计方法.此方法与所提框架结合形成了相对噪声过滤(relative noise filtering,RNF)算法.在标准数据集和年龄估计数据上均验证了算法的有效性.实验结果表明:该算法能够适应各类噪声数据,显著提升模型泛化能力.在年龄估计数据上RNF算法检测出一些标签噪声数据,有效提升了数据质量和模型预测性能. 姜高霞 王文剑关键词:噪声过滤 极限距离噪声估计与过滤方法 被引量:1 2023年 近年来,机器学习不断取得显著性进展并被成功应用于诸多领域,然而很多学习模型或算法高度依赖数据的标签质量。实际应用中大量数据集普遍存在复杂的标签噪声,因此机器学习在低质数据建模和标签噪声处理方面面临严峻挑战。文中针对回归中的数值型标签噪声,从理论分析和仿真实验的角度研究了标签估计区间与噪声的关联性,提出了一种极限距离噪声估计方法。在最优样本选择框架下,基于此噪声估计方法提出了一种极限距离噪声过滤(Limit Distance Noise Filtering, LDNF)算法。实验结果表明,所提噪声估计方法与真实标签噪声具有更高的相关性和更低的估计偏差。在标准数据集和真实年龄估计数据集上证实了所提过滤算法可以在不同噪声环境下有效识别标签噪声并减小模型的测试误差,其表现优于最新的其他过滤算法。 姜高霞 秦佩 王文剑关键词:噪声估计 基于主动学习的标签噪声清洗方法 被引量:4 2020年 在监督分类学习中,标签噪声对模型有重要的影响;而现有的标签噪声过滤方法一般都是基于模型的预测结果对噪声样本进行检测并去除,当噪声样本较多时,去除噪声样本的同时将会影响原来样本的完整性,使样本信息缺失。针对这一问题,提出一种基于主动学习的标签噪声清洗方法(active label noise cleaning based on classification with gaussian process,GP_ALNC),该方法将高斯过程模型和主动学习相结合,从已有标签样本集中筛选出不确定性最高的样本交给人工专家进行检验,通过这种迭代方法清洗掉大部分噪声数据的同时保持了原有数据的完整性;并针对二分类任务中的标签噪声问题,在MNIST数据集和UCI数据集上,与已有方法ALNR(active label noise removal)以及ICCN_SMO(iterative correction of class noise based on SMO)进行了实验对比,并取得了不错的表现。 孟晓超 姜高霞 王文剑关键词:高斯过程 考虑季节及地域的月降水量三层回归模型及应用 2012年 基于不同地域月降水量的特点,采用聚类方法选取两个具有代表性地域的气象数据。将交互结构数据转化为嵌套分组结构形式,从而将地域因素和季节因素作为层次效应纳入分层线性模型(HLM)。据此建立相应的三层线性模型(HLM3),按照模型理论方法进行模型计算、优化和分析以解释层次效应和检验残差。结果表明,各层解释变量(气象因素、季节效应、地域效应)能很好地解释月降水量的差异,定量指导不同地域不同季节月降水量的回归。 朱勇华 姜高霞关键词:月降水量 基于相对离群因子的标签噪声过滤方法 2024年 分类任务中含有类别型标签噪声是传统数据挖掘中的常见问题,目前还缺少针对性方法来专门检测类别型标签噪声.离群点检测技术能用于噪声的识别与过滤,但由于离群点与类别型标签噪声并不具有一致性,使得离群点检测算法无法精确检测分类数据集中的标签噪声.针对这些问题,提出一种基于离群点检测技术、适用于过滤类别型标签噪声的方法--基于相对离群因子(Relative outlier factor,ROF)的集成过滤方法(Label noise ensemble filtering method based on rel-ative outlier factor,EROF).首先,通过相对离群因子对样本进行噪声概率估计;然后,再迭代联合多种离群点检测算法,实现集成过滤.实验结果表明,该方法在大多数含有标签噪声的数据集上,都能保持优秀的噪声识别能力,并显著提升各种分类模型的泛化能力. 侯森寓 姜高霞 王文剑关键词:离群点检测 噪声过滤 基于非均匀采样的相关系数最大化曲线排齐方法 被引量:2 2016年 在函数型数据分析中,为提高曲线排齐效率,提出如下2种非均匀采样方法对函数曲线进行排齐:基于斜率的非均匀采样(SBNS)和基于弧长的非均匀采样(ALBNS).SBNS按照函数曲线的斜率大小采样,ALBNS在函数曲线的弧长上采样.这两种方法都不是在时间轴上均匀采样,而是根据曲线的形状特征进行采样,因此可在一定程度上克服均匀采样方法由于采样点数量和位置分配不当而产生的缺陷,提高曲线排齐效果.在模拟数据和真实数据上的实验表明,两种方法在时间效率和效果上均优于均匀采样方法. 张文凯 王文剑 姜高霞关键词:函数型数据 非均匀采样 弧长 有序标签噪声的鲁棒估计与过滤方法 2024年 较大规模的标注数据集中难免会存在标签噪声,这在一定程度上限制了模型的泛化性能。有序回归数据集的标签是离散值,但不同标签之间又有一定次序关系。虽然有序回归的标签兼有分类和回归标签的特征,但面向分类和回归任务的标签噪声过滤算法对有序标签噪声并不完全适用。针对此问题,提出了标签含噪时回归模型的Akaike泛化误差估计,在此基础上设计了面向有序回归任务的标签噪声过滤框架。此外,提出了一种鲁棒的有序标签噪声估计方法,其采用基于中位数的融合策略以降低异常估计分量的干扰。最后,该方法与所提框架结合形成了噪声鲁棒融合过滤(Robust Fusion Filtering,RFF)算法。在标准数据集和真实年龄估计数据集上均验证了算法的有效性。实验结果表明,在有序回归任务中,RFF算法性能优于其他分类和回归过滤算法,能够适应不同类型的噪声数据,并有效提升数据质量和模型泛化性能。 姜高霞 王菲 许行 王文剑关键词:噪声过滤 标记相关性修正的多标记众包标签推断方法 2024年 众包平台的快速发展使人们获取数据标签变得较为容易,但由于标记者的知识水平、评价标准等均存在显著差异,导致获得的标签质量参差不齐.特别是对于多标记数据,由于每个样本可能有多个不同标记,且不同样本的标记数量不同,所以通过众包标注获取多标记数据的标签时,标注者很难为每个样本提供完整准确的数据标签.针对多标记众包标签推断问题,提出基于标记相关性修正(Label Dependence Correction,LDC)的多标记众包标签推断框架,首先使用单标记众包标签推断算法给出每个标记的初步推断结果,然后通过度量标记间的相关性更新和纠正不可靠的初始标记推断结果.实验结果表明,与经典的众包多标记方法相比,本文提出的框架与单标记算法融合后可以有效提升多标记众包标签推断的性能. 刘昕雨 张琳 姜高霞 王文剑关键词:多标记学习