搜索到59966篇“ 聚类算法“的相关文章
一种DPC算法的改进方法
本发明提出了一种DPC算法的改进方法,包括:S1、通过均值距离与截断中心,选取初始中心;S2、采用K‑Means的分配策略,根据所有数据点到每个初始中心的欧式距离进行分簇;S3、更新簇中心,进行中心偏移,对所...
伊卫国严羚玮宋旭东宋亮苏浩田万晓慧
融合密度和划分的文本算法
2024年
文档的经典应用,它是将相似的文档归为同一,可以有效地组织、摘要和导航文本信息,也可以用来提高分效果。论文使用BERT模型处理文档向量化,将文档表示为高维向量。传统的密度算法不适用于高维数据集,划分算法中的K-均值算法可以有效地文档,但是算法的性能非常依赖于初始中心点的选择。论文提出了一种新的融合密度和划分的文本算法。首先,通过密度选择适当的中心点集合,然后使用最远距离的想法逐渐选择初始中心点,最后使用划分方法对数据集进行。实验表明,该算法效果稳定,效果良好。
刘龙刘新蔡林杰唐朝
关键词:文档聚类K-均值算法
基于机器学习的茶树DNA算法
2024年
为了研究茶树基因序列的问题,设计一种基于累计方差贡献率进行改进的核主成分分析(KPCA)与k均值(k-means)++算法相结合的降维算法(KPCA-k-means++)。将基因库数据集筛选分组后,利用k-mers算法提取基因数据的数据特征,根据累计方差贡献率的占比大于85%的标准确定降维主元个数对KPCA进行降维改进并采用k-means++算法对降维后数据,通过CH(Calinski-Harabaze Index)指标和响应时间分析结果。结果表明:在单独、KPCA、改进PCA、改进KPCA4种处理方式中,改进KPCA-k-means++算法在不同处理方式和不同样本数的对比下,CH指标均为最高,与未改进时相比平均高出33%。在响应时间方面,改进KPCA-k-means++算法与同样改进PCA-k-means++算法在不同数和样本数的对比下响应时间均较短。改进KPCA-k-means++算法能够保证对于茶树的基因序列的准确率和速度,表现出极好的稳定性。
杨小平倪萍诸葛天秋罗跃新郭春雨庞月兰吴雨婷
关键词:核主成分分析K均值聚类算法基因聚类
基于信念子簇切割的模糊算法
2024年
信念峰值(BPC)算法是一种基于模糊视角的密度峰值(DPC)算法的新变体,它用模糊数学的观点刻画数据的分布特征与相关性。但BPC算法的信念值计算主要基于局部数据点信息,未考察数据集整体的分布和结构,且原始的分配策略鲁棒性弱。针对以上问题,提出一种基于信念子簇切割的模糊算法(BSCC),所提算法结合了信念峰值和谱方法。首先,通过局部信念信息将数据集划分为众多高纯度子簇;其次,将子簇视作新样本,通过簇间的相似关系,利用谱方法进行割图,从而耦合局部信息与全局信息;最后,将子簇内的点分配至子簇所在簇以完成最终。与BPC算法相比,BSCC在带有多子簇结构的数据集上具有明显优势,如在americanflag数据集和Car数据集上的准确率(ACC)分别提高了16.38个百分点和21.35个百分点。在合成数据集和真实数据集上的实验结果表明,BSCC在调整兰德系数(ARI)、归一化互信息(NMI)和ACC这3个评价指标上整体优于BPC和其他7种算法
丁雨张瀚霖罗荣孟华
关键词:聚类分析谱聚类
多维因素影响下的K-Hybrids算法
2024年
在实际问题中,进行分析的数据点常常受到很多因素的影响。本文针对多因素影响下的问题,提出了K-Hybrids算法,该算法考虑了过程中点的权重差异,以及数据点所属标签相似度的问题。用加权K-means算法过程进行调整,同时用基于独热编码的Jaccard相似度计算数据点之间的逻辑距离,最后引入权重因子对这两个影响因素进行整合。实验结果显示,该算法效果很好,更具有实际意义。大数据时代下,数据的产生、采集方式日新月异,对数据的处理技术也在飞速发展,如何提高对数据的处理速度、优化处理流程一直是人们研究的主要内容。
孙晶
关键词:聚类算法聚类分析聚类效果聚类过程
启发式k-means算法的改进研究
2024年
启发式k-means算法通过在k-means第一次迭代后查看附近的集群来预测每个数据点可能会被划分到的集群子集,有效地加快了算法的运行速度。但由于启发式算法存在随机选择初始中心以及无法有效识别数据集中离群点的缺陷,导致结果的误差平方和较大并且轮廓系数偏小。针对这一问题,提出了CHk-means算法,该算法引入仔细播种方法,克服了启发式k-means算法随机选择初始中心带来的局部最优解问题;该算法引入局部异常因子LOF算法对离群点进行检测,降低了离群点数据对结果的影响。在多个数据集上对3种算法进行对比试验,结果表明CHk-means算法可有效降低结果的误差平方和,增强的轮廓系数,使质量得到明显改善。
殷丽凤栗庆杰
关键词:聚类算法K-MEANS启发式算法局部异常因子离群点
一种同名文件算法优化方法及装置
本发明公开了一种同名文件算法优化方法及装置,其中方法包括如下步骤:将若干个同名文件随机划分为若干个集合,每个集合包括第一预设数量个同名文件;计算每个集合中的所有同名文件的两两相似度值,得到若干个子集合...
姚纪卫刘宾
一种邻域粒的模糊C均值算法
2024年
针对初始值和噪声的敏感性会导致模糊C均值效果下降这一问题,引入粒计算理论,采用邻域粒化技术,提出邻域粒模糊C均值算法。样本在单特征上使用邻域粒化技术构造邻域粒子,在多特征上粒化形成邻域粒向量,定义多种粒距离公式度量粒子之间的距离。根据粒距离度量,提出粒模糊C均值算法,采用多个数据集进行实验,将粒模糊C均值算法与经典算法进行比较,验证了所提出的邻域粒模糊C均值算法的可行性和有效性。
郑晨颖陈颖悦陈颖悦江连吉廖亮
关键词:粒计算模糊C均值聚类
一种同名文件算法优化方法及装置
本发明公开了一种同名文件算法优化方法及装置,其中方法包括如下步骤:将若干个同名文件随机划分为若干个集合,每个集合包括第一预设数量个同名文件;计算每个集合中的所有同名文件的两两相似度值,得到若干个子集合...
姚纪卫刘宾
一种基于可达距离的模糊C均值算法
2024年
设施选址对提高居民生活质量至关重要,利用地理可达相似性对空间元素进行分是求解此问题的重要方法。然而,现有的应用于地理可达性分析的算法存在地理可达性测度不准确、不涉及簇中心选取或簇中心不可达等缺陷,不能有效求解真实场景下的设施选址问题。基于此,本文提出一种基于可达距离的模糊C均值算法(Fuzzy C-Means based on Reachable Distance,FCM-RD)。FCM-RD算法改造了经典FCM算法的目标函数、隶属度函数和簇中心函数,使其适用基于可达距离的分析。其次,以沿路网的最短路径距离作为可达距离衡量元素间的地理可达相似性,将元素的二维地理坐标映射为路网坐标,并以此设计簇中心迭代机制,实现在过程中以可达距离迭代不受约束的可达簇中心。同时,对所提簇中心迭代机制的有效性进行理论分析和实验验证,结果表明,FCM-RD算法在每次迭代中所选的各簇簇中心唯一且为当前簇目标函数最小值点。最后,基于真实地理场景的仿真实验表明,相比基准算法,FCM-RD不仅能获得位置不受限的可达簇中心,而且能获得更好的效果,为实际场景下的地理空间方案提供了有效且精准的解决方案。
崔俊超张琼冰李小龙
关键词:空间聚类路网模糊C均值聚类

相关作者

王士同
作品数:655被引量:2,718H指数:21
供职机构:江南大学数字媒体学院
研究主题:支持向量机 模糊系统 模糊聚类 聚类 神经网络
焦李成
作品数:3,333被引量:8,652H指数:41
供职机构:西安电子科技大学
研究主题:SAR图像 图像 极化SAR 遥感图像 图像分类方法
吴嘉瑞
作品数:420被引量:2,676H指数:28
供职机构:北京中医药大学中药学院
研究主题:META分析 关联规则 网络药理学 数据挖掘 随机对照试验
罗可
作品数:115被引量:623H指数:12
供职机构:长沙理工大学
研究主题:聚类算法 粗糙集 聚类 数据挖掘 聚类分析
张冰
作品数:887被引量:5,781H指数:34
供职机构:北京中医药大学中药学院
研究主题:中药 关联规则 META分析 菊苣 药物警戒