搜索到59966 篇“ 聚类算法 “的相关文章
一种DPC聚 类 算法 的改进方法 本发明提出了一种DPC聚 类 算法 的改进方法,包括:S1、通过均值距离与截断中心,选取初始聚 类 中心;S2、采用K‑Means的分配策略,根据所有数据点到每个初始聚 类 中心的欧式距离进行分簇;S3、更新簇中心,进行中心偏移,对所... 伊卫国 严羚玮 宋旭东 宋亮 苏浩田 万晓慧融合密度和划分的文本聚 类 算法 2024年 文档聚 类 是聚 类 的经典应用,它是将相似的文档归为同一类 ,可以有效地组织、摘要和导航文本信息,也可以用来提高分类 效果。论文使用BERT模型处理文档向量化,将文档表示为高维向量。传统的密度聚 类 算法 不适用于高维数据集,划分聚 类 算法 中的K-均值算法 可以有效地聚 类 文档,但是算法 的性能非常依赖于初始中心点的选择。论文提出了一种新的融合密度和划分的文本聚 类 算法 。首先,通过密度选择适当的聚 类 中心点集合,然后使用最远距离的想法逐渐选择初始类 中心点,最后使用划分方法对数据集进行聚 类 。实验表明,该算法 的聚 类 效果稳定,聚 类 效果良好。 刘龙 刘新 蔡林杰 唐朝关键词:文档聚类 K-均值算法 基于机器学习的茶树DNA聚 类 算法 2024年 为了研究茶树基因序列的聚 类 问题,设计一种基于累计方差贡献率进行改进的核主成分分析(KPCA)与k均值(k-means)++聚 类 算法 相结合的降维聚 类 算法 (KPCA-k-means++)。将基因库数据集筛选分组后,利用k-mers算法 提取基因数据的数据特征,根据累计方差贡献率的占比大于85%的标准确定降维主元个数对KPCA进行降维改进并采用k-means++算法 对降维后数据聚 类 ,通过CH(Calinski-Harabaze Index)指标和响应时间分析聚 类 结果。结果表明:在单独聚 类 、KPCA聚 类 、改进PCA聚 类 、改进KPCA聚 类 4种处理方式中,改进KPCA-k-means++算法 在不同处理方式和不同样本数的对比下,CH指标均为最高,与未改进时相比平均高出33%。在响应时间方面,改进KPCA-k-means++算法 与同样改进PCA-k-means++算法 在不同聚 类 数和样本数的对比下响应时间均较短。改进KPCA-k-means++算法 能够保证对于茶树的基因序列的聚 类 准确率和聚 类 速度,表现出极好的聚 类 稳定性。 杨小平 倪萍 诸葛天秋 罗跃新 郭春雨 庞月兰 吴雨婷关键词:核主成分分析 K均值聚类算法 基因聚类 基于信念子簇切割的模糊聚 类 算法 2024年 信念峰值聚 类 (BPC)算法 是一种基于模糊视角的密度峰值聚 类 (DPC)算法 的新变体,它用模糊数学的观点刻画数据的分布特征与相关性。但BPC算法 的信念值计算主要基于局部数据点信息,未考察数据集整体的分布和结构,且原始的分配策略鲁棒性弱。针对以上问题,提出一种基于信念子簇切割的模糊聚 类 算法 (BSCC),所提算法 结合了信念峰值和谱方法。首先,通过局部信念信息将数据集划分为众多高纯度子簇;其次,将子簇视作新样本,通过簇间的相似关系,利用谱方法进行割图聚 类 ,从而耦合局部信息与全局信息;最后,将子簇内的点分配至子簇所在类 簇以完成最终聚 类 。与BPC算法 相比,BSCC在带有多子簇结构的数据集上具有明显优势,如在americanflag数据集和Car数据集上的准确率(ACC)分别提高了16.38个百分点和21.35个百分点。在合成数据集和真实数据集上的聚 类 实验结果表明,BSCC在调整兰德系数(ARI)、归一化互信息(NMI)和ACC这3个评价指标上整体优于BPC和其他7种聚 类 算法 。 丁雨 张瀚霖 罗荣 孟华关键词:聚类分析 谱聚类 多维因素影响下的K-Hybrids聚 类 算法 2024年 在实际问题中,进行聚 类 分析的数据点常常受到很多因素的影响。本文针对多因素影响下的聚 类 问题,提出了K-Hybrids聚 类 算法 ,该算法 考虑了聚 类 过程中点的权重差异,以及数据点所属标签相似度的问题。用加权K-means算法 对聚 类 过程进行调整,同时用基于独热编码的Jaccard相似度计算数据点之间的逻辑距离,最后引入权重因子对这两个影响因素进行整合。实验结果显示,该算法 的聚 类 效果很好,更具有实际意义。大数据时代下,数据的产生、采集方式日新月异,对数据的处理技术也在飞速发展,如何提高对数据的处理速度、优化处理流程一直是人们研究的主要内容。 孙晶关键词:聚类算法 聚类分析 聚类效果 聚类过程 启发式k-means聚 类 算法 的改进研究 2024年 启发式k-means聚 类 算法 通过在k-means第一次迭代后查看附近的集群来预测每个数据点可能会被划分到的集群子集,有效地加快了算法 的运行速度。但由于启发式算法 存在随机选择初始聚 类 中心以及无法有效识别数据集中离群点的缺陷,导致聚 类 结果的误差平方和较大并且轮廓系数偏小。针对这一问题,提出了CHk-means算法 ,该算法 引入仔细播种方法,克服了启发式k-means算法 随机选择初始聚 类 中心带来的局部最优解问题;该算法 引入局部异常因子LOF算法 对离群点进行检测,降低了离群点数据对聚 类 结果的影响。在多个数据集上对3种算法 进行对比试验,结果表明CHk-means算法 可有效降低聚 类 结果的误差平方和,增强聚 类 的轮廓系数,使聚 类 质量得到明显改善。 殷丽凤 栗庆杰关键词:聚类算法 K-MEANS 启发式算法 局部异常因子 离群点 一种同名文件聚 类 算法 优化方法及装置 本发明公开了一种同名文件聚 类 算法 优化方法及装置,其中方法包括如下步骤:将若干个同名文件随机划分为若干个聚 类 集合,每个聚 类 集合包括第一预设数量个同名文件;计算每个聚 类 集合中的所有同名文件的两两相似度值,得到若干个聚 类 子集合... 姚纪卫 刘宾一种邻域粒的模糊C均值聚 类 算法 2024年 针对初始值和噪声的敏感性会导致模糊C均值聚 类 效果下降这一问题,引入粒计算理论,采用邻域粒化技术,提出邻域粒模糊C均值聚 类 算法 。样本在单特征上使用邻域粒化技术构造邻域粒子,在多特征上粒化形成邻域粒向量,定义多种粒距离公式度量粒子之间的距离。根据粒距离度量,提出粒模糊C均值聚 类 算法 ,采用多个数据集进行实验,将粒模糊C均值聚 类 算法 与经典聚 类 算法 进行比较,验证了所提出的邻域粒模糊C均值聚 类 算法 的可行性和有效性。 郑晨颖 陈颖悦 陈颖悦 江连吉 廖亮关键词:粒计算 模糊C均值聚类 一种同名文件聚 类 算法 优化方法及装置 本发明公开了一种同名文件聚 类 算法 优化方法及装置,其中方法包括如下步骤:将若干个同名文件随机划分为若干个聚 类 集合,每个聚 类 集合包括第一预设数量个同名文件;计算每个聚 类 集合中的所有同名文件的两两相似度值,得到若干个聚 类 子集合... 姚纪卫 刘宾一种基于可达距离的模糊C均值聚 类 算法 2024年 设施选址对提高居民生活质量至关重要,利用地理可达相似性聚 类 对空间元素进行分类 是求解此类 问题的重要方法。然而,现有的应用于地理可达性分析的聚 类 算法 存在地理可达性测度不准确、不涉及簇中心选取或簇中心不可达等缺陷,不能有效求解真实场景下的设施选址问题。基于此,本文提出一种基于可达距离的模糊C均值聚 类 算法 (Fuzzy C-Means based on Reachable Distance,FCM-RD)。FCM-RD算法 改造了经典FCM算法 的目标函数、隶属度函数和簇中心函数,使其适用基于可达距离的聚 类 分析。其次,以沿路网的最短路径距离作为可达距离衡量元素间的地理可达相似性,将聚 类 元素的二维地理坐标映射为路网坐标,并以此设计簇中心迭代机制,实现在聚 类 过程中以可达距离迭代不受约束的可达簇中心。同时,对所提簇中心迭代机制的有效性进行理论分析和实验验证,结果表明,FCM-RD算法 在每次迭代中所选的各簇簇中心唯一且为当前簇类 目标函数最小值点。最后,基于真实地理场景的仿真实验表明,相比基准算法 ,FCM-RD不仅能获得位置不受限的可达簇中心,而且能获得更好的聚 类 效果,为实际场景下的地理空间聚 类 方案提供了有效且精准的解决方案。 崔俊超 张琼冰 李小龙关键词:空间聚类 路网 模糊C均值聚类
相关作者
王士同 作品数:655 被引量:2,718 H指数:21 供职机构:江南大学数字媒体学院 研究主题:支持向量机 模糊系统 模糊聚类 聚类 神经网络 焦李成 作品数:3,333 被引量:8,652 H指数:41 供职机构:西安电子科技大学 研究主题:SAR图像 图像 极化SAR 遥感图像 图像分类方法 吴嘉瑞 作品数:420 被引量:2,676 H指数:28 供职机构:北京中医药大学中药学院 研究主题:META分析 关联规则 网络药理学 数据挖掘 随机对照试验 罗可 作品数:115 被引量:623 H指数:12 供职机构:长沙理工大学 研究主题:聚类算法 粗糙集 聚类 数据挖掘 聚类分析 张冰 作品数:887 被引量:5,781 H指数:34 供职机构:北京中医药大学中药学院 研究主题:中药 关联规则 META分析 菊苣 药物警戒