陈科
- 作品数:3 被引量:3H指数:1
- 供职机构:天津工业大学计算机科学与软件学院更多>>
- 发文基金:天津市自然科学基金国家自然科学基金更多>>
- 相关领域:自动化与计算机技术更多>>
- CGDNA:基于簇图的基因组序列集成拼接算法被引量:1
- 2015年
- 基因组测序的目的是获取一个生物体完整的DNA序列信息,而DNA信息是进行遗传学研究和疾病诊断的基础。通常而言,完整的基因组测序分为两个步骤:第一步通过实验手段测定DNA序列片段,第二步通过计算方法把DNA片段拼接为完整的基因组。尽管桑格测序技术成功解析了包括人类在内的多个基因组,但其由于成本过高,目前逐渐被新一代测序技术所取代。新一代测序技术的特点为高通量、高覆盖率、低成本,随之而来的缺点体现为短读长、更多类型的错误。这些特点也给基因拼接算法带来了更大的挑战。鉴于目前的数十种基因拼接算法中并没有一种算法显著优于其它算法,且一些分析表明不同算法的拼接结果具有互补性,提出了CGDNA算法框架,它把不同算法的拼接结果整合到一起,使得整合的结果超越任何单个算法的结果。提出了一种基于簇图的基因组序列集成拼接算法,它通过构建索引、读长映射、重叠群聚簇、构建簇图等步骤将重叠群拼接成更长的序列。实验结果表明,相对于目前最优的算法Velvet、ABySS、SOAPdenovo,CGDNA在N50与最长拼接序列这两项指标上的增长比例高达50%以上,并且达到了较高的覆盖度。当更多的基本算法集成到本算法时,性能可进一步提高。提出的方法大幅提高了基因拼接的长度,为下一步的遗传分析降低了难度,并加快了生物基因组研究的步伐。
- 徐魁陈科徐君田佳林刘浩王宇凡
- 关键词:索引
- 平均分布集成策略:一种新的分类器融合方法被引量:2
- 2016年
- 集成学习方法已经广泛应用于人工智能的各个研究领域,其显著的性能吸引了大量的研究者.分类器融合是集成学习中的一个核心问题,研究者已提出多种不同的分类器融合方法.本文提出了分类器平均分布的概念,即通过调整基分类器的权重,使它们在不同样本上的表现尽可能的平均.这种策略为那些只被少数分类器正确预测的样本提供了机会.此外,本文提出了分类器等价系数的概念,即如何衡量两个准确率不同的分类器在集成学习中的权重.通过严格的十折叠交叉检验,在12个UCI数据集上的实验表明,平均分布集成算法优于简单多数投票策略、LP-Adaboost和LP1算法.
- 朱波陈科徐君张振
- 关键词:人工智能分类器融合
- 递减样本集成学习算法
- 2016年
- 从多个弱分类器重构出强分类器的集成学习方法是机器学习领域的重要研究方向之一。尽管已有多种多样性基本分类器的生成方法被提出,但这些方法的鲁棒性仍有待提高。递减样本集成学习算法综合了目前最为流行的boosting与bagging算法的学习思想,通过不断移除训练集中置信度较高的样本,使训练集空间依次递减,使得某些被低估的样本在后续的分类器中得到充分训练。该策略形成一系列递减的训练子集,因而也生成一系列多样性的基本分类器。类似于boosting与bagging算法,递减样本集成学习方法采用投票策略对基本分类器进行整合。通过严格的十折叠交叉检验,在8个UCI数据集与7种基本分类器上的测试表明,递减样本集成学习算法总体上要优于boosting与bagging算法。
- 周羿陈科朱波刘浩王宇凡武继刚孙学梅
- 关键词:置信度