北京市自然科学基金(4052005) 作品数:13 被引量:66 H指数:5 相关作者: 李玉鑑 徐立业 王方圆 付翠花 许光俊 更多>> 相关机构: 北京工业大学 更多>> 发文基金: 北京市自然科学基金 国家自然科学基金 北京市教委科技发展计划 更多>> 相关领域: 自动化与计算机技术 生物学 更多>>
分层子树合并聚类算法 被引量:7 2006年 为了解决传统分层合并聚类算法可能产生不唯一的二叉树结果问题,提出了分层子树合并聚类算法, 其基本思想是通过在数据集的最小树中分析θ-极大紧邻子树然后合并它的顶点集,该算法每步可将多个对象聚类,计算结果用多叉树表示.在理论上证明了该树在不计分支次序时是唯一的,并且通过计算实验说明,在样本中存在较多距离彼此相等的点对时,该树所描述的聚类结果要明显比传统分层合并聚类算法用二叉树描述的聚类结果更为合理. 李玉鑑关键词:最小树 聚类 一种改进的NJ方法及其应用 被引量:1 2009年 传统的邻接法(Neighbor-joining Method,简称NJ)存在"Tied trees"问题,即它从同一数据集中产生的进化树可能不唯一.为解决这一问题,提出了一种改进的NJ方法——INJ,该方法利用速率校正距离把多个最近的种群进行合并,并从理论和应用上说明INJ产生的进化树具有更好的唯一性,而且在NJ树唯一时,INJ树和NJ树完全相同.因此在传统NJ算法产生的二叉树不唯一时,INJ算法也能产生一棵具有唯一拓扑结构的多叉树. 李玉鑑 高凯关键词:进化树 二叉树 多叉树 距离矩阵 一种眉毛识别方法的初步研究 <正>1 引言生物特征识别技术从20世纪70年代起开始受到普遍重视,其主要内容是通过计算机利用人体所固有的生理特征或行为特征来进行个人身份鉴定, 也有人称它是一门生物科技和信息科技相结合的学 李玉鑑 付翠花文献传递 基于归一化编辑距离的系统进化树重构 2008年 为了克服传统距离法在构建进化树时需要进行多序列比对所带来的计算复杂度问题,提出了利用两两序列之间的归一化编辑距离矩阵来构造进化树的方法.通过对11种脊椎动物和20种哺乳动物的Nd5、Nd4和cytb的基因序列以及线粒体全基因组序列数据,分别计算归一化编辑距离矩阵,并使用Neighbor-Joining法,重建了一些已被多种方法验证过的进化树。 李玉鉴 王方圆关键词:系统进化树 多序列比对 基于最小树切割的自适应聚类方法 被引量:4 2007年 为了简单有效地对数据集进行结构分析,提出了一种基于最小树进行聚类的算法(MSTCA).其基本思想是在最小树中切割所有大于一定阈值的边,对数据集进行子类划分,同时对较小的子类进行合并.MSTCA产生的聚类结果在不考虑子类次序时是唯一的。对它的递归调用还可在若干不同粒度层次上形成数据集的聚类结构.计算实验表明,MSTCA不仅能为具有各种不同聚类形状的数据集自适应地选择较好的聚类个数,而且只需简单的参数选择就能准确地分析出数据中存在的合理聚类和例外样本. 李玉鑑关键词:最小树 聚类算法 聚类个数 层次聚类 基于神经网络的多叉系统进化树构造 被引量:1 2006年 力求解决困扰传统进化树构造中只能生成二叉树、精度低和Tie Tree的问题。采用自组织神经网络对序列进行分类,生成进化树过程中允许扩展当前非叶子节点,并通过设置适当的参数优化进化树的分层。使用此方法,获得了精度更高的多叉进化树,表明基于神经网络的方法对解决进化树构造中的问题是有效的。 蒋宗礼 许光俊关键词:系统进化树 聚类 SOM 神经网络 分块递归序列比对算法 2010年 利用分块递归的思想,结合检查点计算方法,提出一种线性空间复杂度序列比对算法,对于给定长为m和n的2条序列,空间需求约5(m+n)+Lsmin(m-1,n-1)+C2~5(m+n)+Ls(m+n-2)+C2,而时间需求一般情况下约1.5mn^3mn,在待比对序列相似度较高时约1.5mn^2mn,并通过同源物种全基因组序列比对实验证明,如果归一化编辑距离小于0.25,那么该算法比Hirschberg算法快10%以上. 李玉鑑 王方圆关键词:检查点 英汉翻译模板的标准化方案及其应用 2006年 在机器翻译系统中,模板可以作为一种知识表示的方法,其规模的大小和组织的策略将极大地影响系统的整体性能。本文对英汉翻译模板的标准化问题进行了探讨,提出了一个初步方案,并将其应用于英汉翻译系统的设计与实现中,取得了初步的成功,验证了该方案的可行性,从而为在大规模模板库的基础上开发高质量的英汉翻译系统提供了可能性。在2005年举行的863评测中,本文开发的英汉翻译系统达到的水平:对话翻译人工评测忠实度和流利度分别为73.62和68.16,篇章翻译人工评测忠实度和流利度分别为41.16和31.45. 李玉鑑关键词:机器翻译 翻译模板 符号序列之间的归一化距离度量 被引量:9 2005年 为了在[0,1]区间上合理度量符号序列之间的区别,提出了归一化等同距离和归一化编辑距离的概念,并通过数学分析证明了它们满足度量的3条基本公理,从理论上说明了它们的合理性. 李玉鑑不加权算术平均组对方法的改进及应用 被引量:17 2007年 为了解决传统不加权算术平均组对方法(unweighted pair group method with arithmetic mean,简称UPG- MA)存在的'tie trees'问题,通过改进UPGMA,提出了不加权算术平均组群方法(unweighted multiple group method with arithmetic mean,简称UMGMA),从理论和应用上证明了UMGMA能产生唯一的进化树,并且在UPGMA树唯一时,UMGMA树和UPGMA树在不计分支次序时完全相同,解决了UPGMA树的唯一性问题.与UPGMA不同之处在于,UMGMA反复利用极大紧邻子树上的顶点把多个距离最近的种群进行合并,因此在UPGMA产生的二叉树不唯一时,UMGMA能产生一棵具有唯一拓扑结构的多叉树.通过适当选择大于0的容差参数,UMGMA还可以在不同的宏观层次上产生容差进化树,以突出物种较多时进化树的整体脉络. 李玉鑑 徐立业关键词:数据处理 系统发育分析 二叉树 多叉树