丁泽亚
- 作品数:8 被引量:3H指数:1
- 供职机构:中国科学院声学研究所更多>>
- 发文基金:中国科学院学部咨询评议项目中国科学院声学研究所知识创新工程项目国家高技术研究发展计划更多>>
- 相关领域:自动化与计算机技术更多>>
- 一种基于TF<Sup>*</Sup>IDF算法的统计学文本分类系统及方法
- 本发明涉及一种基于TF*IDF算法的统计学文本分类方法,该方法提出了一种新的特征向量权重方法(TF*IDF*CIV),在TF*IDF方法中引入了概念信息量(CIV)这一变量,把特征向量的概念信息量作为一个变量考虑在特征向...
- 缪建明丁泽亚张全
- 利用语句结构信息的机器翻译自动评测初探
- 2010年
- 机器翻译评测对机器翻译有着极其重要的意义,它对翻译系统性能的提高做出了很大的贡献,同时促进了机器翻译的发展。本文在HNC机器翻译策略的基础上,对翻译语料的句类转换和句式转换做了初步的研究,并利用句类转换和句式转换的理论,建立了基于句类信息的自动评测的打分机制。
- 丁泽亚张全缪建明池毓焕臧翰芬
- 关键词:句类转换句式转换
- 特定主题概念关联的挖掘及其表示式的实现
- 本文提出了一种特定主题概念关联知识挖掘的方法。在实际特定主题的语料基础上,本文使用了信息增益的方法选取出主题关键词,并对关键词所对应的关联概念进行统计,结合对应关键词的重要程度值,赋予这些关联概念以权重值,从而根据权重值...
- 丁泽亚缪建明张全
- 关键词:信息增益
- 文献传递
- 利用语句结构信息的机器翻译自动评测系统及实现方法
- 本发明公开了一种机器翻译自动评测方法,包括:读取机器翻译所得到的机器译文、机器译文的关于语句结构的标注信息以及源语言句;根据源语言句,读取该源语言句的关于语句结构的标注信息、源语言句的参考译文、参考译文的关于语句结构的标...
- 丁泽亚张全袁毅缪建明韦向峰黄曾旸
- 文献传递
- 利用概念知识的文本分类被引量:3
- 2013年
- 针对统计方法不能从语义理解的角度进行文本分类的问题,提出了利用概念层次网络概念知识进行文本分类的方法,包括两部分:依据概念进行特征选取以及根据类别关联度分类.在特征选取时,通过计算概念与类别的区分度挖掘出类别核心概念,并采用类别核心概念对特征项进行精选.依据类别核心概念相关的类别语义信息,提出了文档与类别关联度的计算方法,并根据类别关联度来判断文本类别.实验表明,该方法可有效降低特征空问维数,在提高分类效率的同时保证了分类效果,F_1值略有提高.与SVM、KNN和Bayes分类器对比,当特征项数目较少时,该方法的F_1值明显高于其他3种方法,综合分类效果与SVM相当,优于KNN和Bayes.
- 丁泽亚张全
- 关键词:文本分类概念层次网络
- 基于编辑距离的网页去重策略
- 2013年
- 互联网中存在着大量的重复网页,在进行信息检索或大规模网页采集时,网页去重是提高效率的关键之一。本文在研究"指纹"或特征码等网页去重算法的基础上,提出了一种基于编辑距离的网页去重算法,通过计算网页指纹序列的编辑距离得到网页之间的相似度。它克服了"指纹"或特征码这类算法没有兼顾网页正文结构的缺点,同时从网页内容和正文结构上进行比较,使得网页重复的判断更加准确。实验证明,该算法是有效的,去重的准确率和召回率都比较高。
- 丁泽亚张全
- 关键词:互联网网页去重指纹
- 利用语句结构信息的机器翻译自动评测系统及实现方法
- 本发明公开了一种机器翻译自动评测方法,包括:读取机器翻译所得到的机器译文、机器译文的关于语句结构的标注信息以及源语言句;根据源语言句,读取该源语言句的关于语句结构的标注信息、源语言句的参考译文、参考译文的关于语句结构的标...
- 丁泽亚张全袁毅缪建明韦向峰黄曾旸
- 文献传递
- 一种基于TF*IDF算法的统计学文本分类系统及方法
- 本发明涉及一种基于TF*IDF算法的统计学文本分类方法,该方法提出了一种新的特征向量权重方法(TF*IDF*CIV),在TF*IDF方法中引入了概念信息量(CIV)这一变量,把特征向量的概念信息量作为一个变量考虑在特征向...
- 缪建明丁泽亚张全
- 文献传递