缪有栋
- 作品数:4 被引量:3H指数:1
- 供职机构:复旦大学计算机科学技术学院更多>>
- 发文基金:国家自然科学基金上海市科委科技攻关项目更多>>
- 相关领域:自动化与计算机技术更多>>
- 一种适用于大规模网页分类的快速算法
- 2012年
- 网页分类中存在类别多、训练样本少等问题,一般分类器训练应用效果不佳。为了解决这个问题,提出基于类中心的统计学习方法。在较少人工标注网页的训练集情况下,此方法能取得很好的分类性能并且大幅度加快训练时间,并可以通过加入网页层次目录信息提升推理速度。在第一届LSHTC评测数据集上进行实验,结果表明:基于类中心的统计学习方法拥有较快的训练以及推理速度,并且在正确率上有很强的竞争力。
- 缪有栋邱锡鹏黄萱菁
- 关键词:文本分类统计学习
- 基于主动学习的中文问题类别标注研究
- 在开放领域问题回答研究中,问题分类是首要面对的问题,也是影响问答系统性能的关键。而目前问题分类语料规模都比较小,难以满足实际应用中问题分类的需要。本文根据HOWNET建立一套问题分类的分类体系,并使用主动学习的方法进行中...
- 缪有栋邱锡鹏黄萱菁
- 文献传递
- 基于主动学习的中文问题分类数据集构建被引量:3
- 2012年
- 为解决在开放领域问题回答问题中语料规模较小、难以满足问题分类训练需要的问题,用主动学习方法来构建中文问题分类数据集.根据主动学习的方法进行中文问题类别标注,并且通过主动式特征选择方法来提升性能.实验结果表明:在使用主动学习方法时可以快速收敛到最佳准确率(85%),在使用人工标注特征下特征集明显的减小.基于主动学习的标注方法在需要较小人工标注同时取得很好的分类性能,并且在一定程度上还可以明显提高问题分类的准确率.
- 邱锡鹏缪有栋黄萱菁
- 关键词:PASSIVE
- 基于类中心化的快速大规模文本层次分类问题研究
- 近几年来,大规模的文本分类问题是一个十分热门的话题,特别是在针对网络数据的网页分类问题以及层次分类问题。并且,在基于维基百科等大量网络数据的处理中,大规模的样本类数加上多类样本问题使得传统的分类器在此之上难以进行处理,更...
- 缪有栋
- 关键词:文本分类多类分类特征抽取
- 文献传递