胡仁龙
- 作品数:2 被引量:18H指数:2
- 供职机构:南京大学计算机科学与技术系计算机软件新技术国家重点实验室更多>>
- 发文基金:国家自然科学基金国家社会科学基金国家科技基础条件平台建设计划更多>>
- 相关领域:自动化与计算机技术更多>>
- 基于中文宾州树库的浅层语义分析被引量:8
- 2008年
- 采用支持向量机的机器学习方法,以中文宾州树库为基础,对中文文本进行了部分语义角色标注实验。选取了主语、宾语、间接宾语、时间和地点这五种主要的语义角色,以中文PropBank 5.0中的前1 652个句子作为实验的训练集和测试集,选择路径、短语类型、谓词、头词、头词词性等八个属性作为分类特征,采用两阶段分类方法,在测试集上得到的总体语义角色标注的准确率和召回率分别为89.73%和91.26%。实验结果表明该方法对中文浅层语义分析工作是有效的。
- 连乐新胡仁龙杨翠丽袁春风
- 关键词:支持向量机语义角色标注
- 基于重复模式的自动Web信息抽取被引量:10
- 2008年
- 互联网上存在很多在线购物网站,抽取这类网站页面里的商品信息可以为电子商务、Web查询提供增值服务。该文针对这类网站提出一种自动的Web信息抽取方法,通过检测网页中的重复模式以及分析主题内容的特征获取网页的主题内容,该方法在抽取过程中不需要人工干预。对10个在线购物网站进行了测试,实验结果表明提出的方法是有效的。
- 胡仁龙袁春风武港山濮小佳
- 关键词:WEB信息抽取DOM树