河北省秦皇岛市科学技术研究与发展计划项目(201101A087)
- 作品数:1 被引量:4H指数:1
- 相关作者:陈淑平梁东魁更多>>
- 相关机构:燕山大学更多>>
- 发文基金:河北省秦皇岛市科学技术研究与发展计划项目更多>>
- 相关领域:自动化与计算机技术更多>>
- 基于机器学习的扫描图书元数据自动抽取研究被引量:4
- 2013年
- 在对纸本图书数字化加工过程中,元数据录入是必需的环节,然而手工录入工作量大、效率低,针对这一问题,提出了一种基于机器学习的扫描图书元数据自动获取方法。首先定义元数据的描述、管理和结构元素,然后以扫描页面的DjVuXML文档为数据源,分析页面的格式、结构等特征,以行作为初始特征向量,采用基于有监督的机器学习方法进行元数据抽取,实验表明该算法能够取得较高的准确率和召回率,能够显著的提高图书数字化的效率。
- 陈淑平梁东魁
- 关键词:馆藏图书数字化元数据抽取信息抽取