高原
- 作品数:1 被引量:16H指数:1
- 供职机构:南京信息工程大学计算机与软件学院更多>>
- 发文基金:国家自然科学基金更多>>
- 相关领域:自动化与计算机技术更多>>
- 基于模板和领域本体的Deep Web信息抽取研究被引量:16
- 2014年
- 为简化模板的抽取规则、提高抽取的准确率,提出了一种基于双模板和领域本体的Deep Web信息抽取方法。该方法采用DIV块模板和表格模板结合的方法,建立双模板。利用基于中文分词的网页预处理结果,在领域本体知识的指导下,通过C4.5决策树算法来训练分类模型,筛选出待抽取的DIV块序号,构建DIV块模板,从而可以精确定位到数据块。利用XML技术构建XSLT文档,得到表格模板的抽取规则,从而抽取出数据片段。选取天气领域进行Deep Web信息抽取实验,实验结果表明,抽取准确率和召回率都可以达到95%以上,取得了较好的抽取效果。
- 顾韵华高原高宝杜杰
- 关键词:DEEPWEB信息抽取领域本体决策树