何远标
- 作品数:5 被引量:37H指数:4
- 供职机构:中国科学院文献情报中心更多>>
- 发文基金:中国科学院西部之光基金国家科技支撑计划更多>>
- 相关领域:自动化与计算机技术更多>>
- 学术论文大纲中关键术语抽取方法研究被引量:7
- 2014年
- 【目的】针对学术论文大纲内容精炼、层次性的特点,研究从中抽取重要且具有实质意义术语的方法。【方法】结合语言学规则和术语词典从大纲各级标题中识别出候选术语集,然后根据术语间的句法依存关系计算tf-idf,并利用大纲结构量化术语层级特征,最后结合tf-idf与层级特征对候选术语进行排名,选择出关键术语。【结果】实验证明,该方法的候选术语识别F值达到89.57%,术语选择F值达到36.89%。【局限】采用的术语抽取规则不完备,且tf-idf计算过程中的权值设置仅使用经验值,导致未能达到最优效果。【结论】该方法能有效抽取大纲中的关键术语,适用于层级结构中的关键术语抽取。
- 何远标乐小虬张帆
- DPaper:一种面向语义出版的结构化论文写作工具设计与实现被引量:7
- 2016年
- 【目的】面向语义出版构建论文写作工具,在论文写作阶段实现内容结构化、对象化,使得一篇论文即是一个系统,论文可运行、可交互、可体验。【方法】采用数字对象和数字模板技术将论文内容(元数据、章节、数据、富媒体等)分解成不同类型数字对象,数字对象间采用模板进行组织,通过事件触发机制实现交互,采用HTML5网页形式进行编辑和呈现并存储为XML结构化文档包。【结果】DPaper结构化论文写作工具已上线,提供从素材收集(云笔记)、数字对象制作、自动标引参考文献、按期刊版式呈现到Word文档格式转换等一系列功能,论文内容实现对象化和部分语义化。【局限】与常规论文编辑器相比,数字对象编辑器功能还不完善,还不能创建公式、图形等对象,排版的灵活性不足。【结论】利用DPaper写作工具可以在写作阶段由作者构建出满足语义出版应用需求的结构化论文。
- 乐小虬王子璇张晓林何远标付常雷许丽媛
- 关键词:写作工具
- 利用小样本量机器学习实现学术文摘结构的自动识别被引量:9
- 2014年
- 【目的】通过在小样本量下基于机器学习算法实现文摘语句的自动分类,以此实现学术文摘结构的自动识别。【方法】设计多种学术文摘的文本表示特征,利用自然语言处理技术实现特征的自动提取,以此指导朴素贝叶斯、支持向量机模型进行训练,并利用训练模型自动识别文摘结构。【结果】实验证明该方法较之于同类方法能够在较少训练语料下实现较好的识别准确率。【局限】由于文摘中"方法"类别语句缺乏固定的类别特征词与核心动词,导致算法对该类别语句识别准确率较低。【结论】所提方法是一种小样本量情况下行之有效的学术文摘结构自动识别方法。
- 白光祖何远标马建霞刘建华邹益民
- 关键词:学术文摘结构识别
- 基于WMD语义相似度的TextRank改进算法识别论文核心主题句研究被引量:12
- 2017年
- 【目的】自动甄别科技论文中描述研究主题的关键语句。【方法】以论文小节为单位组织句子集,通过训练领域词向量计算句子间WMD距离得到相应语义相似度,优化Text Rank算法迭代过程,利用外部特征对所得权值进行调整,按句子权值降序选取关键主题句。【结果】以气候变化领域科技论文作为实验数据,以人工标注的结果为基准对本文的算法和传统的Text Rank算法进行对比实验,初步结果表明该方法的识别效果(F值)比传统Text Rank算法提升约5%。【局限】句子特征提取有待提高,词向量训练及方法中的相关参数需要做进一步优化。【结论】基于领域词向量,融合WMD语义相似度的Text Rank改进算法,能够较好地甄别科技论文小节内部中心句,辅以外部特征的权值调整后可以较好地识别出一篇论文的核心主题句。
- 王子璇乐小虬何远标
- 关键词:语义相似
- 基于日志的泛在个人数据同步方法研究被引量:2
- 2013年
- 泛在环境下个人数据通常分散在不同的应用环境(如桌面、移动终端、服务器)中,如何对其进行一体化管理是应用中的现实需求。数据同步是实现这一过程的关键环节,探讨采用交换操作日志实现个人数据同步的方法,阐述其实现原理、技术思路及基本流程。目前该方法已在e划通系统得到验证。
- 何远标乐小虬袁国华许丽媛管仲周强
- 关键词:数据同步