陈亮 作品数:43 被引量:229 H指数:9 供职机构: 中国科学技术信息研究所 更多>> 发文基金: 国家自然科学基金 中国科学技术信息研究所预研基金项目 中国科学院知识创新工程重要方向项目 更多>> 相关领域: 文化科学 自动化与计算机技术 经济管理 电气工程 更多>>
文本分析方法、装置、电子设备及存储介质 本申请实施例提供了一种文本分析方法、装置、电子设备及存储介质,涉及数据挖掘技术领域。该方法包括:基于目标领域的待分析文本集中各个文本之间的引用关系,构建待分析文本集对应的文本引用网络;从文本引用网络中选取多条候选路径;对... 陈亮 陈利利 桂婕 牟琳基于科技报告的电动汽车技术现状及发展趋势研究 被引量:5 2017年 科技报告作为科技计划及技术项目的直接产出成果,包含了重要的前沿技术信息。如何将其中隐含的知识挖掘出来,展示技术发展方向是一个难题。本文基于电动汽车领域的科技报告数据,采用文献计量学中的词频统计及科学计量学中的社会网络共现分析方法,对电动汽车领域的技术现状及未来发展趋势进行了研究。研究结果表明,电动汽车技术目前主要是混合动力、动力电池、燃料电池等方面的相关研究,未来的研发将主要集中在电力系统、电池的安全性及可靠性、电池系统、电机的控制及仿真优化、控制策略及稳定性等方面。另外,电动汽车的产业化生产一直是研发中需要考虑的重点。 雷孝平 陈亮 刘玉琴 张英杰关键词:电动汽车 词频统计 社会网络分析 文献计量学 科学计量学 专利无效对比文件判定方法研究 被引量:2 2021年 [目的/意义]对比文件是用以判断专利能否授权或无效的重要文件,针对传统信息检索方法的不足且鲜有利用机器学习方法研究对比文件检索的问题,在引入对比文件信息的基础上,构建专利相关性判定模型。[方法/过程]以专利无效判决书中的目标专利与对比文件为数据集进行实验,提取文本相似度、共现词汇和共词数量特征信息,利用GBDT模型将对比文件的检索问题转化为判断其是否相关的分类问题。[结果/结论]研究结果表明,不同字段数据对分类效果的贡献不同,其中说明书字段的准确率、召回率和F1值分别为79%、48%和59%,并且多特征集成后的分类效果显著优于单一文本相似度的结果,最后对实验错分情况进行分析,指出本研究下一步的研究方向。 郭诗琪 贠强 陈亮 周杰关键词:专利无效宣告 基于知识实体的细粒度主路径分析方法研究 余池 陈亮国内外专利挖掘研究进展与前瞻 被引量:4 2024年 [目的/意义]专利挖掘是获取技术情报的重要途径,在近年来智能技术快速发展的驱动下,专利挖掘不仅在方法自动化、智能化和挖掘深度、精确度上取得了长足进步,而且展露出数据与算法紧密融合的发展新范式,亟需通过综述形成对其研究现状和未来发展趋势的全面认识。[方法/过程]将文献调研活动的主要环节连成闭环“检索→筛选→梳理→查漏→拓展和再次检索”并持续更新、反复迭代,调研范围包括国内外专利挖掘的相关论文、专利、数据集、算法竞赛评测活动、专利信息服务平台乃至代码托管网站和模型托管网站,并在叙述内容中穿插专家访谈、竞赛选手交流会以及笔者学术成果评审意见中获得的相关信息,最终完成对专利挖掘的系统综述。[结果/结论]专利基础资源的种类和数量较之前增长较快,专利挖掘方法的训练和性能评测逐步具有数据基准和统一测度标准;专利挖掘前沿方法紧跟智能技术发展步伐以实现技术升级和性能提升,而统计学习、人工规则、软件工具等传统方法也在学习成本、实践成本和方法效果的平衡中得到优化和发展;专利挖掘的研究范围实现了从数据处理、规范化到专利基础服务和技术情报分析的全面覆盖,并开启了专利智慧法律的探索。 陈亮 陈利利 许海云 魏超 苏娜 尚玮姣关键词:信息抽取 利用Knowledge Graph的专利表示方法及其应用 被引量:3 2017年 [目的 /意义]在专利分析中引入Knowledge Graph,将专利内容转换为由Knowledge Graph中实体语义关系所构成的图结构,进而探索该形式的专利表示方法在识别专利诉讼案中专利证据的可行性。[方法 /过程]在专利内容转换过程中,首先采用自动术语识别方法提取其实体指称,并通过实体链接将实体指称转化为命名实体,进而根据图算法识别出该专利的隐含实体,最终形成该专利所对应的图结构。[结果 /结论]将该专利表示方式应用于硬盘驱动器领域来寻找专利诉讼案中可用的证据专利,实证结果表明,与当前主流的专利文本表示方式相比,该方法在寻找证据专利效果上有较大提升。 陈亮 张海超 杨冠灿 雷孝平 于庆国欧洲专利局OPS服务专利法律状态数据结构分析 被引量:2 2021年 对专利法律状态数据结构的解析是进行专利法律状态数据加工的基础。本文以欧洲专利局(EPO)开放专利服务(OPS)提供的专利法律状态XML数据为研究对象,介绍了OPS专利法律状态数据获取的方法以及当前使用的法律状态数据格式,解析了XML数据结构,并分析了重点数据元素,为EPO OPS法律状态数据加工提供参考。 雷孝平 张静 桂婕 陈亮关键词:法律状态 基于ERG模型的专利引用关系形成影响因素研究 被引量:5 2018年 随着网络分析方法的深入,围绕着专利引文网络结构特征的研究出现了大量的研究成果,这些成果都从某种程度上折射出专利引文关系的形成受到了来自属性特征之外关系特征的影响,而现有的以回归方法为基础的统计推断方法难以将这些因素纳入进分析框架中来。本文借鉴指数随机图建模理论框架,将影响专利引用关系形成的若干因素归纳为网络自组织过程,属性特征影响过程与网络协同影响过程等因素,以PATSTAT风能数据为基础,根据不同类型的影响过程分别构建了若干独立的过程模型以及综合模型,通过对不同模型参数估计结果以及拟合优度的比较发现:专利的属性特征对于专利引用关系形成的影响被高估了;而引用关系的自组织过程对于专利引用关系的形成产生了更为重要的影响,其中三元传递结构的作用十分显著。该研究结论的发现,为下一步改进专利引用关系形成影响因素问题研究指明了方向。 杨冠灿 刘彤 陈亮 张静基于专利文本的闭频繁项集在技术演化分析中的应用 被引量:6 2016年 [目的 /意义]将闭频繁项集挖掘技术应用于专利文本,进而分析技术的演化发展趋势,从微观层次描绘既定领域中主要的技术发展脉络。[方法 /过程]在进行闭频繁项集挖掘过程中,以专利文本的术语为事务、术语中的单词作为项,继而使用闭频繁项集之间的关联规则建立起术语层次网络,最后以术语层次网络为依托创建技术路线图。[结果 /结论]实证结果表明,该方法应用于硬盘驱动器磁头领域,能够刻画出不同术语的融合、派生过程,从而描绘出更加符合技术演化真实情况的技术路线图。 陈亮 张静 杨冠灿 雷孝平关键词:关联规则挖掘 硬盘磁头 新兴研究主题识别方法研究进展与前瞻 2025年 [目的/意义]在数据量剧增和技术快速发展的背景下,借助数智技术实现新兴研究主题更精准的早期识别具有重要意义。梳理相关文献,为新兴研究主题识别方法研究,提供具有更高精准度和多个不同视角下的方法参照及前瞻思考。[方法/过程]以Web of Science核心数据库和CNKI为文献来源,首先辨析新兴研究主题及其相关概念,梳理新兴研究主题识别研究所涉多源数据,之后重点综述新兴研究主题的识别方法,关注当前科技情报分析领域应用度较低但极具前景的方法和理论视角,从而对识别方法进行梳理总结,最后,提出新兴研究主题识别未来可行性方向。[结果/结论]新兴研究主题一直是科技情报的前沿热点课题,对其特征的解析日益清晰,识别方法迭代快速。但当前研究中仍存在数据类型单一,先进识别方法与工具欠缺等问题。未来需要拓展理论视角,加持数智技术,覆盖新兴研究主题更多维度,并形成结合专家智慧的新兴研究主题识别方法研究,提高新兴研究主题识别的准确率和召回率。 许海云 龚兵营 杨俊浩 胡晓阳 王超 陈亮关键词:新兴技术