国家自然科学基金(70473101)
- 作品数:12 被引量:590H指数:5
- 相关作者:崔雷侯跃芳闫雷张晗张浩更多>>
- 相关机构:中国医科大学中国医科大学附属第一医院南方医科大学更多>>
- 发文基金:国家自然科学基金辽宁省自然科学基金辽宁省科学技术计划项目更多>>
- 相关领域:文化科学医药卫生自动化与计算机技术生物学更多>>
- 文献数据库中书目信息共现挖掘系统的开发被引量:545
- 2008年
- 针对权威的生物医学数据库和引文索引数据,介绍一个基于文献数据库中书目信息共现关系进行文本挖掘的系统。该系统具有基本的文献计量学分析功能,并对相应的结果进行可视化表达;对高频主题词、高产作者和高被引论文和高被引作者进行共现分析,据此进行聚类分析和关联分析,获得有关的研究主题聚类和主题词/副主题词关联规则、合著聚类分析、高被引论文同被引聚类分析和高被引作者同被引聚类分析的结果和可视化表达。其中对关联规则的分析可以发现主题词之间的潜在语义规则,其他的文献计量学指标和共现分析结果可以用于科学计量学的分析。
- 崔雷刘伟闫雷张晗侯跃芳黄莹娜张浩
- 关键词:文本挖掘共现分析书目信息科学计量学
- 国外肝细胞癌研究热点的文献计量学分析被引量:3
- 2008年
- 目的:调查肝细胞癌研究的文献,分析当前该主题的研究热点。方法:对《科学引文索引》(Science Citation Index.SCI)中近4年发表的有关肝癌的文献进行分析,将全部相关文献的引文(即参考文献,共86839篇)套录下来,截取频次大于65次的引文作为高频引论文。两两统计高频引论文在同一篇文献中出现的频率,形成引文共现矩阵,利用SPSS统计软件对矩阵做聚类,通过分析各类的文献内容,得到肝细胞癌目前的研究热点。结果:共检出近4年发表的有关肝癌的论文4157篇,引文86839篇,出现频次超过65次的引文32篇,其中出现频次最高的引文为"美国肝细胞癌发病率增加"和"肝移植术治疗伴发肝硬化的小肝癌",为323次,通过对这32篇高被引论文聚类得到5个研究热点。结论:目前国外对肝细胞癌的研究热点主要集中在肝细胞癌的分期系统、治疗手段的选择及其与预后相关性,肝细胞癌的外科治疗如肝切除术或肝移植术,无法手术切除的肝细胞癌的动脉栓塞治疗,微创治疗如射频消融及经皮无水酒精注射以及流行病学和遗传学方面的研究5个方面。
- 吴瑛杨颖崔雷刘云鹏周宝森
- 关键词:原发性肝癌聚类分析
- 利用关联规则对医学文本数据库进行知识抽取的尝试——以四种抗肿瘤药为例被引量:6
- 2006年
- 利用关联规则算法,对PubMed数据库中的4种抗肿瘤药物主题词和副主题词组配模式进行分析,并以文献和教科书标准,抽取出与这四类药有关的、有效的语义关系搭配模式,从而为文献检索和建立知识库提供依据。
- 张晗路振宇崔雷
- 关键词:知识抽取关联规则语义关系
- MEDLINE数据库中生物体类主题词相关语义关系的构建与评价被引量:2
- 2009年
- 本研究对MEDLINE中生物体类文献中高频主要主题词进行共词聚类分析,获取主题词之间的关联规则,利用UMLS语义关系进行结构化表达。从MEDLINE中选取《中华医学杂志》上的生物体类文献作为测试集,由专家人工抽取关系,与共词聚类得到的关联规则进行比较。利用共词聚类分析对生物体类主题词关系的挖掘及评价分析,为文本知识发现提供了一种新的尝试。
- 张浩崔雷
- 关键词:文本挖掘知识表达
- 采用混合方法抽取生物医学实体间语义关系被引量:3
- 2013年
- 以阿司匹林副作用为研究样本的主题,搜集PubMed数据库中与"药物副作用引起疾病"主题词关联规则相对应的文献记录,在文献摘要中提取出相应实体共现的句子,进而利用自然语言处理方法提取文献中表达生物医学实体间语义关系的动词,共提取出30个表示药物副作用与疾病关系的动词。研究结果表明:基于共现和自然语言处理提取语义关系动词的方法是可行的。
- 王秀艳崔雷
- 关键词:语义关系抽取自然语言处理
- 急性白血病相关基因的文本挖掘分析被引量:4
- 2008年
- 从PubMed检索1966年到2005年9月6日间白血病与基因关系的相关文献3529篇。经编程处理生成主题词词篇矩阵并进行聚类。通过聚类树图可将所提取的主题词,副主题词分成13类,经对比原始文献进行验证,全部29种基因中只与ALL相关的有3种,占10.34%;只与AML相关的有8种,占27.59%。特异的可用于鉴别ALL和AML的基因有11种,占37.93%。通过主题词的共现关系进行聚类可以基本实现发现基因与疾病之间的联系,但该方法所获得的相关基因较少,不利于对疾病与基因关系的全面了解。
- 闫雷崔雷
- 关键词:白血病基因文本挖掘聚类分析
- 应用Protégé构建临床药物本体的探索被引量:8
- 2006年
- 通过对临床药物领域大量概念的分析,提出若干类和属性,并以这些类和属性初步构建成包含4种临床药物的试验性临床药物学本体,由此了解药物本体的构建特点,为药学本体具体应用完善专家系统,指导临床医生用药提供必要的决策支持。
- 崔雷赵鹏
- 关键词:临床药物
- 主题词与自然语言相结合挖掘急性白血病与相关基因的关系被引量:2
- 2010年
- 通过PubMed检索有关急性白血病与基因关系的相关文献1460篇,从中提取急性白血病相关主要主题词/副主题词30个,利用MetaMap提取相关基因100个形成白血病基因共现矩阵,通过GenePattern软件进行聚类分析,可将提取的急性白血病主/副主题词分成8类。通过自然语言处理方法提取相关基因,比主题词途径多且准确。
- 闫雷关晶姜鹏崔雷
- 关键词:急性白血病基因文本挖掘聚类分析
- 利用SemRep语义网及MeSH语义网表达单篇论文知识被引量:1
- 2019年
- 目的:以SemRep语义网及MeSH语义网的形式表达单篇论文的研究内容。方法:选取IF值≥3的10种医学期刊的20篇科学论文作为研究对象,利用自然语言处理工具SemRep及可视化分析工具Gephi构建SemRep语义网及MeSH语义网,并利用SPSS 23.0软件对数据进行统计分析。结果:MeSH语义网在表达单篇论文内容的全面性、准确性及易用性方面评分均值均高于SemRep语义网,且两种网络在准确性方面的评分差异具有统计学意义(P<0.05)。结论:相较于SemRep语义网,MeSH语义网更可作为一种表达单篇论文知识的方法,所提供的语义信息具备一定的文献挖掘潜力,能够为诸如文本挖掘、知识发现等研究提供新的方法和思路。
- 宋鑫智崔雷
- 关键词:语义网络知识表达可视化
- 应用主题词/副主题词关联规则对专题知识的挖掘分析及评价被引量:8
- 2008年
- 应用PubMed数据库的主题词/副主题词关联规则对肺肿瘤诊断的相关知识进行挖掘,并回到原文验证相关因素和肺肿瘤之间关系的有效性。将挖掘到的相关知识进行专家调查,以获得专家不知情的新知识,为科学研究及决策提供了思路。
- 侯跃芳崔雷朱利娜
- 关键词:关联规则数据挖掘