您的位置: 专家智库 > >

赵常煜

作品数:4 被引量:74H指数:4
供职机构:北京大学信息管理系更多>>
发文基金:国家社会科学基金更多>>
相关领域:自动化与计算机技术文化科学更多>>

文献类型

  • 4篇中文期刊文章

领域

  • 2篇自动化与计算...
  • 2篇文化科学

主题

  • 2篇一带一路
  • 1篇电子病历
  • 1篇演义
  • 1篇战略坐标图
  • 1篇三国人物
  • 1篇三国演义
  • 1篇社会网
  • 1篇社会网络
  • 1篇随机场
  • 1篇条件随机场
  • 1篇情感分析
  • 1篇中文
  • 1篇中文分词
  • 1篇主题挖掘
  • 1篇文本
  • 1篇聚类分析
  • 1篇科研合作网络
  • 1篇共词分析
  • 1篇核心-边缘结...
  • 1篇合作网络

机构

  • 4篇北京大学

作者

  • 4篇赵常煜
  • 3篇王继民
  • 1篇王一博
  • 1篇俞敬松
  • 1篇赵怡然

传媒

  • 3篇图书情报工作
  • 1篇情报探索

年份

  • 2篇2019
  • 2篇2017
4 条 记 录,以下是 1-4
排序方式:
“一带一路”倡议下的Twitter文本主题挖掘和情感分析被引量:25
2019年
[目的/意义]"一带一路"倡议的提出引起了国内外广泛的关注,众多国家的用户在最具代表性的社交媒体Twitter中表达观点、发表评论、相互讨论。从推文中挖掘得出世界对"一带一路"的讨论主题和情感倾向,有助于为政府机构优化宣传策略,增加"一带一路"倡议的曝光度、关注度提供参考。[方法/过程]采集2017年与"一带一路"相关的6万余条推文,分别按照中文和英文进行数据预处理、数据描述、主题挖掘、情感分析,并实现主题和情感的交叉分析,得出结论。[结果/结论]2017年的推文主题主要围绕5月份的"一带一路"高峰论坛。其中,中文推文更关注高峰论坛的筹划和实施,以及安全问题、领导层的访问等方面的内容,情感值的波动较大,特别是安全问题上的消极情绪波动很大。英文推文则更关注举办高峰论坛的事实以及论坛所带来的经济效应,情感波动较小,经济方面的情感值是积极占比明显高于消极和中立的情感值。
赵常煜吴亚平王继民
关键词:主题挖掘情感分析
共词方法在三国人物关系分析中的应用研究被引量:5
2017年
[目的/意义]研究中文信息处理技术、共词分析方法用于分析小说人物关系可行性及其方法。[方法/过程]以《三国演义》为研究对象,提出对小说人物关系进行研究的一般框架,包括数据源的选取、数据处理、词频统计、矩阵生成、结果可视化以及结果分析与解读。利用命名实体识别、共词分析、聚类分析、社会网络分析等研究方法,对小说中的人物进行抽取和统计,构造人物共现关系矩阵并得到可视化结果。[结果/结论]研究结果显示,小说中的核心人物主要有6个,分别是诸葛亮、刘备、关羽、张飞、赵云、曹操。魏、蜀、吴的著名人物形象常常共同出现,其中蜀汉人物间的关系要比曹魏和孙吴间的人物联系更为紧密。6个核心人物不仅两两间有着紧密的联系,而且与其他人物也有紧密的关联性。
王一博俞敬松赵常煜
关键词:三国演义共词分析聚类分析战略坐标图核心-边缘结构
1996-2015年“一带一路”沿线国家科研合作网络的演化分析被引量:25
2017年
[目的/意义]从纵向演化与横向区域比较两个维度,探究包括中国在内的65个“一带一路”沿线国家的科研合作情况,为我国与沿线国家开展科研合作和政策制定提供参考。[方法/过程]以Web of Science核心合集作为数据来源,抓取65个国家20年间近240万条学术论文的跨国合作数据;使用社会网络分析方法,构建“一带一路”沿线国家的论文合著网络。然后从网络整体、核心国家、科研小团体三方面分析该网络现状及演化过程,并对核心国家之间的主要科研合作内容进行探究。[结果/结论]整体来看,合作网络的密度呈波动上升的趋势,这说明国家间的科研合作规模越来越大,但部分国家在科研合作开放程度上表现不佳,在“一带一路”沿线国家中衰弱型和沉睡型国家较多;中国、俄罗斯、波兰、捷克共和国、匈牙利、印度和土耳其的核心度一直较高,合作内容多属物理学及相关学科;除核心国家之外的“一带一路”沿线国家与地理位置上邻近的国家合作较多,东南亚、欧洲、中亚、中东等地区的区域聚集特征比较明显。
王继民王若佳曾兰馨赵怡然赵常煜
关键词:社会网络
中文电子病历的分词及实体识别研究被引量:19
2019年
[目的/意义]健康医疗大数据是我国重要的基础性战略资源,本研究对中文电子病历分词与实体识别的探讨与实证较好地完成了医疗数据的信息抽取任务,对今后医疗大数据在语义层面的应用发展具有重要意义。[方法/过程]本研究首先融合权威词表、官方标准、健康网站数据及其他医学补充词库构建了词语数量级达到10万的医学词表;然后对电子病历的字段进行分词,对比了jieba工具、导入词典后的jieba、无监督学习及AC自动机4种模型的分词效果;最后,以自动分词和人工标注结果为语料,实现基于条件随机场的电子病历实体识别研究,并比较不同实体类别以及不同文本特征下的实体识别效果,选出最优模板。[结果/结论]分词结果显示,AC自动机的效果最好,F值可达82%;实体识别结果表明,"检查"和"疾病"实体的识别效果最好,而"症状"的识别效果不太理想。
王若佳赵常煜王继民
关键词:电子病历中文分词条件随机场
共1页<1>
聚类工具0