黄蔚 作品数:14 被引量:48 H指数:4 供职机构: 华北计算技术研究所 更多>> 相关领域: 自动化与计算机技术 更多>>
一种基于BERT的自动文本摘要模型构建方法 被引量:4 2020年 针对传统词向量在自动文本摘要过程中因无法对多义词进行有效表征而降低文本摘要准确度和可读性的问题,提出一种基于BERT(Bidirectional Encoder Representations from Transformers)的自动文本摘要模型构建方法。该方法引入BERT预训练语言模型用于增强词向量的语义表示,将生成的词向量输入Seq2Seq模型中进行训练并形成自动文本摘要模型,实现对文本摘要的快速生成。实验结果表明,该模型在Gigaword数据集上能有效地提高生成摘要的准确率和可读性,可用于文本摘要自动生成任务。 岳一峰 黄蔚 任祥辉关键词:文本摘要 基于MapReduce的网络舆情分析系统的设计与实现 被引量:2 2014年 设计并实现了一个基于MapReduce的网络舆情分析系统。系统采用HDFS和HBase双存储机制存储数据。通过实验分析与效果比对,选用MMSeg4j为系统进行中文分词。改进了Canopy-Kmeans算法实现文本自动聚类,提高了系统的聚类准确度及效率。目前,该系统已应用于某部队舆情分析系统中,能够实时发现热点话题、准确把握舆情趋势,为应对舆论危机、制定舆论政策提供了科学系统的信息支持。 黄蔚 李戴维关键词:HADOOP 舆情分析 MAPREDUCE 中文分词 基于Rhino引擎的低侵入式JavaScript内置对象扩展方法 2014年 为了获取由JavaScript脚本生成的网页信息,更好地获取网页深层信息,提出基于低侵入式的Rhino解析引擎改进方法。通过对Rhino引擎解析JavaScript脚本过程进行深入研究分析,得出扩展Rhino引擎的关键环节。在此基础上提出低侵入式的设计方法,对Rhino引擎进行低耦合的扩展改进,从而完善Rhino引擎对客户端JavaScript脚本的解析。通过使用低侵入式的扩展方法,将Rhino引擎的扩展和使用完全分离,使开发人员不用了解Rhino引擎的实现细节,简化扩展开发。设计实验验证了Rhino引擎改进效果。 聂琨琳 黄蔚 胡国超关键词:DOM树 基于LDA模型和AP聚类的主题事件抽取技术 被引量:1 2017年 目前,事件抽取技术一般是对文本的事件信息进行直接抽取,忽略了文本的信息结构,并且抽取结果易受文本词语分布的影响。本文对文本的概念层级结构进行分析,并提出一种基于二次聚类并再划分的主题事件抽取方法。该方法可以提取文本的主题-事件层次化信息,并通过信息词的二次提取减小相关事件信息的干扰,优化抽取结果,并利用事件时间轴展示出事件的发展状态信息。实验结果表明本方法可以有效地提取文本的主题事件信息。 张建恒 黄蔚 胡国超卫星数据分布式处理平台中并行调度技术的研究 2016年 由于卫星数据处理的特殊性,现有的任务调度算法均无法取得良好的效果。针对上述问题,本文对卫星数据分布式处理平台中的任务调度进行了深入研究,提出了资源槽的概念,并在此基础上提出了基于资源槽的并行调度技术。实验表明,采用基于资源槽的并行调度技术,极大地提高了系统资源的利用率和任务的响应速度,并有效改善了系统负载的均衡性。 李泉泽 黄蔚 刘卫荣关键词:分布式系统 任务调度 调度算法 社交网络中个体价值分析 2016年 社交网络中个体价值分析,就是利用网络爬虫抓取社交网络中数据,对数据过滤分析,抽象成图结构,发现排名最高的节点(个体)。本文基于Page Rank算法模型,应用"黄金分割线"方法和"二八定律"对其进行改进,并用在社交网络中,定义以人为核心的个体价值,这样Page Rank模型就有了新的应用领域,同时也有了一个新的名字"People Rank"。本文将复杂的社交网络抽象成一种图结构,图中节点代表用户,图中边的链入链出代表了用户之间的"粉丝"和"关注"关系。利用"People Rank"模型,构建矩阵,对矩阵进行迭代计算,最后得到一个收敛的结果,根据结果的大小确定在社交网络中个体的重要性。 王志斌 黄蔚关键词:社交网络 PEOPLE RANK 基于OPTICS聚类和关联分析的轨迹伴随模式分析 被引量:4 2017年 目前,主流的轨迹伴随模式挖掘方法大多是对连续短时间内轨迹的一次挖掘,忽略了前后非连续时间上的关联分析,因此对隐含伴随模式的挖掘不准确。本文对轨迹伴随模式进行了分析,并提出一种结合密度聚类和关联分析的伴随模式分析方法。该方法首先挖掘轨迹数据中的局部模式簇,通过非连续时间片局部模式簇的关联分析,优化挖掘结果。实验结果表明本文方法可以有效地挖掘轨迹中的伴随模式。 胡文博 黄蔚 胡国超关键词:密度聚类 基于改进随机森林的洗钱交易角色识别应用 2018年 对于识别洗钱交易中钱庄账户的方法、现有公安办案方法与现有研究基于机器预警方法存在准确度低且滞后的问题,本文分析洗钱犯罪集团中钱庄与客户的交易行为特点,从主体背景属性、交易统计量、交易网络、交易行为离群4种角度提取一系列特征进行刻画,并通过随机森林进行特征选择与优化,在已经标注过的数据上进行模型训练与验证,形成一个能够对参与洗钱交易者身份进行自动识别的应用。通过实际数据验证可以发现有严重危害的钱庄经营者。 张昊 黄蔚 胡国超关键词:洗钱交易 交易网络 中心性 3D机房运维可视化系统的设计与实现 被引量:8 2016年 针对传统的数据中心机房运维系统不够直观、易造成机房管理的安全隐患等问题,对三维可视化技术WebGL及其应用框架Three.js进行了深入研究,主要对机房的整体构建,实时监控,设备管理和自动巡检功能进行了设计与实现,并进行了性能优化,阐述了3D机房运维可视化系统的设计思路和架构,采用了three.js特有的JSON模型文件格式,并使用对three.js有良好支持的Blender进行模型制作,通过仿真的三维场景,给用户带来了沉浸感和流畅丰富的交互体验,提高了数据中心机房的管理效率。 张玄 黄蔚关键词:三维可视化 WEBGL JSON 一种基于ERNIE的军事文本实体关系抽取模型 被引量:5 2021年 针对军事文本实体关系抽取过程中存在的“一句对应多个三元组”,“一个主语对应多个客体”等问题提出一种基于ERNIE的军事文本三元组抽取模型,在编码层引入ERNIE模型获取每个词的编码序列,参考seq-to-seq解码器的建模方法和BIO序列标注,采用先预测主体,再传入主体标注序列预测客体和二者之间关系的方法实现三元组的抽取。在预测层使用sigmoid实现多主体、多客体甚至多关系的提取。实验结果证明,人工标注的军事新闻数据集上,该模型的抽取效果明显优于基于循环神经网络的流水线抽取模型和基于BERT的联合实体关系抽取模型,F1值达到80.04%。 郑杜福 黄蔚 任祥辉关键词:关系抽取