窦志成
- 作品数:103 被引量:170H指数:5
- 供职机构:中国人民大学更多>>
- 发文基金:国家自然科学基金中央高校基本科研业务费专项资金天津市应用基础与前沿技术研究计划更多>>
- 相关领域:自动化与计算机技术文化科学政治法律经济管理更多>>
- 一种基于自注意力网络的搜索结果多样化方法
- 本发明通过人工智能领域的方法,实现了一种基于自注意力网络的搜索结果多样化方法,采用重排序模型,通过将模型设置编码器和解码器构成的编码器‑解码器结构以及排序学习函数,经过训练步骤后,针对输入的查询和子话题进行运算,最终生成...
- 窦志成秦绪博
- 大数据时代的互联网分析引擎被引量:5
- 2015年
- 随着互联网尤其是移动互联网的高速发展,互联网文档的数量、内容的丰富度和复杂度都大大增加,互联网正朝大数据时代迈进,而用户的信息需求也趋于复杂化。除了基本的信息检索需求外,对大量相关文档的深入理解与聚合分析的需求也越来越强烈,而传统的互联网搜索引擎已经无法满足人们对该类信息的需求。针对这一问题,提出"互联网分析引擎"的构想,阐述了其与搜索引擎和OLAP分析系统的区别,介绍了一种互联网分析引擎的架构,并详细讨论了实现该引擎的核心问题。
- 窦志成文继荣
- 关键词:分析引擎
- YuLan-Chat:基于多阶段课程学习的大语言模型
- 2025年
- 近年来,大语言模型已成为研究热点。其在大规模数据上预训练之后,具有强大的少样本和零样本上下文学习能力,能够便捷地用于许多真实场景复杂任务。然而,对大语言模型进行从头到尾的开发和训练,可参考的实现较少;且存在较难习得的知识,如长尾知识相关数据、复杂指令、难区分的负例等。为填补该领域空白,并强化对较难掌握数据的学习,本文提出了多阶段的课程学习方法,针对以上三种典型数据,使用了:(1)迭代增强长尾知识的预训练课程;(2)由简单到复杂的指令微调课程;(3)由易到难的人类对齐课程,完成了YuLan-Chat从头开始的整个训练流程。本文在四个与大语言模型基础能力和人类对齐能力相关的中英文评测基准上对YuLan-Chat进行评测,结果表明该模型能够在大部分场景下优于基线模型。分析实验进一步表明了该课程学习方法在GAOKAO和AlignBench评测基准上,能够分别提升模型9.7%和18.9%的答案预测准确率。
- 周昆朱余韬陈志朋毛科龙陈文通陈昱硕孙一丁曹乾王磊张蕾庞新程谢曙方赵鑫窦志成林衍凯毛佳昕宋睿华陈旭徐君胡迪严睿黄文炳魏哲巍文继荣
- 关键词:课程学习
- 一种采用PCC对话模型的单用户个性化对话方法和系统
- 本发明涉及一种采用PCC对话模型的单用户个性化对话方法和系统,包括以下步骤:1)在用户的对话历史中寻找与当前问题最为匹配的回复,并将最为匹配的回复作为显性指导向量<Image file="DDA0002710782130...
- 窦志成郭宇
- 融合法律文本结构信息的刑事案件判决预测被引量:5
- 2023年
- 近年来,法律领域的智能化引起了学界的广泛关注。选取法律领域中十分重要的法律判决预测任务作为研究重点,法律判决预测包含推荐相关法条、定罪和刑期预测等三个子任务。随着深度学习在各个领域的广泛应用,一些研究者将深度学习方法引入法律判决预测任务并取得了较好的效果。现有基于深度学习的法律判决预测方法通常是通过构建案情描述和法条之间的注意力来提升模型预测能力,或者利用三个法律判决预测子任务间的关系来提升整体的性能。但是这些工作未考虑法律文本中的多层层次化信息,如刑法第三百九十七条包含职务侵占罪和玩忽职守罪,其法条大类是渎职罪,并且每个罪行有不同的刑期。针对该问题,考虑引入法律文本的多层层次化信息用于法律判决预测任务。具体来说,对法律文本的多层结构信息进行预处理,并利用协同注意力机制将法条的多层信息融入到案情描述中,得到每个子任务的融合不同层次的法律信息的案情描述表示,从而提升司法判决预测任务的性能。在真实的法律判决预测任务公开的数据集上进行了实验,结果显示提出的融合法律文本多层结构信息的模型在法律判决预测任务上优于当前最好的模型。对法律智能化的未来和发展进行了展望。
- 张晗郑伟昊窦志成窦志成
- 一种基于图的搜索结果多样化方法
- 本发明通过网络安全领域的方法,实现了一种基于图的搜索结果多样化方法。在每一个步骤中,从剩余文档中根据排序分数f(d<Sub>i</Sub>)从剩余的候选文档挑选最佳文档d<Sup>*</Sup>,之后通过图调整算法,基于...
- 窦志成苏展
- LDFS:一种大规模数据集的分布式存储体系结构
- 随着大规模数据集在高性能并行计算中应用的日趋广泛,优化大规模数据集的存储结构成为提高上层应用运行效率的重要途径。本文实现的LDFS分布式存储结构打破了单机存储和传统分片分布式存储系统的局限,针对大规模数据的特性对存储方式...
- 刘芳袁晓洁窦志成张路
- 关键词:数据集分布式存储并发访问容错性
- 大语言模型时代下的信息检索研究发展趋势被引量:16
- 2023年
- 以ChatGPT为代表的大语言模型带来了人工智能技术的新一轮发展浪潮,获得了广泛的社会关注。大语言模型通过大规模无标注数据预训练、指令微调、人类对齐等关键技术途径,学习到了丰富的世界知识,具有较好的文本理解与生成能力,能够有效求解各种复杂任务。这一重要技术进展对于信息检索领域的发展带来了新的机遇。本文从大语言模型对于已有信息检索架构的改进以及现有检索技术如何改进大语言模型两个方面进行阐述,针对相关科学问题的可行技术方法进行了梳理与展望,探讨大语言模型时代下的信息检索发展趋势,旨在推动信息检索领域的科研进步。
- 赵鑫窦志成文继荣
- 关键词:信息检索
- 一种基于生成式对抗网络的搜索结果多样化方法
- 本发明通过人工智能领域的方法,实现了一种基于生成式对抗网络的搜索结果多样化训练方法,在给出查询词后,定义对应的候选文档集合,对逻辑路径依次设置的采样器、生成器和判定器单元,并在判定器和生成器中设置多样化评分函数的手段,通...
- 窦志成刘炯楠
- 一种法律法条引用信息抽取系统
- 本发明通过人工智能领域的方法,实现了一种法律法条引用信息抽取系统,系统架构分为输入模块、基于DFA与深度文本匹配模型和输出模块,通过输入模块读取外部输入的文本信息,并作为待匹配文本输入所述基于DFA与深度文本匹配模型,基...
- 窦志成苏展