高蕾
- 作品数:70 被引量:71H指数:4
- 供职机构:国防科学技术大学更多>>
- 发文基金:国家自然科学基金国家重点基础研究发展计划国家高技术研究发展计划更多>>
- 相关领域:自动化与计算机技术电子电信文化科学理学更多>>
- 向量处理器的低位宽数据矩阵向量化列裁剪方法及系统
- 本发明公开了一种向量处理器的低位宽数据矩阵向量化列裁剪方法及系统,方法包括:将低位宽数据矩阵存储在双倍速率同步动态随机存储器中;调用直接存储器访问操作,将低位宽数据矩阵从双倍速率同步动态随机存储器加载到片上阵列存储器AM...
- 苏华友陈抗抗刘朝润姜晶菲王庆林许金伟高蕾窦勇
- 文献传递
- 我国人工智能核心软硬件发展战略研究被引量:17
- 2021年
- 人工智能(AI)是推动全球数字化发展的重要赋能技术,正在引领新一轮科技革命和产业变革;加快培育和推进我国AI核心软硬件技术及产业发展,对推动我国实现跨越式发展、产业优化升级、生产力整体跃升具有重要战略意义。本文围绕当前AI核心软硬件在技术、产业和政策等方面的发展情况,梳理了国内外的发展现状,分析了我国发展面临的问题,指出了我国AI核心软硬件技术及产业的发展思路,提出了面向2025年和2035年的AI核心软硬件发展战略目标,从AI核心硬件、AI核心软件、AI相关基础技术3个方面凝练了今后发展的重点任务。研究建议,将AI核心软硬件技术纳入国家科技创新顶层规划,加大科研投入;加强AI开源平台建设,开展示范应用;开展AI关键共性技术研发,实现协同创新;实施AI产业基础再造,牵引产业链升级;完善AI创新人才培养体系,以期推动我国AI核心软硬件持续发展。
- 高蕾符永铨李东升廖湘科
- 关键词:人工智能
- 一种动态任务调度方法、装置、设备及介质
- 本申请公开了一种动态任务调度方法、装置、设备及介质,涉及人工智能领域异构智能计算技术,包括获取待调度的计算任务组,从本地的任务信息库中调用计算参数;利用所述计算参数对所述计算任务组进行动态任务调度方案计算,以得到任务调度...
- 高蕾姜晶菲李东升苏华友李荣春符永铨许金伟乔鹏
- 向量处理器的低位宽数据矩阵向量化列扩展方法及系统
- 本发明公开了一种向量处理器的低位宽数据矩阵向量化列扩展方法及系统,方法包括:将低位宽数据矩阵存储在双倍速率同步动态随机存储器中;调用直接存储器访问操作,将低位宽数据矩阵从双倍速率同步动态随机存储器加载到片上阵列存储器AM...
- 苏华友陈抗抗刘朝润姜晶菲王庆林许金伟高蕾窦勇
- 查找分布式训练系统中异常流量节点的方法、装置及介质
- 本申请公开了一种查找分布式训练系统中异常流量节点的方法、装置及介质,应用于深度学习领域,该方法中,分布式训练系统的节点包括计算节点和参数服务器,参数服务器主要负责存放模型参数,计算节点负责数据计算。该方法先获取节点的流量...
- 高蕾姜晶菲李东升苏华友李荣春乔鹏许金伟
- 文献传递
- ForCES体系结构下基于Click的FE模型实现研究
- 本文主要对ForCES体系结构下的转发单元FE建模,并基于Click软件路由器对其实现进行了实验性研究.文章首先对FE模型作了深入分析,使用ASN.1语言对FE的能力和状态、拓扑连接以及元数据等信息做出形式化描述,提出了...
- 高蕾王宝生龚正虎
- 关键词:网络架构拓扑建模软件路由器
- 文献传递
- 基于FPGA的飞行器关键点检测加速器设计与实现
- 2020年
- 在航线监控、机场管理、敌军飞行器目标甄别时需要对光学遥感图像中的飞行器关键点进行检测,以VGG-19深度神经网络(DNN)进行关键点的检测取得了优异的效果。现场可编程门阵列(FPGA)以其高性能、高能效、高灵活性等优点,被广泛应用于深度神经网络的推理过程中。论文提出了一种基于FPGA的飞行器关键点检测专用处理器设计来加快检测过程,能够有效处理VGG-19的卷积,池化,全连接等操作,以150MHz的工作频率在Xilinx Virtex-7 VC709上实现设计,对比平台为Intel处理器i7-8700k(@3.7GHz),运行一张图像前者是后者吞吐率的2.95倍,性能功耗比的17.75倍。
- 秦步月高蕾姜晶菲窦勇
- 关键词:FPGA加速器
- 面向多核处理器的多实例并行BGP协议模型设计与实现被引量:1
- 2011年
- 开发BGP的线程级并行可以满足不断膨胀的互联网应用对协议性能的迫切需求。本文提出了一种面向多核处理器的多实例并行BGP协议模型,它以邻居会话划分为基础,借助数据并行思想实现了不同邻居会话在多个线程上的并行处理。首先,通过分析BGP协议特点,我们给出了该模型的总体框架设计,然后在Quagga BGP的基础上完成了具体实现。在Intel Xeon四核服务器上的性能测试结果显示,多实例并行BGP协议较BGP协议的性能加速均值在2.73左右,并且能够有效利用多核处理器计算资源,为改善协议处理能力提供了更大的提升空间。
- 高蕾赖明澈龚正虎
- 关键词:多核BGP多线程
- 用于数据链路层的并行自测试装置及其方法
- 一种用于数据链路层的并行自测试装置及其方法,该装置包括BIST使能模块、链路状态模块、控制模块、BIST控制器、BIST启动/停止报文产生器、BIST测试模式产生器、BIST序列报文封装器、BIST序列报文去封装器、BI...
- 王永庆徐炜遐王克非刘路肖灿文沈胜宇戴艺庞征斌张磊曹继军张鹤颖高蕾伍楠
- 基于GPU的并行Turbo乘积码译码器被引量:3
- 2020年
- Turbo乘积码是一类前向纠错码,在高码率下具有良好的误码率性能。TPC编码器的实现相对简单,其译码器的译码复杂度也比较合理。因此,TPC被广泛用于各种场景,例如卫星通信系统和数据存储系统等。提出了一种基于GPU的并行TPC译码器,可以同时译码二维乘积码矩阵的所有行或列。设计了一种并行基本译码器,以简化由扩展汉明码构成的TPC的译码过程。实现了测试样例和有效码字计算的并行化,降低了译码延迟。为了进一步提高译码吞吐率,提出了多通道TPC译码器。在不同的GPU上测量了并行译码器的性能,实验结果表明,与基于CPU的TPC译码器相比,基于GPU的并行TPC译码器的译码延迟显著降低。此外,基于GPU的并行TPC译码器的吞吐率在NVIDIA RTX 2080 Ti上达到30 Mbps,在NVIDIA GTX Titan V上达到38 Mbps,是基于CPU的TPC译码器性能的44倍和54倍。
- 李荣春周鑫潘衡岳牛新高蕾窦勇
- 关键词:TURBO乘积码TURBO译码GPU