李远成
- 作品数:29 被引量:63H指数:3
- 供职机构:西安科技大学计算机科学与技术学院更多>>
- 发文基金:国家自然科学基金陕西省自然科学基金国家高技术研究发展计划更多>>
- 相关领域:自动化与计算机技术电子电信矿业工程文化科学更多>>
- 基于阵列处理器的最小均方误差检测算法并行设计与实现被引量:2
- 2022年
- 针对大规模多输入多输出(MIMO)系统中,最小均方误差(MMSE)检测算法在可重构阵列结构上适应性差、计算复杂度高和运算效率低的问题,基于项目组开发的可重构阵列处理器,提出了一种基于MMSE算法的并行映射方法。首先,利用Gram矩阵计算时较为简单的数据依赖关系,设计时间上和空间上可以高度并行的流水线加速方案;其次,根据MMSE算法中Gram矩阵计算和匹配滤波计算模块相对独立的特点,设计模块化并行映射方案;最后,基于Xilinx Virtex-6开发板对映射方案进行实现并统计其性能。实验结果表明,该方法在MIMO规模为128×4、128×8和128×16的正交相移键控(QPSK)上行链路中,加速比分别2.80、4.04和5.57;在128×16的大规模MIMO系统中,可重构阵列处理器比专用硬件减少了42.6%的资源消耗。
- 刘帅蒋林李远成山蕊朱育琳王欣
- 关键词:最小均方误差算法阵列处理器可重构
- 异构平台下卷积神经网络推理模型自适应划分和调度方法被引量:2
- 2023年
- 针对卷积神经网络(CNN)在异构平台执行推理时存在硬件资源利用率低、延迟高等问题,提出一种CNN推理模型自适应划分和调度方法。首先,通过遍历计算图提取CNN的关键算子完成模型的自适应划分,增强调度策略灵活性;然后,基于性能实测与关键路径-贪婪搜索算法,在CPU-GPU异构平台上根据子模型运行特征选取最优运行负载,提高子模型推理速度;最后利用张量虚拟机(TVM)中跨设备调度机制,配置子模型的依赖关系与运行负载,实现模型推理的自适应调度,降低设备间通信延迟。实验结果表明,与TVM算子优化方法在GPU和CPU上的推理速度相比,所提方法在模型推理准确度无损前提下,推理速度提升了5.88%~19.05%和45.45%~311.46%。
- 尚绍法蒋林李远成朱筠
- 关键词:卷积神经网络任务调度
- 基于可重构阵列的CNN数据量化方法
- 2024年
- 针对卷积神经网络(CNN)模型中大量卷积操作,导致网络规模大幅增加,从而无法部署到嵌入式硬件平台,以及不同粒度数据与底层硬件结构不协调导致计算效率低的问题,基于项目组开发的可重构阵列处理器,面向支持多种位宽的运算单元,通过软硬件协同和可重构计算方法,采用KL(Kullback-Leibler)散度自定义量化阈值和随机取整进行截断处理的方式,寻找参数定长的最佳基点位置,设计支持多种计算粒度并行操作的指令及其卷积映射方案,并以此实现三种不同位宽的动态数据量化。实验结果表明,将权值与特征图分别量化到8 bit可以在准确率损失2%的情况下将模型压缩为原来的50%左右;将测试图像量化到三种位宽下进行硬件测试的加速比分别达到1.012、1.273和1.556,最高可缩短35.7%的执行时间和降低56.2%的访存次数,同时仅带来不足1%的相对误差,说明该方法可以在三种量化位宽下实现高效率的神经网络计算,进而达到硬件加速和模型压缩的目的。
- 朱家扬蒋林李远成宋佳刘帅
- 关键词:卷积神经网络加速比
- 可重构结构下合成视点失真变化算法并行设计与实现
- 2021年
- 针对三维高效视频编码(3D-HEVC)中,基于深度图的合成视点失真变化(SVDC)算法存在计算时间复杂度较高的问题,提出了一种在可重构阵列结构下基于混合粒度的SVDC算法并行化方法。首先,将SVDC算法分为虚拟视点合成(VVS)和失真值计算两个部分。其次,VVS部分采用流水线作业方式加速,而失真值计算部分采用两级划分加速:任务级——将合成后的图像按照像素点进行划分,指令级——将像素点内部的失真值按照计算过程进行划分。最后,采用可重构机制将VVS部分和失真值计算部分进行并行化处理。理论分析和硬件仿真结果表明,在执行时间上,采用4个处理单元(PE)的该方法具有2.11的加速比性能,与基于底层虚拟机(LLVM)和共享存储并行编程(Open MP)的SVDC算法相比,计算时间分别缩短了18.56%和21.93%。可见所提方法能挖掘SVDC算法的并行性,并结合可重构阵列结构特点有效缩短了SVDC算法的执行时间。
- 蒋林施佳琪李远成
- 一种应用代价评估的推测多线程路径预测方法被引量:2
- 2010年
- 推测多线程技术对于自动并行化非规则程序是有效的,然而基于控制流图和分支预测方法的线程划分方法,不可避免地受到划分路径上存在的控制依赖和数据依赖制约.针对现有的路径预测方法在考虑控制依赖影响的同时却不能有效地综合考虑数据依赖影响的问题,提出一种新的基于代价评估的路径预测方法,通过引入数据依赖模型,综合评估控制和数据依赖两种影响因素,寻求一条具有近似最小推测开销的推测划分路径.实验结果表明,文中提出的路径预测方法能够计算出代价更小的推测划分路径,并取得了更好的加速比性能,总体上系统可以得到2.43%的加速比性能提升.
- 李远成赵银亮阴培培韩博
- 关键词:推测多线程
- 基于CMP的推测多线程划分方法研究
- 李远成
- 关键词:推测多线程模糊聚类
- 非规则串行程序隐式线程级推测并行发展综述被引量:2
- 2017年
- 基于片上多核处理器体系结构,概述在非规则串行程序自动并行化领域中,隐式线程级推测并行技术的特点、研究现状、以及所面临的挑战。从程序特征分析、多线程划分、软硬件协同加速方法和性能功耗评估等4个方面,探讨线程级推测技术未来的发展趋势和研究方向。
- 李远成刘斌
- 关键词:片上多核处理器软硬件协同设计
- 基于TVM平台的MEC卷积算法优化
- 2023年
- 针对MEC(memory efficient convolution)卷积算法在传统设备下因访问数据地址不连续导致的缓存命中率低、内存访问延时长等问题,提出一种适用于MEC算法访存行为的优化方法。该方法分为中间矩阵转换和矩阵运算两部分。对于中间矩阵转换部分,采用修改数据读取顺序的方式对其进行优化,使读取方式符合算法的访存行为。对于矩阵运算部分,采用更加适合矩阵运算的内存数据布局对卷积核矩阵修改,并利用TVM(tensor virtual machine)平台封装的计算函数,重新设计中间矩阵同卷积核矩阵的计算方式。使用平台自带并行库对运算过程进行加速。实验结果表明,相比传统MEC算法,提出的优化方法可以有效解决缓存命中率低、内存访问延时长等问题,同MEC算法的运算时间对比,在单个卷积层上平均获得了50%的速度提升,在多层神经网络中最低获得了57%以上的速度提升,同空间组合算法的运算时间对比,最高获得了80%的速度提升。
- 王朝闻蒋林李远成朱筠
- 关键词:缓存技术
- 可重构结构下四叉树编码划分并行设计与实现
- 2022年
- 针对三维高效视频编码过程中因数据量巨大而导致的计算时间长和硬件资源消耗大等问题,提出了一种基于可重构阵列处理器的四叉树编码单元(Coding Unit,CU)划分并行化设计方案。基于四叉树编码的循环嵌套分层结构,结合可重构阵列处理器分布式共享存储的特点,采用了数据级并行计算和流水线作业(功能并行)的思想进行加速。实现四叉树CU划分的并行映射与验证。结果表明,在不影响编码质量的情况下,该方案消耗较小的硬件资源,同时并行设计的加速比达到了9.64。与专用硬件相比,LUT资源消耗减少78%,REG资源消耗减少20%。
- 王欣蒋林曹非李远成
- 关键词:阵列处理器并行计算
- 基于神经网络及支持向量机方法的入侵检测技术研究
- 李远成