赵捷
- 作品数:17 被引量:47H指数:4
- 供职机构:解放军信息工程大学更多>>
- 发文基金:国家科技重大专项国家自然科学基金国家高技术研究发展计划更多>>
- 相关领域:自动化与计算机技术更多>>
- 面向Stencil计算的自动混合精度优化被引量:3
- 2023年
- 混合精度在深度学习和精度调整与优化方面取得了许多进展,广泛研究表明,面向Stencil计算的混合精度优化也是一个很有挑战性的方向.同时,多面体模型在自动并行化领域取得的一系列研究成果表明,该模型为循环嵌套提供很好的数学抽象,可以在其基础上进行一系列的循环变换.基于多面体编译技术设计并实现了一个面向Stencil计算的自动混合精度优化器,通过在中间表示层进行迭代空间划分、数据流分析和调度树转换,首次实现了源到源的面向Stencil计算的混合精度优化代码自动生成.实验表明,经过自动混合精度优化之后的代码,在减少精度冗余的基础上能够充分发挥其并行潜力,提升程序性能.以高精度计算为基准,在x86平台上最大加速比是1.76,几何平均加速比是1.15;在新一代国产申威平台上最大加速比是1.64,几何平均加速比是1.20.
- 宋广辉郭绍忠赵捷陶小涵李飞李飞
- 基于重排序变换和循环分布的通信优化算法被引量:1
- 2012年
- 针对现有通信优化算法无法使MPI自动并行化编译器生成加速比理想的消息传递程序问题,提出了一种基于重排序变换和循环分布的通信优化算法。该算法根据给出的过程间副作用集合和基于mpi_wait/mpi_irecv移动的重排序变换规则,有序地采用重排序变换和循环分布,尽可能安全地扩大点到点非阻塞通信中通信与计算的重叠窗口,使MPI自动并行化编译器生成具有更多计算重叠通信的消息传递代码。实验结果表明,该算法能够隐藏更多的点到点非阻塞通信开销,并且明显提升消息传递程序的加速比。
- 陈达智赵荣彩韩林丁锐赵捷
- 关键词:通信优化并行化编译
- 一个浮点数学函数库测试平台被引量:12
- 2015年
- 数学函数库作为CPU软件的重要组成部分,对于高性能计算机平台上的科学计算、工程数值计算起着极为关键的作用.现有的测试工具只能片面地对函数库进行测试,没有从正确性、精度和函数性能这3方面加以考虑,而且往往只针对一类目标体系结构,适用性有限.针对现有测试工具的缺陷,提出了面向多目标体系结构、全面可复用的一体化测试平台BMltest(basic math library test).测试平台结合函数特征值、IEEE-754特殊数以及利用浮点数生成规则实现的全浮点域指数分布的IEEE-754规范数构造了测试集,有效提高了测试集浮点数的覆盖率;提出了基于多精度库MPFR(multiple-precision floating-point reliable library)的精度测试方法,提高了精度测试的可靠性;提出了基于代码隔离的性能测试方法,最大限度地降低了外部环境对性能测试的干扰.针对大量的浮点测试结果,给出了合理的结果评价方案.测试平台使用的测试集数据与函数做到了相关性的极大分离,保证了测试方法的普适性.通过对包括GNU,Open64及Mlib函数库内所有855个函数的测试结果表明:BMltest平台的测试数据集更全面、有效,精度测试方法更可靠;与其他测试平台相比,性能测试结果更准确、稳定.
- 许瑾晨黄永忠郭绍忠周蓓赵捷
- 关键词:数学函数库
- 一种面向划分的数组数据流分析方法
- 2014年
- 传统数组数据流分析方法主要针对精确依赖测试、数组私有化等研究,无法为划分提供数组在循环间详细的定义-引用信息.本文提出了一种面向划分的数组数据流分析方法,通过定义-引用图来表示数组的数据流信息.首先根据嵌套循环的并行性和结构特点,建立定义-引用图的结点集.然后基于活跃-引用和精确数据流分析,在循环内求出数组的定义、引用等数组区域.最后根据数据流方程和过程间分析添加定义-引用边.通过对矩阵求逆等七个实际用例的实验结果表明,定义-引用图的引用能够使划分算法对并行收益做出准确的评估,并减少了生成代码的通信冗余,提升了并行程序的加速比.
- 丁锐赵荣彩赵捷
- 关键词:自动并行化
- 基于有向图可达性的SLP向量化识别方法被引量:2
- 2017年
- SLP(superword level parallelism)是一种实现SIMD(single instruction multiple data)向量化的方法,当前的主流向量化编译器都实现了这种向量化方法.然而,当前算法在进行SLP向量化时,对应用程序中可向量化循环的分析过程过于保守,导致其识别SLP向量化的能力不足.为了提升该能力,本文提出了一种基于有向图可达性的SLP向量化识别方法.首先,基于数组依赖图构建包含数组和语句依赖信息的有向图,使同一条语句内的所有数组节点都在一个强连通分量内,并对强连通分量之间的依赖边进行剪枝;其次,分析不同强连通分量节点之间的可达性,根据节点的可达性获得识别SLP向量化所需的所有依赖信息,从而确定语句中的循环是否可以进行SLP向量化.将该方法在Open64-5.0编译器中实现后,SLP向量化效果得到大幅提升.对gcc-vect测试集中程序的实测结果表明,优化后的Open64-5.0编译器识别SLP向量化循环的能力优于GCC4.9,与Intel ICC14.0相当,生成的向量化代码性能优于当前最优算法.
- 赵捷赵荣彩
- 关键词:有向图可达性
- 基于二次规划模型的非线性下标表达式的依赖测试方法
- 本发明涉及一种分析程序指令之间依赖关系的方法,属于高性能计算中并行化编译优化技术领域,特别是涉及一种基于二次规划模型的非线性下标表达式的依赖测试方法,本发明针对传统依赖测试方法对非线性依赖测试的不足,通过对循环索引边界约...
- 单征庞建民姚远赵捷丁锐刘晓娴
- 文献传递
- 面向分布存储的并行编译优化技术研究
- 当今世界上主流的高性能计算机系统大多具备节点间、节点内及SIMD短向量部件等多层次并行计算资源,如何使用并行化编译系统自动发掘应用程序中蕴含的不同层次、不同粒度的并行性已成为提高高性能计算机系统应用性能的一项关键技术。近...
- 赵捷
- 关键词:并行化编译通信优化
- 文献传递
- 面向申威异构架构的并行代码自动生成被引量:4
- 2023年
- 异构架构逐渐成为高性能计算领域的主流架构,但相较于同构多核架构,其硬件结构及存储层次更为复杂,程序编写更为困难.先进的优化编译器可以协助程序开发人员实现更为高效的代码,降低程序开发复杂度.多面体编译模型通过抽象分析将程序抽象成空间多面体表示形式,能够将多种循环变换与硬件映射相结合,并面向特定体系结构生成相应的代码.设计实现了一个面向国产申威异构架构的并行代码自动生成系统,采用“源-源”编译模式,基于多面体编译模型实现.系统针对申威异构架构特点将程序计算过程进行硬件部署,同时实现数据传输与内存空间的自动管理.实验基于Polybench测试集中线性代数相关用例进行测试.结果表明,利用代码自动生成系统生成的异构并行代码能够在申威异构平台上正确运行,并能够有效发挥申威异构平台的性能,基于申威异构平台利用64线程加速计算的平均加速比达到了539.16倍.
- 陶小涵朱雨庞建民赵捷赵捷
- 关键词:并行计算代码生成
- 基于连分式逼近的精度测试方法被引量:1
- 2011年
- 针对现有精度测试方法适应性低、收敛速度慢的问题,提出了一种基于连分式逼近的初等函数精度测试方法。通过对最后一位表示的单位(ULP)的误差的分析以及对几种计算函数真值方法的对比,给出了精度测试方法的主要算法实现,并从时间复杂度及收敛阶两个方面进行了理论分析及实验验证。结果表明,该方法在精度测试方面更有效,复杂度更低,收敛速度更快。
- 许瑾晨郭绍忠赵捷王乾
- 关键词:牛顿迭代连分式收敛阶
- 基于多面体模型的编译“黑魔法”被引量:13
- 2018年
- 基于多面体模型的编译技术发展近30年,已经在多个开源编译器和商业编译器中得到了应用和实现.与传统的编译优化模型相比,多面体模型具备应用范围广、表示能力强、优化空间大等优点,代表了程序自动并行化领域众多方向最先进的水平,成为国际上多个编译研发团队的研究热点;同时,多面体模型抽象程度高、实现难度大、面临问题多的特征,阻碍了基于该模型的编译技术在发展相对滞后地区的普及,形成国内专门从事该问题研究的团队屈指可数的现象.为了打开多面体模型的"黑盒子",首先描述了多面体模型的原理,揭示了基于多面体模型的编译流程,并指出了该领域的主要研究内容;接下来,从程序并行性、数据局部性和其他领域上的扩展应用这3个方面对该领域上的研究进展进行了介绍;最后,对该研究领域当前面临的挑战和潜在的研究方向进行了总结.研究目的是通过回顾和总结基于多面体模型的编译技术研究进展,为国内编译研发团队提供重要参考,以期推动我国在该领域上的发展.
- 赵捷李颖颖李颖颖
- 关键词:并行性调度代码生成