公共文化服务平台

国家重点基础研究发展计划(2011CB302501): 作品数：40 被引量：63H指数：4; 相关作者：范东睿安虹王达宋风龙叶笑春更多>>; 相关机构：中国科学院中国科学院大学中国科学技术大学更多>>; 发文基金：国家重点基础研究发展计划国家自然科学基金国家高技术研究发展计划更多>>; 相关领域：自动化与计算机技术更多>>

程序阶段性分析和阶段检测技术: 2015年; 对称多处理器的飞速发展和近年来提出的动态异构处理器(DHMP)为性能优化提供了新的机遇。一个机遇是找出程序每个阶段的性能瓶颈,提出了静态程序阶段分析方法,即通过分析结构参数和计算相似度矩阵来找出程序每个阶段的资源瓶颈;另一个机遇是给出动态异构处理器重构的时间节点,提出了DPDA和HTPD两种动态阶段检测算法,检测出阶段的变化能够为动态可重构处理器提供重构的时间节点。DPDA算法效果很好且软硬件实现代价小,而HTPD算法是目前为止第一个使用统计学方法进行动态检测阶段的算法。实验表明,与BBV相比,DPDA和HTPD能避免BBV离线、动态算法需添加额外硬件、结果与编译器相关等限制,并且阶段划分的稳定性和正确率与BBV相当。DPDA和HTPD算法由于本身不依赖额外硬件,因此都能直接在主流处理器和动态异构处理器(DHMP)中使用。; 张海博安虹贺松涛孙涛王涛彭毅程亦超

基于分布式模拟机制的片上网络硬件模拟系统被引量：1: 2016年; 针对基于现场可编程门阵列的DART模拟器可扩展性较差和模拟精度较低的问题,提出一种硬件友好的分布式模拟机制。该机制在模拟中采用隐式同步方法,以节点内计数器和节点间缓冲队列取代集中式控制器,将时序同步和计数任务交给每个节点自行处理,从而提高模拟速度。基于该机制,设计并实现片上网络硬件模拟系统。实验结果表明,该系统能达到与业界权威BookSim模拟器同级别的模拟精度,模拟速度可达BookSim模拟器的200倍,相比DART模拟器能获得21%的速度提升,并且具有较好的扩展性。; 彭毅安虹金旭程亦超迟孟贤孙荪; 关键词：片上网络分布式模拟现场可编程门阵列多核处理器

基于硬件签名的循环式内存竞争记录算法被引量：2: 2014年; 多核程序的执行存在不确定性,内存竞争记录是实现多核程序确定性重演的关键技术.针对现有内存竞争记录机制记录日志较大、重演速度受限等问题,提出了一种新型的循环式点到点内存竞争记录算法.该算法用当前发生序表示内存冲突,用硬件签名实现冲突检测,无需修改原有的cache结构;引入冲突方向检测机制,约减连续同向的当前发生序,记录循环发生序到内存竞争日志.该算法中,内存竞争日志中所记录的任意两线程间的内存竞争呈循环状,大大减少了冗余,并用增量计数器优化循环发生序,更大程度上减小了内存竞争日志.仿真结果表明该算法能够在引入较少硬件资源的前提下有效地减小内存竞争日志.同时,内存竞争日志也具有较好的可扩展性.; 朱素霞季振洲李东张浩; 关键词：片上多核处理器

面向监听一致性协议的并发内存竞争记录算法: 2016年; 内存竞争记录是解决多核程序执行不确定性的关键技术,然而现有点到点的内存竞争记录机制带来的硬件开销大,难以应用到实际的片上多核处理器系统中.以降低点到点内存竞争记录方式的硬件开销为出发点,为采用监听一致性协议的片上多核处理器(chip multiprocessor,CMP)系统设计了基于并发记录策略的点到点内存竞争记录算法.该记录算法将两两线程间点到点的内存竞争关系扩展到所有线程,采用分布式记录方法为每个线程记录一个由内存竞争关系的一方构成的内存竞争日志;重演时采用简化的生产者消费者模型,确保了确定性重演的实现,有效降低了硬件消耗和带宽开销.在8核处理器系统中的仿真结果表明,该并发式点到点内存竞争记录算法为每个处理器核添加硬件资源约171B,每千条内存操作指令记录日志大小约2.3B,记录和重演阶段均添加不到1.5%的带宽开销.; 朱素霞陈德运季振洲孙广路张浩; 关键词：片上多核处理器

程序局部性的量化分析被引量：1: 2013年; 给出与平台无关的局部性量化方法,从空间局部性和时间局部性2个角度,量化SPEC2000测试基准程序,以及这些程序的数据段、代码段和堆栈段。时间和空间局部性组成的二维局部性分布直观地展示了基准测试程序的局部性。实验结果表明,程序数据局部性主要由堆段的局部性决定,堆段的局部性最差,栈的局部性最优。; 刘扬安虹邓博斌毛梦捷刘玉; 关键词：缓存

一种带有无效缓存路访问过滤机制的低功耗高速缓存: 2012年; 功耗是当今处理器设计领域的重要问题之一.随着多核处理器的普及,片上缓存占有了越来越多的芯片面积和功耗.提出一种带有无效缓存路访问过滤机制的低功耗高速缓存结构来降低CPU的动态功耗,具体为,通过无效缓存块的预先检查(Pre-Invalid Way Checking,PIWC)消除对无效缓存路的访问,及通过不匹配缓存路的预先检测(Pre-Mismatch Way Detecting,PMWD)消除对tag低位不匹配缓存路的访问.对实际程序的测试表明,65.2%-88.9%缓存路的无效访问可以通过以上方法被消除,约60.9%-85.6%由缓存访问带来的动态能耗从而被降低.同时,跟tag-data顺序访问方法相比,对于大多数程序,我们的方法可以获得5.1%-13.8%的节能效果提升.; 范灵俊唐士斌张轮凯郑亚松张浩; 关键词：动态功耗

基于多目标遗传算法的单指令集异构多核系统静态任务调度被引量：4: 2012年; 与同构多核处理器相比,单指令集异构多核处理器能够更好的匹配程序行为的多样性,从而具有更好的性能功耗比.异构多核处理器的能效优势依赖于操作系统合理而有效的调度,追求性能与功耗的统一,是典型的多目标优化问题.提出将多目标优化遗传算法应用于寻找异构多核环境下最优的静态任务调度方案,提出表征任务相对顺序的染色体编码结构,使种群初始化时的有效个体所占比例变为100%.提出使用先序关系矩阵来确定任务的执行顺序,克服了高度值方法存在的严重不足.仿真结果表明,先序关系矩阵方法能扩大搜索范围,在种群规模足够大时,可以找到高度值方法漏掉的部分最优解.; 徐远超张志敏蒋毅飞; 关键词：异构多核任务调度多目标优化遗传算法

MACT:高通量众核处理器离散访存请求批量处理机制: 2015年; 网络服务等新型高通量应用的迅速兴起给传统处理器设计带来了巨大的挑战.高通量众核处理器作为面向此类应用的新型处理器结构成为研究热点.然而,随着片上处理核数量的剧增,加之高通量应用的数据密集型特点,"存储墙"问题进一步加剧.通过分析高通量应用访存行为,发现此类应用存在着大量的细粒度访存,降低了访存带宽的有效利用率.基于此分析,在高通量处理器设计中通过添加访存请求收集表(memory access collection table,MACT)硬件机制,结合消息式内存机制,用于收集离散的访存请求并进行批量处理.MACT硬件机制的实现,提高了访存带宽的有效利用率,同时也提高了执行效率;并通过时间窗口机制,确保访存请求在最晚期限之前发送出去,保证任务的实时性.实验以典型高通量应用WordCount,TeraSort,Search为基准测试程序.添加MACT硬件机制后,访存数量减少约49%,访存带宽提高约24%,平均执行速度提高约89%.; 李文明叶笑春王达郑方李宏亮林晗范东睿孙凝晖; 关键词：高速缓冲存储器

计算与通信相结合的体系结构: 2012年; 本文从应用和技术两个方面,分析了通信与计算相结合的计算机体系结构的研究与开发现状,以及云、网、端方面的新兴应用对处理器结构的需求,提出了适合通信应用的众核处理器研究思路。; 唐志敏; 关键词：体系结构可编程处理器通信网络计算机应用处理器阵列计算技术

MALK:一种高效处理大规模键值的MapReduce框架: 2014年; 内存申请是引发共享存储系统上MapReduce性能下降的主要瓶颈之一,特别是对于需要处理大量键值的应用尤为严重.为了解决此问题,提出了一种内存开销低、能高效处理大规模键值的MapReduce并行计算框架——MALK(high-efficient MapReduce for applications having large amount of keys).MALK对于离散的大规模键值采用连续的存储管理方法,避免了大量小块内存的申请;通过更细粒度地处理Map阶段的任务和流水化Reduce阶段的任务,来减少系统运行过程中同时活跃的数据量,从而将应用程序对内存的需求控制在一个较小的范围内;并提出一种Hash表的复用机制,通过复用Hash表的存储空间来避免流水过程中Hash表内存的重复申请;MALK还综合考虑了任务的粒度和数量对任务管理开销和整体性能的影响,把Reduce阶段的任务数量设成对系统性能最优的值.实验结果表明:相对于Phoenix++,MALK的性能最高可提升3.8倍(平均2.8倍);在Map和Reduce阶段,MALK最多可节省95.2%和87.8%的存储空间;MALK在Reduce阶段还取得了更好的负载均衡,降低了L2和LLC Cache的缺失率.; 郑亚松王达叶笑春崔慧敏徐远超范东睿; 关键词：MAPREDUCE

国家重点基础研究发展计划(2011CB302501)

文献类型

领域

主题

机构

作者

传媒

年份

用户反馈

国家重点基础研究发展计划(2011CB302501)

文献类型

领域

主题

机构

作者

传媒

年份

用户登录

用户反馈