曹宗雁
- 作品数:21 被引量:62H指数:4
- 供职机构:中国科学院计算机网络信息中心更多>>
- 发文基金:国家高技术研究发展计划中国科学院知识创新工程国家自然科学基金更多>>
- 相关领域:自动化与计算机技术自然科学总论经济管理电子电信更多>>
- 不同层次MPI并行程序容错的比较被引量:2
- 2011年
- 随着超级计算机系统规模的不断扩大和系统结构的日益复杂,系统容错已经成为大规模超级计算机系统必须解决的一个关键问题。MPI并行程序的容错也日益受到关注,其中检查点设置和回卷恢复是MPI并行程序容错中一种重要的容错技术。本文对MPI标准、各种版本MPI实现的容错情况及检查点设置/回卷恢复的容错技术进行了介绍,给出了深腾7000上不同层次MPI并行程序的容错实例和性能测试结果,最后对不同层次MPI并行程序容错的开销进行了分析比较。
- 赵毅曹宗雁朱鹏迟学斌
- 关键词:MPI容错检查点设置回卷恢复
- 基于通信优化的Infiniband集群MPI作业加载被引量:1
- 2011年
- 针对如何缓解Infiniband集群中因通信冲突引起的MPI程序性能下降问题进行了研究,从系统管理的角度出发,提出了通过改变进程映射来优化MPI作业加载方案从而优化应用程序通信性能的方法,设计了用于评价MPI作业加载方案的通信性能损失系数(CPLR)指标,基于模拟退火算法设计了优化加载方案的搜索算法,并对所提出的指标和算法进行了实现和测试。测试结果表明,经过优化加载后的MPI程序在通信性能上有一定程度的提高。
- 曹宗雁牛铁赵毅朱鹏迟学斌
- 关键词:高性能计算机INFINIBAND集群MPI通信优化
- 浅析高性能计算应用的需求与发展被引量:32
- 2007年
- 高性能计算应用在高性能计算技术的支持下为科技创新做出了巨大贡献,并且和高性能计算技术在相辅相成中不断发展.自2004年以来,中国科学院计算机网络信息中心超级计算中心针对中国科学院在"十一五"期间的高性能计算需求在全院范围内开展了多次调研活动,对中国科学院在"十一五"期间高性能计算的整体需求及各应用领域需求的分布情况有了比较全面的了解,其调研结果对"十一五"中国科学院高性能计算环境建设和高性能计算应用的发展具有良好的借鉴作用.首先介绍了国内外高性能计算应用的发展现状,并结合中国科学院高性能计算环境建设和高性能计算应用的发展情况,分析了"十一五"中国科学院高性能计算的应用需求,最后对我国高性能计算应用的发展前景进行了展望.
- 赵毅朱鹏迟学斌牛铁曹宗雁
- 关键词:高性能计算机网格
- 基于RMI的高性能计算网格二次开发模型被引量:6
- 2010年
- 根据高性能计算和网格的特点,提出一种网格二次开发模型(GRM)。结合RMI和SSL/TLS技术,该模型提供了访问中间件的一致性接口,屏蔽了通过网络访问网格的繁杂问题,解决了敏感数据在不安全的广域网中传输的问题。以科学计算网格的中间件为基础,实现了GRM。多个基于GRM的用户接口开发经历和实验结果表明,GRM为开发人员提供了一个简单易用和功能全面的开发模型,而且具有良好的性能和可移植性。
- 曹荣强曹宗雁迟学斌肖海力
- 关键词:网格用户接口JAVARMI数据安全
- 高性能计算集群运行时环境的配置优化
- 本文关注如何在高性能计算集群上提供良好的运行时环境的问题,以使得并行应用程序获得更高的性能。指出了高性能计算集群运行过程中运行时环境配置优化需要考虑到的内容,包括跨节点资源的分配与选取、节点内进程及线程针对硬件资源的映射...
- Cao Zongyan曹宗雁
- 关键词:软件工程集群系统环境配置
- 基于任务负载监测的高性能集群节点启停机制被引量:1
- 2011年
- 对高性能计算集群在运行过程中如何通过关闭闲置节点来实现有效节能的问题进行了研究和探讨,设计和实现了基于任务负载量统计监测的节点启停机制。根据对系统中作业运行和排队情况的记录和分析,通过参数估计设计了反映队列任务情况的负载因子,并围绕负载因子制定具体策略,结合作业系统的队列设置和资源分配规则,对集群中的空闲节点进行自动启停控制。模拟实验表明,基于任务负载监测的节点启停机制能够有效地自动启停系统中闲置的节点,从而降低系统功耗,并且对系统中作业的整体完成时间基本不造成影响。
- 曹宗雁曹荣强戴志辉朱鹏迟学斌
- 关键词:高性能计算机集群参数估计
- 超级计算环境计算配额系统设计和实现被引量:6
- 2010年
- 在超级计算环境中,为避免计算资源滥用,确保每个用户有机会利用超级计算机求解生产、科研中的复杂问题,产出更多成果,在定期采集、解析作业日志的基础上,通过LSF API、shell编程,设计和实现了一套计算配额系统,用于对用户计算资源的配额、限制及使用情况统计分析。该系统已运行于中国科学院超级计算环境百万亿次超级计算机深腾7000中,效果良好。
- 牛铁朱鹏赵毅曹宗雁
- 关键词:LSF
- 基于Charm++运行时环境的异构计算应用容错研究被引量:3
- 2016年
- 容错问题是大规模并行程序长时间运行中不可回避的问题,超级计算机中异构计算部件的加入使得该问题更加复杂。考察由CPU和GPU组成的异构并行系统中应用程序的容错,利用Charm++并行编程模型和CUDA的并行计算架构,对大规模计算宇宙学软件WIGEON进行重构。针对异构并行系统中存在的fail-stop硬件故障,设计并实现了内存检查点的应用容错机制。支持计算恢复后对产生变化的CPU/GPU资源配置进行自适应负载调整。通过在高性能计算机Mole8.5上的实验和分析,验证了异构容错方案的高效性和可行性,故障恢复时间仅需1-4 s。此外,使用分布式冗余数据改进了Charm++现有内存检查点存储模式,对比原有Double-in-Memory机制,性能未受影响,且最多降低了50%的额外内存使用量。
- 孟晨曹宗雁王龙迟学斌
- 关键词:容错异构负载均衡
- 超级计算集群的安全防护被引量:1
- 2011年
- 由于具有很高的计算能力和存储空间,超级计算集群是攻击者眼中具有吸引力的目标,安全形势不容乐观。本文从超级计算集群的特点出发,分析了它可能面临的安全风险,结合运行经验和其追求性能最大化的实际,有针对性的给出内外兼顾的综合防护措施。
- 牛铁朱鹏曹宗雁刘飞
- 关键词:安全防护
- 宇宙数值模拟计算协处理器加速并行算法研究
- 数值模拟是现代宇宙学的重要研究手段之一,并且与高性能计算的发展紧密关联。目前,使用最新的至强融核(MIC)协处理器实现宇宙数值模拟计算的异构加速并行仍然是具有挑战性的问题。报告对宇宙数值模拟中粒子模拟和流体模拟两类计算在...
- 曹宗雁
- 关键词:宇宙学流体模拟协处理器