肖海力 作品数:81 被引量:188 H指数:9 供职机构: 中国科学院计算机网络信息中心 更多>> 发文基金: 国家高技术研究发展计划 中国科学院战略性先导科技专项 中国科学院信息化专项项目 更多>> 相关领域: 自动化与计算机技术 经济管理 文化科学 政治法律 更多>>
基于Nagios的监控平台的设计与实现 主要结合中科院超级计算环境三层架构的模式,针对其中多个服务器设计并实现了一个分布式的监控平台,旨在较快并准确的了解基础设施的运行情况,更好的管理各个服务器。本文首先介绍了Nagios的基本概念、相关原理;然后结合超级计算... 和荣 肖海力关键词:分布式架构 基于Nagios的监控数据分析展示平台 被引量:2 2017年 基于Nagios已设计开发了中国科学院超级计算环境监控平台,通过监控平台可获取集群的相关运维信息,及时了解各服务器的状况,针对出现的故障问题做出快速响应。监控平台获取的数据受存储方式等因素的限制无法方便地提供给外部使用,本文针对获取的集群数据加工处理并设计开发了获取这些数据的相应接口。开发人员可方便地利用这些接口获取数据并根据自己的需求通过不同的方式进行可视化展示。基于监控接口我们开发实现了一个用于展示超级计算环境运行状况的Show平台。用户或系统管理员可通过科技网通行证登录此平台查看中科院超级计算环境的整体运维信息,同时各管理员可查看自己集群的运维数据。Show平台为用户了解环境以及各集群的运行状况提供了方便的途径。 和荣 肖海力关键词:监控数据 接口 数据展示 利用率 一种分布式环境运行状态的诊断方法及装置 本发明提供一种分布式环境运行状态的诊断方法及装置。在一个实施例中,从至少一个设备上采集与分布式环境运行状态相关的数据,并根据目标环境的分析需求,从多种角度对采集的数据进行分析并生成分析结果;然后将该分析结果转化为相应数值... 赵一宁 肖海力文献传递 一种任务调度方法与装置 本发明提供一种任务调度方法与装置。该装置包括:作业请求收集与分发模块,至少一个调度服务模块,至少一个作业执行服务模块。作业请求收集与分发模块从用户终端接收待执行作业的第一描述信息。至少一个调度服务模块中与作业调度算法名称... 吴璨 王小宁 肖海力 迟学斌 和荣 卢莎莎文献传递 基于Nagios的监控平台的设计与实现 被引量:15 2014年 为了更好地运维中国科学院超级计算环境,掌握各个服务器的工作情况,需要对环境中的服务器进行实时监控,并将出现的问题反馈给管理员以便得到及时解决。Nagios是一个监控系统运行和网络信息的监控系统,并且所有监控及检测功能都是由插件来实现的,用户可以很方便的扩展自己服务的检测方法。本文基于Nagios设计并实现一个监控平台,直观正确的反映服务器的网络连接、磁盘、负载等信息以及集群使用情况。 和荣 肖海力关键词:NAGIOS 分布式 科学计算网格环境下性能分析工具的设计与实现 被引量:2 2011年 网格内部资源的高效利用,关键因素在于用户提交程序性能,帮助用户提高程序性能对整个网格使用效率有至关重要的作用。本文在科学计算网格环境的基础上,提出了一个集信息收集、分析和展示于一体,并且无需对用户程序进行特殊处理,高效率低开销的性能分析工具的设计和实现方法。实验表明,该工具对测试程序的性能影响在5%以下,能够保证用户在网格环境中高效率准确的得到自己测试程序的真实表现,辅助用户修改程序,提高整个网格的使用效率。 张拓宇 肖海力 迟学斌关键词:网格计算 面向地球大数据的新型计算系统设计与实践 2025年 【应用背景】地球大数据具有大规模、多样化、高复杂性和非结构化等特点,相关数据处理面临数据异构分散、计算复杂繁重、协同处理困难等挑战。【目的】提高海量异构地球大数据分析、处理、发布效率,加速大数据驱动科学创新。【方法】本文设计并实现了一种新型超融合架构计算系统,研发了资源聚合与作业调度、HPC计算函数等服务,实现了超级计算、云计算等多元算力在单一计算系统中的集成融合与数据共享。【结果】建成了地球大数据云服务基础平台,形成了“云+超算”协同计算服务能力,满足了科研人员按需构建个性化计算环境、利用大数据与超级计算等方法协同处理科研数据需求。【结论】地球大数据云服务基础平台实现了多元算力融合,减少了跨算力数据搬运,提高了协同计算效率,更好的满足了专项与SDGs(Sustainable Development Goals)评估中复杂应用场景的快速计算需求,采用的方法对研制以数据为中心、一站式处理的新型融合架构计算系统具有积极借鉴意义。 卢莎莎 牛铁 吴璨 康乐 肖海力关键词:云计算 面向科学计算的网格环境 被引量:11 2012年 为了充分整合分布的高性能计算资源,本文提出一种面向科学计算的网格环境,旨在形成一个可统一管理和运行维护的虚拟的超级计算机资源,面向用户提供统一、易用、可靠的科学计算服务。面向科学计算的网格环境通过轻量级网格中间件SCE汇聚资源,支持作业的全局调度、数据的统一管理视图,面向用户提供命令行和网格门户两种使用方式,并提供编程接口供专业社区和学科平台二次开发使用,满足不同层次的用户需求。目前,面向科学计算的网格环境已经在中国科学院超级计算环境(ScGrid)中得到应用和用户认可。 迟学斌 肖海力 王小宁 曹荣强 卢莎莎 张宏海关键词:网格环境 网格中间件 科学计算网格软件SCE的持续交付方法研究 被引量:2 2012年 为缩短SCE(Super Computing Environment)软件的交付周期,尽快满足用户的需求,在SCE整个开发周期中引入自动化测试及自动化部署。自动化测试能够完成对SCE软件的功能测试、性能测试;自动化部署能够将整个部署环节简化,快速完成软件的部署及升级。很大程度上缩短了软件的交付周期,初步实现适合SCE软件的持续交付,很好的推动了SCE的后续开发。 卢莎莎 肖海力关键词:网格软件 软件测试 分布式消息系统研究综述 被引量:38 2019年 随着大数据时代的到来,各类软硬件系统的高并发访问、海量数据处理等需求越来越多,系统的高可用、易伸缩、可扩展成为系统研发的首要目标,分布式系统应运而生,提供了满足高性能需求的解决方案。然而,系统分布式地部署在不同的计算机上,使得系统间的消息通信成为重要问题。文章综述了4种流行的开源分布式消息系统,对比分析了RabbitMQ,Kafka,ActiveMQ和RocketMQ的架构及性能,为科研人员和系统开发者选择分布式消息系统提供了参考意见。 吴璨 王小宁 肖海力 曹荣强 赵一宁 迟学斌