肖海力
- 作品数:80 被引量:185H指数:9
- 供职机构:中国科学院计算机网络信息中心更多>>
- 发文基金:国家高技术研究发展计划中国科学院战略性先导科技专项中国科学院信息化专项项目更多>>
- 相关领域:自动化与计算机技术文化科学经济管理政治法律更多>>
- 基于Nagios的监控平台的设计与实现
- 主要结合中科院超级计算环境三层架构的模式,针对其中多个服务器设计并实现了一个分布式的监控平台,旨在较快并准确的了解基础设施的运行情况,更好的管理各个服务器。本文首先介绍了Nagios的基本概念、相关原理;然后结合超级计算...
- 和荣肖海力
- 关键词:分布式架构
- 基于Nagios的监控数据分析展示平台被引量:2
- 2017年
- 基于Nagios已设计开发了中国科学院超级计算环境监控平台,通过监控平台可获取集群的相关运维信息,及时了解各服务器的状况,针对出现的故障问题做出快速响应。监控平台获取的数据受存储方式等因素的限制无法方便地提供给外部使用,本文针对获取的集群数据加工处理并设计开发了获取这些数据的相应接口。开发人员可方便地利用这些接口获取数据并根据自己的需求通过不同的方式进行可视化展示。基于监控接口我们开发实现了一个用于展示超级计算环境运行状况的Show平台。用户或系统管理员可通过科技网通行证登录此平台查看中科院超级计算环境的整体运维信息,同时各管理员可查看自己集群的运维数据。Show平台为用户了解环境以及各集群的运行状况提供了方便的途径。
- 和荣肖海力
- 关键词:监控数据接口数据展示利用率
- 一种分布式环境运行状态的诊断方法及装置
- 本发明提供一种分布式环境运行状态的诊断方法及装置。在一个实施例中,从至少一个设备上采集与分布式环境运行状态相关的数据,并根据目标环境的分析需求,从多种角度对采集的数据进行分析并生成分析结果;然后将该分析结果转化为相应数值...
- 赵一宁肖海力
- 文献传递
- 一种任务调度方法与装置
- 本发明提供一种任务调度方法与装置。该装置包括:作业请求收集与分发模块,至少一个调度服务模块,至少一个作业执行服务模块。作业请求收集与分发模块从用户终端接收待执行作业的第一描述信息。至少一个调度服务模块中与作业调度算法名称...
- 吴璨王小宁肖海力迟学斌和荣卢莎莎
- 文献传递
- 基于Nagios的监控平台的设计与实现被引量:15
- 2014年
- 为了更好地运维中国科学院超级计算环境,掌握各个服务器的工作情况,需要对环境中的服务器进行实时监控,并将出现的问题反馈给管理员以便得到及时解决。Nagios是一个监控系统运行和网络信息的监控系统,并且所有监控及检测功能都是由插件来实现的,用户可以很方便的扩展自己服务的检测方法。本文基于Nagios设计并实现一个监控平台,直观正确的反映服务器的网络连接、磁盘、负载等信息以及集群使用情况。
- 和荣肖海力
- 关键词:NAGIOS分布式
- 科学计算网格环境下性能分析工具的设计与实现被引量:2
- 2011年
- 网格内部资源的高效利用,关键因素在于用户提交程序性能,帮助用户提高程序性能对整个网格使用效率有至关重要的作用。本文在科学计算网格环境的基础上,提出了一个集信息收集、分析和展示于一体,并且无需对用户程序进行特殊处理,高效率低开销的性能分析工具的设计和实现方法。实验表明,该工具对测试程序的性能影响在5%以下,能够保证用户在网格环境中高效率准确的得到自己测试程序的真实表现,辅助用户修改程序,提高整个网格的使用效率。
- 张拓宇肖海力迟学斌
- 关键词:网格计算
- 一种用户行为特征的分析方法及装置
- 本发明提供了一种用户行为特征的分析方法及装置。该方法包括:通过采集日志文件,之后对日志文件进行解析,获取日志数据,并根据日志数据的信息,对日志数据进行结构重组,获取重组日志数据,最后根据重组日志数据,获取用户行为特征,从...
- 赵一宁武虹肖海力
- 文献传递
- 高性能计算环境中间件的优化设计与实现被引量:8
- 2019年
- 步入大数据时代之后,致力于解决大规模科学计算问题的高性能计算技术,得到了越来越广泛的关注与应用。随着高性能计算机制造产业的蓬勃发展,具有每秒上亿亿次浮点运算速度的高性能计算集群对高性能计算环境中间件的性能提出了更高的要求。现有的高性能计算环境中间件中,资源信息服务无法满足海量信息快速更新的需求。为了提高高性能计算环境中间件的性能,通过借鉴ETL技术,将资源信息传输方式优化为信息同步模式。优化后的信息同步模式在处理2 000条作业状态更新时,延迟时间缩短90%、系统负载降低98%、网络连接数减少90%,为系统维护人员、环境用户带来更好的用户体验。
- 吴璨王小宁肖海力曹荣强赵一宁迟学斌
- 关键词:资源信息服务信息传输方式
- 对于大规模系统日志的日志模式提炼算法的优化被引量:6
- 2017年
- LARGE框架是部署在中国科学院超级计算环境中的日志分析系统,通过日志收集、集中分析、结果反馈等步骤对环境中的各种日志文件进行监控和分析。在对环境中系统日志的监控过程中,系统维护人员需要通过日志模式提炼算法将大量的过往系统日志记录缩减为少量的日志模式集合。然而随着日志规模的增长以及messages日志文件的特殊性,原有的日志模式提炼算法已经难以满足对大规模日志快速处理的需要。介绍了一种对于日志模式提炼算法的优化方法,通过引入MapReduce机制实现在存在多个日志输入文件的情况下对日志处理和模式提炼的流程进行加速。实验表明,当输入文件较多时,该优化方法能够显著提高词汇一致率算法的运行速度,大幅减少运行时间。此外,还对使用词汇转换函数时的算法运行时间和提炼效果进行了验证。
- 赵一宁肖海力
- 关键词:网格环境
- 基于云服务的计算化学社区被引量:2
- 2016年
- 中国科学院超算环境是由中国科学院统筹规划建设的"院总中心-分中心-所级中心"三层结构的超级计算环境,环境的资源聚合使用网格中间件SCE,并使用API接口对外提供服务。依托超算环境建设的科学计算学云服务社区采用软件即服务的模式,使用浏览器/服务器结构来提供专业交互式的计算化学科学计算服务,以"降低使用门槛、提高使用效率,助跑计算化学用户的科学研究工作"为目标,为广大科研用户提供"一站式"计算的Web服务模式和异构资源协同工作模式。本文同时介绍了社区的建设应用情况以及环境的运行、监控情况。
- 刘倩肖海力曹荣强赵一宁金钟
- 关键词:网格API