李彦虎
- 作品数:4 被引量:141H指数:2
- 供职机构:中国科学院计算技术研究所更多>>
- 发文基金:国家电网公司科技项目更多>>
- 相关领域:电气工程自动化与计算机技术电子电信更多>>
- 基于云计算的电力大数据分析技术与应用被引量:136
- 2015年
- 为解决电力数据分析系统在大数据时代面临的严重的性能与可伸缩性瓶颈,更好地满足生产、营销等系统的需求,分析了云计算技术的优势,提出了基于云计算的电力大数据分析系统体系结构及关键技术。基于分布式并行计算框架Hadoop和Hive,面向电力大数据特征,设计了多维索引、SQL自动翻译工具和支持数据更新的混合存储模型3项性能提升技术,实现对传统电力数据分析系统的升级优化。在浙江电力用电信息采集系统的实际部署经验表明,和传统电力数据分析系统相比,该系统以1/8的硬件成本,获得平均5倍的性能优势。证明了云计算技术能够显著提升电力大数据查询与分析性能并有效降低成本。
- 吴凯峰刘万涛李彦虎苏伊鹏肖政裴旭斌虎嵩林
- 关键词:电力大数据云计算用电信息数据采集数据分析
- 基于Spark/Shark的电力用采大数据OLAP分析系统被引量:5
- 2016年
- 用电信息大数据上的OLAP查询涉及数据量大,具有多表连接操作频繁、SQL结构复杂等特点,传统关系型数据库面对该类应用,表现出可扩展性弱、数据写入吞吐量低与查询效率低等问题.为此设计了一套基于Spark/Shark的电力大数据OLAP分析系统,该系统采用分布式文件系统HDFS保存电力用电信息采集系统的大数据,通过Shark进行前端SQL解析,Spark进行查询计算;然而,原生Shark只支持粗粒度分区,不支持细粒度的索引技术,难以高效地过滤无关数据,影响了查询性能.为克服这一不足,该系统设计了一种基于前缀树的细粒度索引结构TrieIndex,并通过数据重组技术优化了数据在HDFS的分布,提升了Shark的数据过滤能力以及用电信息大数据OLAP分析的性能.真实用电信息采集系统数据与查询的实验结果表明,该系统比关系型数据库的写入速度提升了12倍,比原生Shark的查询效率提升了10倍以上.
- 王亚玲刘越洪建光崔蔚李彦虎苏伊鹏黄高攀张明明刘万涛
- 关键词:SPARKOLAP前缀树
- 大数据处理与分析关键技术研究及示范应用
- 王亚玲虎嵩林崔蔚李蕴裘炜浩张丽吴凯峰刘迪欧清海廖逍刘万涛裴旭斌刘越王越李彦虎
- 该项目属于电子与计算机工程学科,涉及管理信息系统、计算机系统集成等多个专业。项目包含大数据处理平台研究与开发、分布式多维索引技术研究、多版本存储优化技术研究,提出了传统业务系统向分布式系统演进的技术方案,并在北京市用电信...
- 关键词:
- 关键词:数据分析用电信息采集
- 基于Spark/Shark的电力用采大数据OLAP分析系统
- 电力用采大数据上的OLAP查询具有涉及数据量大、多表连接操作频繁、SQL结构复杂等特点,传统关系型数据库面对该类应用,暴露出可扩展性弱、数据写入吞吐量低与查询效率低等问题。针对上述问题,本文设计并实现了一套基于Spark...
- 王亚玲刘越洪建光崔巍李彦虎苏伊鹏刘万涛