曹云鹏
- 作品数:10 被引量:32H指数:3
- 供职机构:临沂大学更多>>
- 发文基金:山东省自然科学基金山东省高等学校科技计划项目博士科研启动基金更多>>
- 相关领域:自动化与计算机技术电子电信更多>>
- 一种云存储系统内主从设备数据快速同步的方法
- 本发明公开了一种云存储系统内主从设备数据快速同步的方法,采用数据读写操作日志分离方法;使用局部时间片延迟提交同步操作的技术;为了解决延迟同步时主存储设备发生故障对数据可靠性的影响,本发明还提供了针对于此分布式存储系统的更...
- 王海峰刘海涛王瑾曹云鹏
- 文献传递
- 面向MapReduce计算模式的中间数据通信优化被引量:3
- 2018年
- 针对MapReduce计算模式在Map阶段结束后会产生海量中间数据,导致存在大量跨越机架交换机的数据通信问题,提出一种优化Map密集型作业的中间数据通信优化方法。首先,提取MapReduce计算作业的运行前调度信息的特征并且量化数据通信活跃度;然后,采用朴素贝叶斯分类模型实现分类预测,将历史作业的运行数据作为样本来训练分类模型;最后,根据作业分类预测结果把通信活跃的作业集中映射到同一机架中,通过提高通信局部性来优化性能瓶颈。实验结果表明,所提方案对Shuffle子过程稠密的作业优化效果明显,能够提高4%~5%的计算性能;此外,在多用户运行情况下能降低4.1%中间数据通信延迟。所提方法可有效降低大数据计算过程中的通信延迟,提高异构集群的计算性能。
- 曹云鹏曹云鹏
- 关键词:通信优化
- 一种微博舆情传播范围预测的方法
- 本发明涉及社会网络建模与分析领域,具体涉及一种微博舆情传播范围预测的方法。按照下列顺序依次进行:1)构建微博系统的传播网络模型;2)在微博传播网络中选择判断舆情覆盖范围的哨兵节点;3)利用哨兵监测节点建立微博舆情传播范围...
- 王海峰曹云鹏
- 文献传递
- 面向MapReduce计算的大规模集群通信优化被引量:4
- 2020年
- 为了优化大规模集群运行MapReduce作业时的通信效率和减少shuffle数据传输量,首先采用存储局部性换取通信局部性的策略建立一个分布式协同数据映射模型;其次通过随机抽样和机器学习方法来提取作业数据的局部性特征,实现map计算数据的有效部署;最后,利用软件定义网络的全局灵活控制能力,优选通信链路好的节点并将计算任务映射到该类节点中。实验表明对于中间数据混洗密集类作业有较好的优化效果,通信延迟降低了4.3%~5.8%。该方案能减少shuffle流量和数据迁移延迟,并且适合各种调度策略和网络拓扑结构。
- 曹云鹏曹云鹏刘海涛王海峰
- 关键词:MAPREDUCE
- 云计算环境中数据安全存储协同模型被引量:12
- 2018年
- 针对云计算环境中来自数据中心或存储区域内部的攻击,以及适应更复杂的存储管理的需求,从分布式体系设计角度提出一个实现存储控制平面和数据存储平面融合的协同体系模型,为协同存储安全模型设计详细的多级可信管理、密钥管理和数据同步方案。实验结果表明,对于大量中等文件的读写性能较好,数据安全管理造成的性能损失在可接受范围内,而且具有较好的可扩展性,能够适应大规模分布式存储系统的应用环境。
- 刘莹王海峰王海峰曹云鹏
- 关键词:数据安全
- 一种微信舆情的系统监测方法
- 本发明公开了一种微信舆情的系统监测方法,通过建立一套完整的舆情监督体系来实现对微信舆情传播的监测。采用招募网络微信众筹志愿者的方式向监测平台提供数据,再使用机器学习的方法来分析文本和图片数据判断信息的性质,最后根据举报者...
- 王海峰曹云鹏
- 文献传递
- 面向大数据复杂应用的GPU协同计算模型被引量:3
- 2020年
- 大数据计算中存在流计算、内存计算、批计算和图计算等不同模式,各种计算模式有不同的访存、通信和资源利用等特征。GPU异构集群在大数据分析处理中得到广泛应用,然而缺少研究GPU异构集群在大数据分析中的计算模型。多核CPU与GPU协同计算时不仅增加了计算资源的密度,而且提高节点间和节点内的通信复杂度。为了从理论上研究GPU与多核CPU协同计算问题,面向多种计算模式建立一个多阶段的协同计算模型(p-DCOT)。p-DCOT以BSP大同步并行模型为核心,将协同计算过程分成数据层、计算层和通信层三个层次,并且延用DOT模型的矩阵来形式化描述计算和通信行为。通过扩展p-DOT模型描述节点内和节点间的协同计算行为,细化了负载均衡的参数并证明时间成本函数,最后用典型计算作业验证模型及参数分析的有效性。该协同计算模型可成为揭示大数据分析处理中协同计算行为的工具。
- 张龙翔张龙翔王海峰
- GPU集群能耗优化控制模型研究被引量:3
- 2015年
- 随着大数据技术的发展,GPU集群作为一种高效的并行系统被应用到大规模数据实时计算中.能量是实时计算时重要的资源,GPU集群的能耗优化及实时消减成为一个具有挑战性的问题.从集群全局角度引入模型预测控制策略,并建立闭环反馈机制的多输入多输出控制器.通过调整计算频率和改变活跃流多处理器来改变能耗状态,利用反馈和滚动优化机制完成对未来的控制预判,实现消减冗余能耗的目标.实验表明:控制模型的精度和节能效果优于基准模型,而且具有较好的稳定性,适合应用到大规模数据实时计算中.
- 王海峰曹云鹏
- 关键词:GPU集群
- 一种微博舆情传播范围预测的方法
- 本发明涉及社会网络建模与分析领域,具体涉及一种微博舆情传播范围预测的方法。按照下列顺序依次进行:1)构建微博系统的传播网络模型;2)在微博传播网络中选择判断舆情覆盖范围的哨兵节点;3)利用哨兵监测节点建立微博舆情传播范围...
- 王海峰曹云鹏
- 文献传递
- 面向大数据复杂应用的虚拟集群动态部署模型被引量:7
- 2020年
- 针对计算负载的时变性和复杂性导致虚拟集群的资源利用率不高的问题,为提高虚拟集群资源的全局利用率,采用弹性资源管理策略来吸收多种计算模式混杂时的资源需求突变。在Docker容器技术的支持下提出一个根据作业需求变化的动态部署模型。该模型根据资源的动态需求变化,实时调整虚拟集群的计算形态,具体包括计算节点的类型及规模。该模型不仅实现用户作业执行环境的动态定制,而且达到错峰计算的目的。仿真实验表明,该模型使得虚拟节点CPU利用率提升5. 3%,并且优化了计算作业的执行效率。该动态部署模型适合应用到数据中心或大规模集群中,能够有效提高计算资源的利用率。
- 王瑾王瑾王海峰
- 关键词:虚拟集群