鲁亮
- 作品数:32 被引量:174H指数:8
- 供职机构:新疆大学信息科学与工程学院更多>>
- 发文基金:国家自然科学基金新疆维吾尔自治区自然科学基金新疆维吾尔自治区高校科研计划更多>>
- 相关领域:自动化与计算机技术更多>>
- 基于聚类层次模型的视频推荐算法被引量:2
- 2017年
- 目前推荐系统存在评论数据稀疏、冷启动和用户体验度低等问题,为了提高推荐系统的性能和进一步改善用户体验,提出基于聚类层次模型的视频推荐算法。首先,从相关用户方面着手,通过近邻传播(AP)聚类分析得到相似用户,从而收集相似用户中的历史网络视频数据,进而形成视频推荐集合;其次,利用用户行为的历史数据计算出用户对视频的喜好值,再把视频的喜好值转换成视频的标签权重;最后,通过层次分析模型算出视频推荐集合中用户喜好视频的排序,产生推荐列表。基于Movie Lens Latest Dataset和You Tube视频评论文本数据集,实验结果表明所提算法在均方根误差和决策精度方面均表现出良好的性能。
- 金亮于炯杨兴耀鲁亮王跃飞国冰磊廖彬
- 关键词:稀疏性冷启动聚类分析
- 大数据流式计算环境下的阈值调控节能策略被引量:4
- 2017年
- 在大数据实时分析计算领域,流式计算的重要性不断提高,但是流式计算平台处理数据的能耗不断上升。针对这一问题,改变流式计算中节点对数据的处理方式,提出了一种阈值调控节能策略(ESTC)。首先,根据系统负载差异确定工作节点的阈值情况;其次,通过工作节点的阈值对系统数据流进行随机选择,确定不同数据处理情况调节系统的物理电压;最后,根据不同的物理电压确定系统功率。实验结果和理论分析表明,在20台普通PC机构成的流式计算集群中,实施ESTC的系统比原系统有效节能约35.2%;此外,ESTC下的性能与能耗的比值为0.080 3 tuple/(s·J),而原系统性能与能耗的比值为0.069 8 tuple/(s·J)。ESTC能够在不影响系统性能的前提下,有效降低了能耗。
- 蒲勇霖于炯王跃飞鲁亮廖彬侯冬雪
- 关键词:阈值系统性能
- 并行计算框架Spark的自动检查点策略被引量:1
- 2017年
- 针对现有的Spark检查点机制需要编程人员根据经验选择检查点,具有一定的风险和随机性,可能导致恢复开销较大的问题,通过对RDD属性的分析,提出了自动检查点策略,包括权重生成(WG)算法和检查点自动选择(CAS)算法.首先,WG算法分析作业的DAG结构,获取RDD的血统长度和操作复杂度等属性,计算RDD权重;然后,CAS算法选择权重大的RDD作为检查点进行异步备份,来实现数据的快速恢复.结果表明:在使用CAS算法时,不同数据集执行时间和检查点容量大小都有所增加,其中Wiki-Talk由于其计算量较大,增幅明显;使用CAS算法设置检查点后,在单点失效恢复的情况下,数据集的恢复时间较短.因此,自动检查点策略在略微增加执行时间开销的基础上,能够有效地降低作业的恢复开销.
- 英昌甜于炯卞琛鲁亮钱育蓉
- 关键词:SPARK
- Spark框架并行度推断算法被引量:5
- 2019年
- 分布式计算集群Spark宽依赖并行度取决于用户设定参数,对于不同的作业类型或数据集,硬编码的并行度参数设定难以发挥集群的最大计算能效。针对这一问题,首先对Spark作业执行方式进行深入分析,建立作业调度模型,提出宽依赖计算代价、资源空置率和溢写概率的定义;然后分析任务并行度对作业执行时间的影响,证明并行度取值具有合理区间,提出并行度推断算法的优化目标。最后根据模型定义进行目标求解,设计批处理内存计算框架的并行度推断算法(parallelismdeduction algorithm, PDA),通过构建的数据总量、执行区预留比、操作闭包集合、资源表等多个基础数据,计算符合资源需求表且具有最大资源利用率和最小开销的任务并行度;PDA算法在作业的各个Stage中迭代执行,根据计算环境优化调度方案提高性能。实验表明,PDA算法提高了Spark框架的作业执行效率,针对不同类型作业均具有良好的普适性。
- 卞琛卞琛于炯修位蓉廖彬英昌甜
- 关键词:SPARK
- 大数据流式计算环境下的内存节能策略被引量:3
- 2017年
- 针对流式计算系统计算和存储能耗过高的问题,改变流式计算中内存的存储状态,提出了一种内存节能策略(ESFM).首先,明确内存中不同状态之间的同步关系与转换条件;其次,通过降低内存活动状态的电压,减少处于内存活动状态的物理节点数量,将服务器中的部分内存从活动状态同步成休眠状态.最后,将计算后的数据存储于休眠状态的内存空间.实验证明和理论分析,在24台普通PC机构成的流式计算系统中,实施内存节能策略的系统比原系统有效节能约25.5%.此外,内存节能策略下的性能与能耗的比值为0.0766tuple/s·J,而原系统性能与能耗的比值为0.0792tuple/s·J.由此可见,内存节能策略能够在不影响系统性能的前提下,有效降低能耗.
- 蒲勇霖于炯鲁亮廖彬王跃飞
- 关键词:能耗优化休眠状态系统性能
- 基于用户访问特征的云存储副本动态管理节能策略被引量:2
- 2014年
- 针对云计算环境下服务器利用率低、能耗浪费严重的问题,提出一种基于用户访问特征的云存储副本动态管理节能策略。通过把用户访问特征的研究转化为计算Block的访问热度,根据节点的整体访问热度,DataNode主动申请休眠从而达到节能的目的。给出了详细的休眠申请、休眠判断算法,以及在DataNode休眠期间出现对已休眠Block进行访问的情况时如何处理的解决方案。实验结果表明,采用该策略后可休眠29%~42%的DataNode,减少能耗31%,且服务器的用户响应时间不受影响。经过性能分析,得出该策略在保证数据可用性的同时可有效地降低能耗。
- 王政英于炯英昌甜鲁亮班爱琴
- 关键词:云计算节能计算
- 基于流网络的流式计算动态任务调度策略被引量:8
- 2018年
- 针对大数据流式计算平台中输入数据流速急剧上升所导致的计算延迟升高问题,提出了基于流网络模型的动态调度策略,并将其应用于Flink数据流计算平台。首先,通过定义有向无环图(DAG)中每条边的容量和流量将其转化为流网络模型,并通过容量检测算法确定每条边的容量值;然后,通过最大流算法计算对应的增进网络和优化路径,从而在输入速率上升阶段提升集群的吞吐量,并通过评估时空代价论证了算法的可行性;最后,讨论了重要参数对算法执行效果的影响,并通过实验得出了在不同类型的作业中推荐的参数取值。经实验验证得出:所提算法与Flink平台现有的任务调度策略相比,在输入速率上升阶段对不同作业类型中集群吞吐量的优化比均高于16.12%。实验结果表明动态调度策略在满足任务延迟约束的前提下有效提高了集群的吞吐量。
- 李梓杨于炯卞琛鲁亮蒲勇霖
- 关键词:数据流任务调度最大流APACHE
- 面向内存云的数据块索引方法被引量:14
- 2016年
- 内存云(RAMCloud)通常通过移动数据的位置来解决内存利用率低的问题,致使Hash表数据定位失效,查询数据效率低下;另一方面,在数据恢复过程中由于不能快速定位到需要的数据,每台备份服务器返回的数据段不能更好地组织起来。针对以上问题,提出内存云全局键(RGK)及二叉树索引。RGK分为三部分:定位到主服务器、定位到段以及定位到数据块。前两部分构成协调器索引键(CIK),在恢复中借助构造的协调器索引树(CIT)能够定位到段所在的主服务器;后两部分构成主服务器索引键(MIK),数据在内存中位移后也能通过主服务器索引树(MIT)快速获取到数据。与传统内存云集群相比,主服务器获取数据块的时间随数据吞吐量的增大而明显减少;协调器在闲散时间、重组日志时间等方面均有下降。实验结果表明,全局键在构造的二叉索引树的支持下能有效缩短获取数据及快速恢复的时间。
- 王跃飞于炯鲁亮
- 关键词:日志结构
- 内存云分级存储架构下的数据迁移模型被引量:13
- 2015年
- 为了实现在线海量数据的高效存储与访问,在内存云分级存储架构下,提出一种基于数据重要性的迁移模型(MMDS)。首先,通过数据本身的大小、时间重要性、用户访问总量等因素对数据本身的重要性进行计算;其次,采用推荐系统中相似用户和PageRank算法中的重要性排名思想对数据的潜在价值进行评估,数据重要性和潜在价值共同决定了数据的重要程度;然后基于数据的重要性,设计了数据迁移机制。实验结果表明:该模型能够识别出数据的重要程度并分级放置数据,相比最近最少使用(LRU)、最近最不常用(LFU)、基于价值评估的数据迁移(MSDV)等算法,提高了存储系统的数据访问命中率。该模型能够缓解部分存储压力,数据访问性能也有了一定的提高。
- 郭刚于炯鲁亮英昌甜尹路通
- 关键词:数据迁移
- 融合评论分析和隐语义模型的视频推荐算法被引量:6
- 2015年
- 针对网络视频元数据信息缺失严重和多媒体数据本身特征难以提取等问题,提出了融合评论分析和隐语义模型的网络视频推荐算法。从视频评论入手,通过分析用户对不同视频的评论内容以判断其情感倾向并加以量化,继而构建用户对项目的虚拟评分矩阵,弥补了显式评分数据稀疏性问题。考虑到网络视频的多元性和高维度特性,为了深度挖掘用户对网络视频的潜在兴趣,针对虚拟评分矩阵采用隐语义模型(LFM)对网络视频分类,在传统的用户—项目二元推荐系统基础之上添加虚拟类目信息以进一步发掘用户—类目—项目关联关系。实验在多重标准下进行,对You Tube评论集的实验表明,所提推荐方法获得了较高的推荐精度。
- 尹路通于炯鲁亮英昌甜郭刚
- 关键词:推荐系统网络视频