马骄阳
- 作品数:7 被引量:3H指数:1
- 供职机构:浙江大学更多>>
- 发文基金:浙江省重大科技专项基金国家自然科学基金国家科技重大专项更多>>
- 相关领域:自动化与计算机技术更多>>
- 基于倒排索引的时间序列相似性查询方法
- 本发明公开了一种基于倒排索引的时间序列相似性查询方法,包含索引构建和查询处理步骤,首先利用符号聚集近似表示将实值型的时间序列转化为离散的字符串,然后提取特征子序列,利用向量近似文件存储编码,将子序列分别转为两种粒度的词插...
- 孙建伶陈岭蔡青林马骄阳
- 文献传递
- 基于改进DPhyp算法的Impala查询优化被引量:3
- 2013年
- 针对目前基于动态规划查询超图(dynamic programming hypergraphs,DPhyp)优化SQL查询算法产生指数运行时间、传统代价模型难以直接适用于Impala大数据实时查询系统等问题,提出基于改进DPhyp算法的Impala查询优化方法.首先,构建满足左线性树的搜索策略,缩小整个执行计划的搜索空间;接着,综合考虑数据移动代价及Hash join算法运行等关键因素,结合提出的代价模型,生成最佳的join顺序;最后,在生成的join顺序基础上构建执行计划,执行后返回最终查询结果.大量实验结果表明,改进的DPhyp算法与DPhyp生成的join顺序一致,且前者算法运行效率比后者要快近一倍.另外,改进的DPhyp算法结合提出的代价模型,比原始的Impala查询响应时间平均减少67%~80%.
- 周强陈岭马骄阳赵宇亮吴勇王敬昌
- 基于浓密树和自顶向下的大数据实时查询优化方法
- 本发明公开了一种基于浓密树和自顶向下的大数据实时查询优化方法,包括:(1)对查询语句进行解析,根据解析后的查询语句构建初始查询超图;(2)基于查询计划树的代价最低原则对所述的初始查询超图按照级别自顶向下进行逐级分解,直至...
- 陈岭马骄阳
- 文献传递
- 基于倒排索引的时间序列相似性查询方法
- 本发明公开了一种基于倒排索引的时间序列相似性查询方法,包含索引构建和查询处理步骤,首先利用符号聚集近似表示将实值型的时间序列转化为离散的字符串,然后提取特征子序列,利用向量近似文件存储编码,将子序列分别转为两种粒度的词插...
- 孙建伶陈岭蔡青林马骄阳
- 文献传递
- 基于浓密树和改进McCHyp算法的Impala查询优化被引量:1
- 2014年
- 针对Impala大数据实时查询系统在查询优化上存在的问题,提出基于浓密树和改进的MinCutConservative Hypergraph(McCHyp)算法的Impala查询优化方法.首先,修改Impala使其支持浓密树的查询计划;接着,使用剪枝策略对McCHyp算法进行改进,减少查询优化的时间;最后,提出一种适用于Impala的代价模型,并将改进的McCHyp算法集成到Impala中,根据用户的SQL语句生成较优的查询计划.在Impala系统上实现了本文提出的查询优化方法并在TPC-H数据集上进行了实验,结果表明改进的McCHyp算法与McCHyp算法对连接超图的优化结果一致,且前者的运行时间减少了43.82%~62.55%.同时,使用改进的McCHyp算法及新的代价模型对查询语句优化后,查询响应时间较原始的Impala系统减少了79.60%.
- 马骄阳陈岭赵宇亮杨谊吴勇王敬昌
- 关键词:查询优化IMPALA查询计划
- 基于超图和浓密树的大数据实时查询优化研究与实现
- Impala是Cloudera公司推出的大数据实时查询系统,其利用分布式技术,使用Hadoop作为存储,通过Hive的元数据表获取统计信息,实现大数据的高效查询。Impala的最新版本提供了一些查询优化技术,但目前只支持...
- 马骄阳
- 关键词:优化算法
- 基于浓密树和自顶向下的大数据实时查询优化方法
- 本发明公开了一种基于浓密树和自顶向下的大数据实时查询优化方法,包括:(1)对查询语句进行解析,根据解析后的查询语句构建初始查询超图;(2)基于查询计划树的代价最低原则对所述的初始查询超图按照级别自顶向下进行逐级分解,直至...
- 陈岭马骄阳