Hadoop MapReduce与Spark 的Shuffle过程原理

被引:4
|
作者
胡必波
彭平
李散散
机构
[1] 广州工商学院
关键词
Shuffle; MapReduce; Hadoop; Spark;
D O I
暂无
中图分类号
TP311.13 [];
学科分类号
1201 ;
摘要
针对大数据分布式编程新知识初学者难以理解的问题,选取Hadoop MapReduce与Spark计算模型中涉及核心环节Shuffle过程原理深入剖析,并以单词词频统计算法Shuffle过程为例。实验结果表明,Spark节省了中间数据排序时间Tsort,消耗了中间数据传输时间 Ttrans,而在中间数据文件数目以及同步次数等方面效率都均要低于MapReduce。通过整体功能、流程实现、数据拉取机制等方面对比分析,帮助初学者深入了解分布式编程的基本思想,降低大数据学习门槛。
引用
收藏
页码:63 / 66
页数:4
相关论文
共 16 条
  • [1] 大数据技术原理与应用[B]. 人民邮电出版社 , 林子雨, 2017
  • [2] Spark大数据技术与应用[B]. 人民邮电出版社 , 肖芳, 2018
  • [3] Hadoop大数据开发基础[B]. 人民邮电出版社 , 余明辉, 2018
  • [4] Hadoop MapReduce Shuffle过程优化方案研究[D]. 黄开科.华中科技大学 2016
  • [5] 时允田,林雪纲. Hadoop大数据开发案例教程与项目实战 . 2017
  • [6] 分布式并行计算框架的shuffle优化 .2 付周望. 上海交通大学 . 2018
  • [7] 林子雨. 大数据技术原理与应用 . 2017
  • [8] 大数据技术原理与应用课程建设经验分享
    林子雨
    [J]. 大数据, 2018, 4 (06) : 29 - 37
  • [9] 分布式并行计算框架的shuffle优化[D]. 付周望.上海交通大学 2018
  • [10] 余明辉,张良均. Hadoop大数据开发基础 . 2018