MapReduce运行机制与工作原理
Shuffle
是个很关键的步骤,可以进行排序,压缩,分区、合并等操作
相关博客,墙裂推荐:https://www.cnblogs.com/liangzilx/p/14836447.html
hadoop MapReduce对外提供了5个可编程组件,分别是 InputFormat
、Mapper
、Partitioner
、Reducer
和 OutputFormat
之前说过map阶段输入的键值对,K是偏移量,V是一行的数据。但是很多情况下,这个固定死的规划是不符合实际业务需求的。
所以,怎么去读取数据源,读取之后,以什么键值对的形式,然后输出给 Mapper
,也是个很关键的问题。而处理这个问题的关键在于 InputFormat
,它处理的是怎么读取数据
说完了读取不够灵活的问题,再来说一下输出的问题。目前已知的输出方式只有将结果输出到文件,那么我可不可以输出到MySQL等数据库呢?答案是可以的,而处理输出相关操作的组件是 OutputFormat
工作原理分析(必看!!!)
如下博客有 MapReduce
、Shuffle
、Yarn
工作流程的分析