从这篇文章开始,我会开始系统性地输入在大数据摔坑过程中的累积,后面不会牵涉到到空战项目的具体操作,目前的规划是按照系列来改版,力争做一个系列在5篇文章之内总结出有最核心的干货,如果是牵涉到到理论方面的文章,不会以画图的方式来介绍,如果是牵涉到到操作者方面,不会以实际的代码来展示。这篇是MapReduce系列的第一篇,初识MapReduce的应用于场景,在文章后面不会有关于代码的展示。
Hadoop作为Apache旗下的一个以Java语言构建的分布式计算开源框架,其由两个部分构成,一个是分布式的文件系统HDFS,另一个是批处理计算出来框架MapReduce。这篇文章作为MapReduce系列的第一篇文章,不会从MapReduce的产生背景、框架的计算出来流程、应用于场景和展示Demo来介绍,主要是让大家对MapReduce的这个批计算出来框架有个可行性的理解及非常简单的部署和用于。目录MapReduce的产生背景MapReduce的计算出来流程MapReduce的框架架构MapReduce的生命周期应用于场景展示DemoMapReduce的产生背景Google在2004年的时候在MapReduce:SimplifiedDataProcessingonLargeClusters这篇论文中明确提出了MapReduce的功能特性和设计理念,设计MapReduce的出发点就是为了解决问题如何把大问题分解成独立国家的小问题,再行分段解决问题。
例如,MapReduce的经典用于场景之一就是对一篇长文展开词频统计资料,统计资料过程就是再行把文章分成一句一句,然后展开拆分,最后展开词的数量统计资料。MapReduce的架构图MapReduce的架构图这里的Client和TaskTracker我都用于一个来修改了,在实际中是不会有很个Client和TaskTracker的。我们来介绍下有所不同的组件起到ClientClient的含义是指用户用于MapReduce程序通过Client来递交任务到JobTracker上,同时用户也可以用于Client来查阅一些作业的运营状态。
JobTracker这个负责管理的是资源监控和作业调度。JobTracker不会监控着TaskTracker和作业的健康状况,不会把告终的任务移往到其他节点上,同时也监控着任务的继续执行工程进度、资源使用量等情况,不会把这些消息通报任务调度器,而调度器会在资源空闲的时候自由选择适合的任务来用于这些资源。任务调度器是一个可插拔的模块,用户可以根据自己的必须来设计比较不应的调度器。
TaskTrackerTaskTracker不会周期性地通过Hearbeat来向JobTracker汇报自己的资源用于情况和任务的运营工程进度。不会拒绝接受来自于JobTaskcker的指令来继续执行操作者(例如启动新任务、杀掉任务之类的)。在TaskTracker中通过的是slot来展开等量区分一个节点上资源量,要用Task取得slot的时候才有机会去运营。
调度器的起到就是展开将空闲的slot分配给Task用于,可以配备slot的数量来展开限定版Task上的所发度。
本文关键词:天博tb体育,天博Tb综合体育网页版,天博·体育全站app官网,天博·综合体育登录入口,天博.体育登录入口
本文来源:天博tb体育-www.yingu.cc