标签:MapReduce

大数据与分布式

Hadoop启动Yarn进行资源调度

Hadoop启动Yarn进行资源调度
Yarn负责Hadoop的分布式资源调度,它运行于MapReduce之上,提供了高可用性及高扩展性。在部署Hadoop运行环境也可以启动Yarn来进行资源调度。 下面介绍下,在部署Hadoop伪分布式环境基础上,MapReduce任务如何进行Yarn配置。 配置文件修改 ...

fireling 1年前 (2016-02-03) 1522℃ 0评论 0喜欢

大数据与分布式

Hadoop伪分布式环境配置

Hadoop伪分布式环境配置
Hadoop是一个开源、高可靠、可扩展的分布式计算框架。它主要包含两个框架:一个是分布式存储框架HDFS,一个分布式计算框架MapReduce,学习Hadoop也主要围绕着这两块问题来。 Hadoop的环境部署,不是太简单。它是基于JVM环境搭建的,如果我们需要多台机器协作,还...

fireling 2年前 (2016-02-02) 1781℃ 0评论 0喜欢

大数据与分布式

Master/Slave分布式计算模式介绍

Master/Slave分布式计算模式介绍
对于计算密集型任务来说,我们可以采用多进程或多线程方式进行操作,也可以采用多台机器进行并行计算,实现效率的大大提升,总得来说,精髓在于对于大数据的“分而治之”。 在分布式系统中,一个比较常用的计算结构就是Master/Slave模式。简单来说,Master/Slave与进程与线...

fireling 2年前 (2016-01-14) 2375℃ 0评论 2喜欢

大数据与分布式

如何用形象的比喻描述大数据的技术生态?Hadoop、Hive、Spark 之间是什么关系?(转)

如何用形象的比喻描述大数据的技术生态?Hadoop、Hive、Spark 之间是什么关系?(转)
大数据本身是个很宽泛的概念,Hadoop生态圈(或者泛生态圈)基本上都是为了处理超过单机尺度的数据处理而诞生的。你可以把它比作一个厨房所以需要的各种工具。锅碗瓢盆,各有各的用处,互相之间又有重合。你可以用汤锅直接当碗吃饭喝汤,你可以用小刀或者刨子去皮。但是每个工具有自己的特性,虽...

fireling 2年前 (2016-01-14) 849℃ 0评论 3喜欢