分类:大数据与分布式

Spark与Pandas中DataFrame对比(综述)

Spark与Pandas中DataFrame对比(综述)
搭建Spark运行环境: 可以自搭建Hadoop的standalone版,主要配置在于JDK和Hadooop的环境变量设置。 在此基础上搭建Spark的standalone版,下载“Hadoop Free”版本,主要配置在于Scala和Spark的环境变量设置。 如果使用到之...

fireling 1年前 (2016-05-24) 2148℃ 3喜欢

Spark与Pandas中DataFrame对比(详细)

Spark与Pandas中DataFrame对比(详细)
Pandas Spark 工作方式 单机single machine tool,没有并行机制parallelism 不支持Hadoop,处理大量数据有瓶颈 分布式并行计算框架,内建并行机制parallelism,所有的数据和操作自动并行分布在各个集群结点上。以处理in...

fireling 1年前 (2016-05-24) 4086℃ 7喜欢

“Pandas”化你的Spark DataFrames

“Pandas”化你的Spark DataFrames
此文为宁哥翻译文章,原文章请看这里。 关于DataFrame 上一篇博客我讲到了《基于Python的数据科学技术栈的综述》。这一篇让我们关注一个非常重要的概念:DataFrame。 DataFrame非常适合处理结构化数据和半结构化数据,它们基本上是一些行的集合,而每一列都有自...

fireling 1年前 (2016-05-24) 2352℃ 3喜欢

Spark环境部署及交互式Shell介绍

Spark环境部署及交互式Shell介绍
Apache Spark是一种新型的快速通用的集群计算系统,可以和Hadoop交互。 Spark的主要抽象是分布式的条目集合(distributed collection of items),称为RDD(Resilient Distributed Dataset,弹性分布式数据...

fireling 1年前 (2016-05-20) 929℃ 0喜欢

MapReduce并行计算流程介绍

MapReduce并行计算流程介绍
Hadoop采用了MapReduce并行计算框架。MapReduce的实现也采用Master/Slave结构。Master叫做JobTracker,而Slave叫做TaskTracker。用户提交的计算叫做Job,每一个Job会被划分成若干个Tasks。JobTracker负责...

fireling 1年前 (2016-02-04) 2289℃ 0评论 2喜欢

Hadoop启动Yarn进行资源调度

Hadoop启动Yarn进行资源调度
Yarn负责Hadoop的分布式资源调度,它运行于MapReduce之上,提供了高可用性及高扩展性。在部署Hadoop运行环境也可以启动Yarn来进行资源调度。 下面介绍下,在部署Hadoop伪分布式环境基础上,MapReduce任务如何进行Yarn配置。 配置文件修改 ...

fireling 1年前 (2016-02-03) 1522℃ 0评论 0喜欢