最新发布 第5页

宁哥的小站专注数据挖掘、机器学习方向。

大数据与分布式

“Pandas”化你的Spark DataFrames

“Pandas”化你的Spark DataFrames
此文为宁哥翻译文章,原文章请看这里。 关于DataFrame 上一篇博客我讲到了《基于Python的数据科学技术栈的综述》。这一篇让我们关注一个非常重要的概念:DataFrame。 DataFrame非常适合处理结构化数据和半结构化数据,它们基本上是一些行的集合,而每一列都有自...

fireling 8个月前 (05-24) 1220℃ 2喜欢

大数据与分布式

Hadoop启动Yarn进行资源调度

Hadoop启动Yarn进行资源调度
Yarn负责Hadoop的分布式资源调度,它运行于MapReduce之上,提供了高可用性及高扩展性。在部署Hadoop运行环境也可以启动Yarn来进行资源调度。 下面介绍下,在部署Hadoop伪分布式环境基础上,MapReduce任务如何进行Yarn配置。 配置文件修改 ...

fireling 12个月前 (02-03) 1181℃ 0评论 0喜欢

大数据与分布式

Hadoop伪分布式环境配置

Hadoop伪分布式环境配置
Hadoop是一个开源、高可靠、可扩展的分布式计算框架。它主要包含两个框架:一个是分布式存储框架HDFS,一个分布式计算框架MapReduce,学习Hadoop也主要围绕着这两块问题来。 Hadoop的环境部署,不是太简单。它是基于JVM环境搭建的,如果我们需要多台机器协作,还...

fireling 12个月前 (02-02) 1439℃ 0评论 0喜欢