分类:大数据与分布式

ZooKeeper的安装配置

ZooKeeper的安装配置
ZooKeeper是一个针对大型分布式系统的协作系统,提供的功能包括:配置维护、名字服务、分布式同步、组服务等。ZooKeeper的角色,相当于整个Hadoop动物体系里面的动物管理员。我们在运行HBase时,需要先配备ZooKeeper。这里主要讲一下ZooKeeper的几种...

fireling 1周前 (01-10) 70℃ 0喜欢

Hive对数据的导入导出介绍

Hive对数据的导入导出介绍
本文讲一下Hive对数据的导入导出操作,加深大家对Hive的认识和理解。 首先,创建t_hive.txt文件,作为原始数据,内容如下: 导入数据操作 从操作本地文件系统(LOCAL)导入数据 hive> create table t_hive (a int, b i...

fireling 1个月前 (12-08) 290℃ 2喜欢

Hive介绍及环境搭建

Hive介绍及环境搭建
Hive介绍 Hive是一个构建于Hadoop顶层的数据仓库。它依赖于HDFS和MapReduce,对HDFS数据提供类似于SQL的操作,可以将SQL语句转换为MapReduce任务进行运行。这样,Hive实现了以SQL查询方式来分析存储在HDFS中的数据,使得不熟悉MapRe...

fireling 2个月前 (11-29) 400℃ 2喜欢

Spark的小变化

Spark的小变化
以前看过Hadoop及Spark的相关资料,最近又搭建了Hadoop及Spark集群,“反刍”了一下,发现目前的新版本与以前又有了一些变化。Hadoop目前发布了3版本,而Spark已经更新到了2.2版本。本文主要讲一下Spark的搭建及使用。 使用Spark会用到Hadoop...

fireling 2个月前 (11-21) 346℃ 0喜欢

Spark与Pandas中DataFrame对比(综述)

Spark与Pandas中DataFrame对比(综述)
搭建Spark运行环境: 可以自搭建Hadoop的standalone版,主要配置在于JDK和Hadooop的环境变量设置。 在此基础上搭建Spark的standalone版,下载“Hadoop Free”版本,主要配置在于Scala和Spark的环境变量设置。 如果使用到之...

fireling 2年前 (2016-05-24) 2653℃ 5喜欢

Spark与Pandas中DataFrame对比(详细)

Spark与Pandas中DataFrame对比(详细)
Pandas Spark 工作方式 单机single machine tool,没有并行机制parallelism 不支持Hadoop,处理大量数据有瓶颈 分布式并行计算框架,内建并行机制parallelism,所有的数据和操作自动并行分布在各个集群结点上。以处理in...

fireling 2年前 (2016-05-24) 6037℃ 9喜欢