Spark环境部署及交互式Shell介绍

大数据与分布式 fireling 929℃

Apache Spark是一种新型的快速通用的集群计算系统,可以和Hadoop交互。

Spark的主要抽象是分布式的条目集合(distributed collection of items),称为RDD(Resilient Distributed Dataset,弹性分布式数据集),它可被分发到集群各个节点上,进行并行操作。RDDs可以通过Hadoop InputFormats创建(如HDFS),或者从其他RDDs转化而来。

Formats and Sources supported by DataFrames

安装Scala:


cd /usr/lib
sudo mkdir scala
sudo tar -zxvf ./scala-2.12.0-M3.tgz -C /usr/lib/scala

添加环境变量


vim ~/.bashrc
export SCALA_HOME=/usr/lib/scala/scala-2.12.0-M3
export PATH=${SCALA_HOME}/bin:$PATH

保存退出,输入:source ~/.bashrc
输入scala查看scala版本。

安装Spark:

下载Pre-build with user-provided Hadoop版本也就是“Hadoop free”版本,如spark-1.6.1-bin-without-hadoop.tgz,前提是安装好了Hadoop环境,如/opt/hadoop-2.6.3。


sudo tar -zxvf ./spark-1.6.1-bin-without-hadoop.tgz -C /opt

添加环境变量


vim ~/.bashrc
export SPARK_HOME=/opt/spark-1.6.1-bin-without-hadoop
export PATH=${SPARK_HOME}/bin:${SPARK_HOME}/sbin:$PATH

保存退出,输入:source ~/.bashrc

编辑${SPARK_HOME}/conf/spark-env.sh文件,进入${SPARK_HOME}所在目录:


cp ./conf/spark-defaults.conf.template ./conf/spark-defaults.conf,
cp ./conf/spark-env.sh.template ./conf/spark-env.sh,并修改文件./conf/spark-env.sh:
    export JAVA_HOME=/usr/lib/jvm/jdk1.8.0_72
    export SCALA_HOME=/usr/lib/scala/scala-2.12.0-M3
    export HADOOP_HOME=/opt/hadoop-2.6.3
    export SPARK_DIST_CLASSPATH=$(/opt/hadoop-2.6.3/bin/hadoop classpath)

修改文件权限(因为以hadoop用户登录):sudo chown -R hadoop:hadoop /opt/spark-1.6.1-bin-without-hadoop

如果不以hadoop用户登录,直接安装Spark。需要提前在系统中安装好JDK环境,并下载预编译好的版本,如spark-1.6.1-bin-hadoop2.6.tgz,不需要提前安装好Hadoop环境。

交互式Shell:

交互式Shell,目前支持Scala和Python,不支持Java。

对于Scala,可以输入:./bin/spark-shell或者在任何路径直接输入:spark-shell,启动Shell。

对于Python,可以输入:./bin/pyspark或者在任何路径直接输入:pyspark,启动Shell。

启动成功的界面如下所示,接下来我们可以在命令行中根据需要输入代码了。

pyspark

 

转载请注明:宁哥的小站 » Spark环境部署及交互式Shell介绍

喜欢 (0)