Python HDFS离线安装

2023-10-01 17:33

本文将详细介绍如何使用Python进行HDFS离线安装。

1。下载Hadoop和Spark安装包

1。访问Hadoop官网或Apache镜像站,下载适合您操作系统版本的Hadoop安装包。

wget http://m.gsm-guard.net/hadoop/common/hadoop-3.2.1/hadoop-3.2.1.tar.gz

2。同样,访问Spark官网或Apache镜像站,下载适合您操作系统版本的Spark安装包。

wget http://m.gsm-guard.net/spark/spark-3.0.0/spark-3.0.0-bin-hadoop3.2.tgz

2。安装和配置 Hadoop

1。解压Hadoop安装包。

tar -xzvf hadoop-3.2.1.tar.gz

2。创建 Hadoop 配置文件。

cd hadoop-3.2.1
cp etc/hadoop/core-default.xml etc/hadoop/core-site.xml

3。编辑core-site.xml文件,配置Hadoop相关参数。

vi 等/hadoop/core-site.xml

标签内添加以下内容:


  fs.defaultFS
  hdfs://localhost:9000

4。配置 Hadoop 工作目录。

mkdir -p /usr/local/hadoop/data/hdfs/namenode
mkdir -p /usr/local/hadoop/data/hdfs/datanode
chown -R <用户名>:<组名> /usr/local/hadoop/data

5。启动 Hadoop。

./sbin/m.gsm-guard.net

3。安装和配置 Spark

1。解压Spark安装包。

tar -xzvf Spark-3.0.0-bin-hadoop3.2.tgz

2。将Spark jar包复制到Hadoop目录下。

cp Spark-3.0.0-bin-hadoop3.2/jars/* hadoop-3.2.1/share/hadoop/common/

3。编辑 Spark 配置文件。

cd Spark-3.0.0-bin-hadoop3.2/conf
cp Spark-defaults.conf.template Spark-defaults.conf

4。在spark-defaults.conf文件中添加以下内容:

spark.master 纱线
Spark.eventLog.enabled true
Spark.eventLog.dir hdfs://localhost:9000/spark-logs
Spark.history.fs.log目录 hdfs://localhost:9000/spark-logs

5。启动火花。

cd..
./sbin/m.gsm-guard.net

4。测试 Hadoop 和 Spark

1。创建 HDFS 目录。

./bin/hadoop fs -mkdir /input
./bin/hadoop fs -put m.gsm-guard.net /input

2。运行 Spark 任务。

./bin/spark-submit --class org.apache.spark.examples.JavaWordCount --master 纱线示例/jars/spark-examples_2.12-3.0.0.jar /输入/输出

3。查看 Spark 任务的输出。

./bin/hadoop fs -cat /output/

通过以上步骤,您已经成功完成Python HDFS的离线安装。