本文将详细介绍如何使用Python进行HDFS离线安装。
1。访问Hadoop官网或Apache镜像站,下载适合您操作系统版本的Hadoop安装包。
wget http://m.gsm-guard.net/hadoop/common/hadoop-3.2.1/hadoop-3.2.1.tar.gz
2。同样,访问Spark官网或Apache镜像站,下载适合您操作系统版本的Spark安装包。
wget http://m.gsm-guard.net/spark/spark-3.0.0/spark-3.0.0-bin-hadoop3.2.tgz
1。解压Hadoop安装包。
tar -xzvf hadoop-3.2.1.tar.gz
2。创建 Hadoop 配置文件。
cd hadoop-3.2.1
cp etc/hadoop/core-default.xml etc/hadoop/core-site.xml
3。编辑core-site.xml文件,配置Hadoop相关参数。
vi 等/hadoop/core-site.xml
在
fs.defaultFS
hdfs://localhost:9000
4。配置 Hadoop 工作目录。
mkdir -p /usr/local/hadoop/data/hdfs/namenode
mkdir -p /usr/local/hadoop/data/hdfs/datanode
chown -R <用户名>:<组名> /usr/local/hadoop/data
5。启动 Hadoop。
./sbin/m.gsm-guard.net
1。解压Spark安装包。
tar -xzvf Spark-3.0.0-bin-hadoop3.2.tgz
2。将Spark jar包复制到Hadoop目录下。
cp Spark-3.0.0-bin-hadoop3.2/jars/* hadoop-3.2.1/share/hadoop/common/
3。编辑 Spark 配置文件。
cd Spark-3.0.0-bin-hadoop3.2/conf
cp Spark-defaults.conf.template Spark-defaults.conf
4。在spark-defaults.conf文件中添加以下内容:
spark.master 纱线
Spark.eventLog.enabled true
Spark.eventLog.dir hdfs://localhost:9000/spark-logs
Spark.history.fs.log目录 hdfs://localhost:9000/spark-logs
5。启动火花。
cd..
./sbin/m.gsm-guard.net
1。创建 HDFS 目录。
./bin/hadoop fs -mkdir /input
./bin/hadoop fs -put m.gsm-guard.net /input
2。运行 Spark 任务。
./bin/spark-submit --class org.apache.spark.examples.JavaWordCount --master 纱线示例/jars/spark-examples_2.12-3.0.0.jar /输入/输出
3。查看 Spark 任务的输出。
./bin/hadoop fs -cat /output/
通过以上步骤,您已经成功完成Python HDFS的离线安装。