如何在 Debian 11 上安装 Apache Hadoop

Apache Hadoop 是一个开源的、基于 Java 的软件平台,用于管理大数据应用程序的数据处理和存储. 它旨在从单个服务器扩展到数千台机器,每台机器都提供本地计算和存储。Apache-Hadoop-logo

Debian 11 Bullseye 上安装 Apache Hadoop

步骤 1. 在我们安装任何软件之前,通过apt在终端中运行以下命令来确保您的系统是最新的很重要:

sudo apt update
sudo apt upgrade

步骤 2. 安装 Java。

Apache Hadoop 是一个基于 Java 的应用程序。因此,您需要在系统中安装Java

sudo apt install default-jdk default-jre

验证 Java 安装:

java -version

步骤 3. 创建 Hadoop 用户。

运行以下命令以创建名为 Hadoop 的新用户:

adduser hadoop

接下来,创建用户后切换到 Hadoop 用户:

su - hadoop

现在是生成 ssh 密钥的时候了,因为 Hadoop 需要 ssh 访问权限来管理其节点、远程或本地计算机,因此对于 Hadoop 设置的单个节点,我们进行配置,以便我们可以访问本地主机:

ssh-keygen -t rsa

之后,授予authorized_keys 文件的权限:

cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys
chmod 0600 ~/.ssh/authorized_keys

然后,使用以下命令验证无密码 SSH 连接:

ssh your-server-IP-address

步骤 4. 在 Debian 11 上安装 Apache Hadoop。

首先,切换到 Hadoop 用户并使用以下wget命令从官方页面下载最新版本的 Hadoop :

su - hadoop
wget https://www.apache.org/dyn/closer.cgi/hadoop/common/hadoop-3.3.1/hadoop-3.3.1-src.tar.gz

接下来,使用以下命令提取下载的文件:

tar -xvzf hadoop-3.3.1.tar.gz

解压后,将当前目录更改为 Hadoop 文件夹:

su root
cd /home/hadoop
mv hadoop-3.3.1 /usr/local/hadoop

接下来,使用以下命令创建一个目录来存储日志:

mkdir /usr/local/hadoop/logs

将 Hadoop 目录的所有权更改为 Hadoop:

chown -R hadoop:hadoop /usr/local/hadoop
su hadoop

之后,我们配置Hadoop环境变量:

nano ~/.bashrc

添加以下配置:

export HADOOP_HOME=/usr/local/hadoop
export HADOOP_INSTALL=$HADOOP_HOME
export HADOOP_MAPRED_HOME=$HADOOP_HOME
export HADOOP_COMMON_HOME=$HADOOP_HOME
export HADOOP_HDFS_HOME=$HADOOP_HOME
export YARN_HOME=$HADOOP_HOME
export HADOOP_COMMON_LIB_NATIVE_DIR=$HADOOP_HOME/lib/native
export PATH=$PATH:$HADOOP_HOME/sbin:$HADOOP_HOME/bin
export HADOOP_OPTS="-Djava.library.path=$HADOOP_HOME/lib/native"

保存并关闭文件。然后,激活环境变量:

source ~/.bashrc

步骤 5. 配置 Apache Hadoop。

  • 配置Java环境变量:
sudo nano $HADOOP_HOME/etc/hadoop/hadoop-env.sh

添加以下配置:

export JAVA_HOME=/usr/lib/jvm/java-11-openjdk-amd64 
export HADOOP_CLASSPATH+=" $HADOOP_HOME/lib/*.jar"

接下来,我们需要下载Javax激活文件:

cd /usr/local/hadoop/lib
sudo wget https://jcenter.bintray.com/javax/activation/javax.activation-api/1.2.0/javax.activation-api-1.2.0.jar

验证 Apache Hadoop 版本:

hadoop version

输出:

Hadoop 3.3.1
  • 配置 core-site.xml 文件:
nano $HADOOP_HOME/etc/hadoop/core-site.xml

添加以下文件:

<configuration>
 <property>
            <name>fs.default.name</name>
        <value>hdfs://0.0.0.0:9000</value>
        <description>The default file system URI</description>
 </property>
</configuration>
  • 配置 hdfs-site.xml 文件:

在配置之前创建一个用于存储节点元数据的目录:

mkdir -p /home/hadoop/hdfs/{namenode,datanode}
chown -R hadoop:hadoop /home/hadoop/hdfs

接下来,编辑文件并定义目录的位置:hdfs-site.xml

nano $HADOOP_HOME/etc/hadoop/hdfs-site.xml

添加以下行:

<configuration>
     <property>
            <name>dfs.replication</name>
        <value>1</value>
     </property>

     <property>
        <name>dfs.name.dir</name>
        <value>file:///home/hadoop/hdfs/namenode</value>
     </property>

     <property>
        <name>dfs.data.dir</name>
        <value>file:///home/hadoop/hdfs/datanode</value>
     </property>
</configuration>
  • 配置 mapred-site.xml 文件:

现在我们编辑文件:mapred-site.xml

nano $HADOOP_HOME/etc/hadoop/mapred-site.xml

添加以下配置:

<configuration>
 <property>
        <name>mapreduce.framework.name</name>
        <value>yarn</value>
 </property>
</configuration>
  • 配置 yarn-site.xml 文件:

您需要编辑文件并定义与 YARN 相关的设置:yarn-site.xml

nano $HADOOP_HOME/etc/hadoop/yarn-site.xml

添加以下配置:

<configuration>
 <property>
        <name>yarn.nodemanager.aux-services</name>
        <value>mapreduce_shuffle</value>
 </property>
</configuration>
  • 格式化 HDFS NameNode。

运行以下命令来格式化 Hadoop Namenode:

hdfs namenode -format
  • 启动 Hadoop 集群。

现在我们使用以下命令启动 NameNode 和 DataNode:

start-dfs.sh

接下来,启动 YARN 资源和节点管理器:

start-yarn.sh

您现在可以使用以下命令验证它们:

jps

输出:

hadoop@idroot.us:~$ jps
58000 NameNode
54697 DataNode
55365 ResourceManager
55083 SecondaryNameNode
58556 Jps
55365 NodeManager

步骤 6. 访问 Hadoop Web 界面。

成功安装后,打开 Web 浏览器并使用 URL 访问 Apache Hadoop 。您将被重定向到 Hadoop Web 界面:http://your-server-ip-address:9870

Apache-hadoop-Web-Interface

导航您的本地主机 URL 或 IP 以访问单个 DataNode: http://your-server-ip-address:9864

Apache-Hadoop-DataNodes

要访问 YARN 资源管理器,请使用 URL 。您应该看到以下屏幕:http://your-server-ip-adddress:8088

Apache-Hadoop-YARN-Resource-Manager

感谢您使用本教程在 Debian 11 Bullseye 上安装最新版本的 Apache Hadoop。如需其他帮助或有用信息,我们建议您查看Apache 官方网站

原创文章,作者:校长,如若转载,请注明出处:https://www.yundongfang.com/Yun224083.html

(0)
打赏 微信扫一扫不于多少! 微信扫一扫不于多少! 支付宝扫一扫礼轻情意重 支付宝扫一扫礼轻情意重
上一篇 2021年12月14日 下午1:58
下一篇 2021年12月15日

相关推荐

  • 如何在 Debian 12 上安装 Apache Hadoop

    大数据是现代数据驱动型业务的支柱,Hadoop已成为处理和分析海量数据集的首选解决方案。如果你想在 Debian 12 系统上利用 Hadoop 的强大功能,那么你来对地方了。 在…

    Linux命令 2023年9月17日
  • 如何在 Debian 11 上安装 Kdenlive

    Kdenlive 是一款免费的开源视频编辑软件,提供一系列强大的功能来创建具有专业外观的视频。它被视频编辑者、YouTube 用户和内容创作者广泛使用,以轻松编辑他们的视频。 在 …

    2023年3月30日
  • 如何在 Debian 11 上安装 Kontact

    Kontact是一个功能强大且多功能的个人信息管理器,为用户提供了一系列用于管理其个人数据的工具。其无缝集成、自定义选项、安全功能以及备份和还原工具使其成为在 Linux 上管理个…

    2023年3月29日
  • 如何在 Debian 11 上安装 VMware 工作站

    VMware Workstation是一款虚拟化软件,允许用户在单个物理机上创建和运行多个虚拟机。它被开发人员和 IT 专业人员广泛用于在不同操作系统上测试软件,以及创建安全的测试…

    Linux命令 2023年3月25日
  • 如何在 Debian 11 上安装 Ntopng

    Ntopng是一个开源的网络流量监控工具,提供实时网络分析和统计。它旨在监视和分析网络流量、识别网络问题并生成网络使用情况报告。Ntopng是想要监控其网络流量和解决网络问题的网络…

    2023年3月21日
  • 如何在 Debian 11 上安装 BleachBit

    BleachBit是一个功能强大且免费的开源系统清理器,可以帮助您清理Debian系统并释放磁盘空间。BleachBit可用于清理各种系统文件,包括浏览器缓存,临时文件,日志文件和…

    2023年3月17日
  • 如何在 Debian 11 上安装 Gitkraken

    GitKraken是一个流行的Git客户端,它提供了一个图形用户界面(GUI)来管理和与Git存储库交互。GitKraken 旨在通过提供简化的界面来简化 Git 工作流程,允许用…

    2023年3月14日
  • 如何在 Debian 11 上启用 BBR

    在 Debian 11 上启用 BBR 拥塞控制算法可以显着提高网络性能并提供更好的用户体验。BBR算法根据报文的可用网络带宽和往返时间(RTT)动态调整报文的发送速率,从而最大限…

    Linux命令 2023年3月11日
  • 如何在 Debian 11 上更改主机名

    在Linux中,主机名是分配给计算机的名称,通常在网络环境中。主机名用于标识网络上的计算机,并可用于将域名解析为 IP 地址。 在 Debian 11 上更改主机名 第 1 步。在…

    Linux命令 2023年3月11日
  • 如何在 Debian 11 上安装 Pale Moon 浏览器

    Pale Moon是一款免费的开源网络浏览器,以其速度和效率而闻名。它是Firefox浏览器的一个分支,针对现代处理器进行了优化,使其比其父级更快,更高效。Pale Moon的主要…

    2023年3月11日
  • 如何在 Debian 11 上安装 Remmina

    Remmina 是一个免费的、开源的、功能丰富的 Linux 远程桌面客户端。它允许用户通过网络连接远程连接到另一台计算机并访问其图形用户界面(GUI),就像他们实际出现在远程计算…

    2023年3月11日
  • 如何在 Debian 11 上安装 Microsoft 字体

    Microsoft Fonts,也称为Windows字体或TrueType Fonts,是在Windows操作系统上使用的字体系列的集合。这些字体旨在与Windows操作系统无缝协…

    2023年3月5日
  • 如何在 Debian 11 上安装 UrBackup

    UrBackup是一款免费的开源网络备份和灾难恢复软件。它旨在备份和还原文件、文件夹和整个系统。urBackup 还提供 Web 管理界面,使用户更易于设置和配置。urBackup…

    2023年3月5日
  • 如何在 Debian 11 上安装 WinSCP

    WinSCP是一个免费的Windows开源文件传输程序,支持安全文件传输协议(SFTP)和SCP协议。它是 Linux 操作系统 Debian 用户的热门选择,因为它允许他们在本地…

    2023年3月4日 Linux命令
  • 如何在 Debian 11 上安装 Nginx 主线版本

    Nginx是一个著名的Web服务器,具有开源访问权限,由于其广泛的支持而被顶级公司使用。该软件以其对内存资源的影响小、可扩展性高以及模块化的事件驱动架构而闻名,可提供安全、可预测的…

    2023年3月4日
  • 如何在 Ubuntu 22.04 LTS 上安装 Apache Hadoop

    Apache Hadoop是一个开源的,基于Java的软件平台,可用于管理和处理需要快速和可扩展数据处理的应用程序的大型数据集。它基于Java,并使用HDFS(Hadoop分布式文…

    2022年11月11日 Linux命令
  • 如何在 Debian 11 上安装向后移植

    Backports 已经从测试(大部分)和不稳定(仅在少数情况下,例如安全更新)重新编译了软件包,因此它们可以在没有新库的情况下运行(只要有可能)在稳定的 Debian 发行版上。…

    2022年11月8日
  • 如何在 Debian 11 上安装 vTiger CRM

    Vtiger CRM 是一个流行的客户关系管理 Web 应用程序,它可以帮助企业增加销售额、提供客户服务和增加利润。vTiger CRM 提供两种不同的解决方案,您可以为所有管理和…

    Linux命令 2022年10月6日
  • 如何在 Debian 11 上安装 Neos CMS

    Neos 是一个免费的开源内容管理系统,内置自定义内容建模,提供了一种有效的方法编辑和管理内容、自动重定向和 SEO 元数据等 SEO 优化,以及强大的角色和用户管理。 在 Deb…

    Linux命令 2022年9月30日
  • 如何在 Debian 11 上安装 FreeOffice

    FreeOffice 是一个免费的开源办公套件,带有文字处理器、电子表格应用程序和演示程序。SoftMaker FreeOffice 2021 for Linux 中的应用程序有 …

    Linux命令 2022年9月27日
  • 如何在 Debian 11 上安装 SMPlayer

    SMPlayer 是一款适用于 Windows 和 Linux 的免费媒体播放器,内置编解码器,几乎可以播放所有视频和音频格式. 它在后端使用 MPlayer 并添加了一些有趣的功…

    Linux命令 2022年9月20日
  • 如何在 Debian 11 上安装 VeraCrypt

    VeraCrypt 是一个免费的开源磁盘加密软件。它可以加密整个分区或存储设备,还可以创建加密虚拟硬盘。对于任何想要保持数据安全的人来说,它都是一个完美的解决方案。VeraCryp…

    Linux命令 2022年9月19日
  • 如何在 Debian 11 上安装 Erlang

    Erlang 是一种功能性的并发编程语言,专为具有高可用性要求的系统而设计。Erlang 最初是为了在几个大型电信系统中使用而开发的。但它现在已经慢慢涉足电子商务、计算机电话和银行…

    Linux命令 2022年9月18日
  • 如何在 Debian 11 上安装 qBittorrent

    qBittorrent 是一个跨平台的免费开源 BitTorrent 客户端。qBittorrent 项目旨在提供替代µTorrent的开源软件。qBittorrent 适用于 L…

    Linux命令 2022年6月19日
  • 如何在 Debian 11 上安装 LibreWolf 浏览器

    LibreWolf 网络浏览器旨在增强对跟踪和指纹技术的保护,同时还包括一些安全改进。LibreWolf 适用于所有基于桌面的操作系统,例如 Windows、Mac 和 Linux…

    Linux命令 2022年6月18日