Instalar Hadoop: configurar un clúster de Hadoop de un solo nodo

De nuestros blogs anteriores sobre Hadoop Tutorial Series , debe tener una idea teórica sobre Hadoop, HDFS y su arquitectura. Pero para obtener la certificación Hadoop , necesita un buen conocimiento práctico. Espero que le haya gustado nuestro blog anterior sobre la arquitectura HDFS , ahora lo llevaré a través del conocimiento práctico sobre Hadoop y HDFS. El primer paso hacia adelante es instalar Hadoop.
Hay dos formas de instalar Hadoop, es decir, nodo único y nodo múltiple .
Clúster de un solo nodo significa que solo un DataNode se ejecuta y configura todos los NameNode, DataNode, ResourceManager y NodeManager en una sola máquina. Se utiliza para estudiar y realizar pruebas. Por ejemplo, consideremos un conjunto de datos de muestra dentro de una industria de la salud. Entonces, para probar si los trabajos de Oozie han programado todos los procesos como recopilar, agregar, almacenar y procesar los datos en una secuencia adecuada, usamos un clúster de un solo nodo. Puede probar fácil y eficientemente el flujo de trabajo secuencial en un entorno más pequeño en comparación con entornos grandes que contienen terabytes de datos distribuidos en cientos de máquinas.
En un clúster de varios nodos , hay más de un DataNode en ejecución y cada DataNode se ejecuta en diferentes máquinas. El clúster de múltiples nodos se utiliza prácticamente en organizaciones para analizar Big Data. Teniendo en cuenta el ejemplo anterior, en tiempo real cuando tratamos con petabytes de datos, es necesario distribuirlos entre cientos de máquinas para su procesamiento. Por lo tanto, aquí usamos un clúster de múltiples nodos.
En este blog, le mostraré cómo instalar Hadoop en un clúster de un solo nodo.

Prerrequisitos

CAJA VIRTUAL : se utiliza para instalar el sistema operativo en ella.
SISTEMA OPERATIVO : puede instalar Hadoop en sistemas operativos basados en Linux. Ubuntu y CentOS se utilizan con mucha frecuencia. En este tutorial, usamos CentOS.
JAVA : Necesita instalar el paquete Java 8 en su sistema.
HADOOP : Necesita el paquete Hadoop 2.7.3.

Instalar Hadoop

Paso 1: Haga clic aquí para descargar el paquete Java 8. Guarde este archivo en su directorio personal.

Paso 2: Extraiga el archivo Tar de Java.

Comando: tar -xvf jdk-8u101-linux-i586.tar.gz

Paso 3: descargue el paquete Hadoop 2.7.3.

Comando : wget https://archive.apache.org/dist/hadoop/core/hadoop-2.7.3/hadoop-2.7.3.tar.gz

Paso 4: Extraiga el archivo tar de Hadoop.

Comando : tar -xvf hadoop-2.7.3.tar.gz

Paso 5: agregue las rutas de Hadoop y Java en el archivo bash (.bashrc).
Abrir . archivo bashrc . Ahora, agregue Hadoop y Java Path como se muestra a continuación.

Comando : vi .bashrc

Luego, guarde el archivo bash y ciérrelo.
Para aplicar todos estos cambios a la Terminal actual, ejecute el comando de origen.

Comando: fuente .bashrc

Para asegurarse de que Java y Hadoop se hayan instalado correctamente en su sistema y se pueda acceder a ellos a través de la Terminal, ejecute los comandos java -version y hadoop version.

Comando: java -version

Comando: versiónhadoop

Paso 6: Edite los archivos de configuración de Hadoop.

Comando: cd hadoop-2.7.3 / etc / hadoop /

Comando: ls

Todos los archivos de configuración de Hadoop se encuentran en el directorio hadoop-2.7.3 / etc / hadoop como puede ver en la instantánea a continuación:

Paso 7: Abra core-site.xml y edite la propiedad que se menciona a continuación dentro de la etiqueta de configuración:
core-site.xml informa al demonio de Hadoop dónde se ejecuta NameNode en el clúster. Contiene ajustes de configuración del núcleo de Hadoop, como ajustes de E / S que son comunes a HDFS y MapReduce.

Comando: vi core-site.xml

<?xml version="1.0" encoding="UTF-8"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
<configuration>
<property>
<name>fs.default.name</name>
<value>hdfs://localhost:9000</value>
</property>
</configuration>

Paso 8: Edite hdfs-site.xml y edite la propiedad que se menciona a continuación dentro de la etiqueta de configuración:
hdfs-site.xml contiene opciones de configuración de demonios HDFS (es decir, NameNode, DataNode, Secondary NameNode). También incluye el factor de replicación y el tamaño de bloque de HDFS.

Comando: vi hdfs-site.xml

<?xml version="1.0" encoding="UTF-8"?>>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>>
<configuration>>
<property>>
<name>dfs.replication>
<value>1>
</property>>
<property>>
<name>dfs.permission>
<value>false>
</property>>
</configuration>>

Paso 9: Edite el archivo mapred-site.xml y edite la propiedad que se menciona a continuación dentro de la etiqueta de configuración:
mapred-site.xml contiene ajustes de configuración de la aplicación MapReduce como el número de JVM que pueden ejecutarse en paralelo, el tamaño del mapeador y el proceso reductor, núcleos de CPU disponibles para un proceso, etc.
En algunos casos, el archivo mapred-site.xml no está disponible. Entonces, tenemos que crear el archivo mapred-site.xml usando la plantilla mapred-site.xml.

Comando: cp mapred-site.xml.template mapred-site.xml

Comando: vimapred-site. xml.

<?xml version="1.0" encoding="UTF-8"?>>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>>
<configuration>>
<property>>
<name>mapreduce.framework.name>
<value>yarn>
</property>>
</configuration>>

Paso 10: Edite yarn-site.xml y edite la propiedad que se menciona a continuación dentro de la etiqueta de configuración:
yarn-site.xml contiene opciones de configuración de ResourceManager y NodeManager, como el tamaño de la gestión de memoria de la aplicación, la operación necesaria en el programa y el algoritmo, etc.

Comando: vi yarn-site.xml

<?xml version="1.0">>
<configuration>>
<property>>
<name>yarn.nodemanager.aux-services>
<value>mapreduce_shuffle>
</property>>
<property>>
<name>yarn.nodemanager.auxservices.mapreduce.shuffle.class>
<value>org.apache.hadoop.mapred.ShuffleHandler>
</property>>
</configuration>>

Paso 11: Edite hadoop-env.sh y agregue la ruta de Java como se menciona a continuación:
hadoop-env.sh contiene las variables de entorno que se utilizan en el script para ejecutar Hadoop como la ruta de inicio de Java, etc.

Comando: vi hadoop-env. sh

Paso 12: Vaya al directorio de inicio de Hadoop y formatee el NameNode.

Comando: cd

Comando: cd hadoop-2.7.3

Comando: bin / hadoop namenode -format

Esto formatea el HDFS a través de NameNode. Este comando solo se ejecuta por primera vez. Formatear el sistema de archivos significa inicializar el directorio especificado por la variable dfs.name.dir.
Nunca formatee, instale y ejecute el sistema de archivos Hadoop. Perderá todos sus datos almacenados en el HDFS.

Paso 13: Una vez formateado el NameNode, vaya al directorio hadoop-2.7.3 / sbin e inicie todos los demonios.

Comando: cd hadoop-2.7.3 / sbin
Puede iniciar todos los demonios con un solo comando o hacerlo individualmente.

Comando: ./ start-all.sh

El comando anterior es una combinación de start-dfs.sh, start-yarn.sh & mr-jobhistory-daemon.sh

O puede ejecutar todos los servicios individualmente como se muestra a continuación:

Iniciar NameNode:
NameNode es la pieza central de un sistema de archivos HDFS. Mantiene el árbol de directorios de todos los archivos almacenados en HDFS y rastrea todos los archivos almacenados en el clúster.

Comando: ./hadoop-daemon.sh start namenode

Iniciar DataNode:
Al inicio, un DataNode se conecta al Namenode y responde a las solicitudes del Namenode para diferentes operaciones.

Comando: ./hadoop-daemon.sh iniciar datanode

Inicie ResourceManager:
ResourceManager es el maestro que arbitra todos los recursos de clúster disponibles y, por lo tanto, ayuda a administrar las aplicaciones distribuidas que se ejecutan en el sistema YARN. Su trabajo es administrar cada NodeManagers y el ApplicationMaster de cada aplicación.

Comando: ./yarn-daemon.sh iniciar resourcemanager

Inicie NodeManager:

El NodeManager en el marco de cada máquina es el agente responsable de administrar los contenedores, monitorear su uso de recursos y reportar lo mismo al ResourceManager.

Comando: ./yarn-daemon.sh iniciar nodemanager

Inicie JobHistoryServer:
JobHistoryServer es responsable de atender todas las solicitudes del cliente relacionadas con el historial de trabajos.

Comando: ./mr-jobhistory-daemon.sh iniciar historyserver

Paso 14: Para verificar que todos los servicios de Hadoop estén en funcionamiento, ejecute el siguiente comando.

Comando: jps

Paso 15: Ahora abra el navegador Mozilla y vaya a localhost : 50070 / dfshealth.html para verificar la interfaz de NameNode.

Enhorabuena, ha instalado correctamente un clúster de Hadoop de un solo nodo de una sola vez. En nuestro próximo blog de la serie de tutoriales de Hadoop , también cubriremos cómo instalar Hadoop en un clúster de varios nodos.
Ahora que ha entendido cómo instalar Hadoop, consulte la formación de Hadoop de pentademy, una empresa de aprendizaje en línea de confianza con una red de más de 250.000 alumnos satisfechos repartidos por todo el mundo. El curso de formación de certificación de Pentademy Big Data Hadoop ayuda a los estudiantes a convertirse en expertos en HDFS, Yarn, MapReduce, Pig, Hive, HBase, Oozie, Flume y Sqoop utilizando casos de uso en tiempo real en el dominio de Retail, Social Media, Aviación, Turismo, Finanzas.
Tienes una pregunta para nosotros? Menciónelo en la sección de comentarios y nos comunicaremos con usted.

25 de mayo de 2021 / Sin categoría

Like this post!

Comentarios

Los comentarios han sido cerrados