Data Engineer I & Big Data Hybrid-Cloud

En este programa, el participante adquiere las habilidades que le permiten comprender y desplegar el ecosistema de Hadoop on-premise, es decir en su propia infraestructura, utilizando tecnologías de virtualización como docker y kubernete, e identifica plenamente como dicho ecosistema está desplegado en los principales. proveedores cloud: AWS, Azure y GCP, utilizando para ello, los principales servicios auto-gestionados, estando así en la capacidad de satisfacer la demanda creciente del mercado, en relación a contar con profesionales con conocimientos en entornos Híbridos de Big Data (on- presmise & on-cloud), así mismo el participante aprende el lenguaje de programación Python requerido en el contexto de proyectos de Big Data para transformar los datos de formatos crudos (RAW) a formatos estructurados.

Descarga el temario

$ 299,00

Responsable	Carlos Fierro
Última actualización	18/01/2024
Tiempo de finalización	2 días 15 horas 18 minutos
Miembros	0

Curso
Reseñas

Data Engineer Básico

Presentación del Programa Completo Data Engineer I y II

2Lecciones ·
- Presentación Tématica del Programa de Data Engineer
  
  Vista previa gratis
- ¿Qué es Big Data en 5 minutos?
  
  Vista previa gratis
ALCANCES GENERALES Y TECNOLOGÍAS AUXILIARES

2Lecciones · 5 min
- Introducción, alcances y contextualización
- Infografía Roadmap Data Engineer
MÓDULO 1: Arquitectura de Big Data

22Lecciones · 9 h 45 min
- Sesion-1- Grabación completa en vivo
- ¿Qué es Big Data? Referencia
- Entendiendo el entorno Pseudo-Distribuido HDP-HDF
- Hive - Procesamiento Distribuido (DAS & Superset)
- Arquitecturas de Big Data
- Arquitecturas de Cloud Computing
- Tecnologías de Big Data - Enfoque General
- Tecnologías de Big Data - Enfoque Funcional
- Infraestructura de Almacenamiento y Procesamiento
- Hadoop como Ecosistema de Almacenamiento
- Trabajando de manera distribuida sobre un Clúster
- Hadoop como Estándar en el Mundo del Big Data
- HDFS como Motor de Almacenamiento
- YARN como Gestor de Recursos
- MapReduce Vs Spark como Motor de Procesamient
- Preparación de Entornos
- Capacidad Física de un Clúster
- Distribuciones Hadoop
- Enfoque Arquitectónico y Tecnologías Auxiliares para Desplegar Clúster On-Premise
- ¿Cómo Obtener Distribuciones de Hadoop para Desplegar Nuestro Propio Clúster On-Premise? Add Quiz Previsualizar
- ¿Qué es un clúster Pseudo-Distribuido?
  
  Vista previa gratis
- Configurar entorno Spark en Cloud I
TECNOLOGÍAS DE VIRTUALIZACIÓN & ORQUESTACIÓN

24Lecciones · 1 h 3 min
- Preparando Entorno Virtualizado con Virtualbox
- Descarga HDP-HDF
- Desplegando HDP Standalone
- Desplegando HDF Standalone (Port Forwarding)
- Cambiando contraseña root en HDP
- Accediendo desde Host remoto al Gateway del HDP
- Uso de Tuneles con SSH
- Tips para tu Clúster Pseudo-Distribuido Virtual Box
- Cambiando la clave de Admin en Ambari
- Arquitectura de Ambari
- Desplegando CDH Virtualizado
- ¿Que es Docker?
- Instalacion de Docker Container
- ¿Cómo funciona Docker?
- Containers en Sistemas Operativos
- ¿Cómo se crea un docker container?
- Comandos en Docker Run
- Comandos para Listar Containers
- Stop y Kill Containers
- Laboratorio con Redis y Acceso a Shell
- Acceso a Shell con Docker Run
- Despliegue en Docker del HDP & HDF
- Entendiendo la necesidad del Sanbox-Proxy
- Demo en vivo & Arquitectura de Cloudera
Preparando Ambientes de Trabajo (On-Premise/On-Cloud)

1Lecciones ·
- Desplegando Hadoop on-cloud (I)
Tecnologías de Orquestación

4Lecciones · 2 h
- Accediendo a las Imágenes de Virtualización para Docker de Hortonworks
- Accediendo a las Imágenes de Virtualización para VirtualBox y VMWare de Cloudera
- Desplegando de forma Optimizada los Clúster de HDP y DHF
- Desplegando Cloudera en VirtualBox y VMWare
MÓDULO 2: Procesamiento Distribuido con Hive

16Lecciones · 6 h
- ¿Qué es un Lake House?
  
  Vista previa gratis
- Creando cuenta en DataBricks
- Primeros pasos con Hive en HDP - creación de una Base de datos
- Alternativas de Orquestación en Atención al Data Pipeline
- Enfoque y Objetivos de la Herramienta de Orquestación del Programa de Data Engineer en NextCollege
- Hive como Infraestructura de Almacenamiento
- SQL sobre Spark
- Archivos de HDFS como Tablas Hive
- Particionamiento Estático y Dinámico
- Formatos binarios de archivos: Parquet, Delta
- Configuración y Tuneo de Procesos en Hive
- Sqoop como Motor de Ingesta de Datos
- Importando Datos a Hadoop a bases de Datos Relacionales
- Arquetipo de Ingesta de Datos Batch
- Arquetipo de Modelamiento de Datos
- Arquetipo de Procesamiento de Datos
MÓDULO 3: Big Data en AWS

12Lecciones · 5 h 30 min
- Sesion 03- En vivo
- Servicios de Big Data disponibles en AWS
- Arquitectura de Big Data sobre AWS
- Implementación de un Data Lake para gobierno de Datos sobre AWS
- Ingesta y Almacenamiento de Datos sobre el S3
- Interfaz SQL de AWS con Athena
- Implementación de flujos ETL con GLue
- Infraestructura para Clúster de Big Data con EMR
- Implementación de Flujos ETL con Glue
- Infraestructura para Clúster de Big Data con EMR
- Implementación de soluciones con Spark para EMR
- Despliegues y Workflows con Workflows for Glue y Step Functions
MÓDULO 4: Big Data en AZURE

10Lecciones · 4 h 30 min
- Sesion 04 - En vivo
- Servicios de Big Data disponibles en Azure
- Arquitectura de Big Data sobre Azure
- Implementación de un Data Lake para Gobierno de Datos sobre Azure
- Ingesta y Almacenamiento de Datos sobre el Blob Storage
- Datasets sobre Data Factory
- Implementación de Flujos ETL con Dataflow
- Infraestructura para Clústers de Big Data con HDInsight
- Implementación de Soluciones con Spark para HDInsight
- Despliegues y Workflows con Data Factory
MÓDULO 5: Big Data en GCP

10Lecciones · 4 h 30 min
- Sesion 05 - En vivo
- Servicios de Big Data disponibles en GCP
- Arquitectura de Big Data sobre GCP
- Implementación de un Data Lake para Gobierno de Datos sobre GCP
- Ingesta y Almacenamiento de Datos sobre el Cloud Storage
- Interfaz SQL de GCP con Bigquery
- Implementación de Flujos ETL con Data Fusion
- Infraestructura para Clúster de Big Data con Dataproc
- Implementación de Soluciones con Spark para Dataproc
- Despliegues y Workflows con Cloud Composer
MÓDULO 6: Git & Git Hub Fundamentals

14Lecciones · 6 h 30 min
- Sesion 06 en Vivo
- Introducción a Git y GitHub
- Bifurcando Repositorios de Terceros
- Definiendo Estrategia de Control de Versiones
- Creando Ramas de Tipo Branches
- Creando Ramas de Tipo Tag
- Trabajando de Forma Colaborativa
- Seguridad en Proyectos Colaborativos
- Automatizando Tareas en GitHub
- Herramientas de Monitoreo y Gestión
- Herramientas de Sincronización
- Buenas Prácticas al documentar los Repositorios
- Tecnologías Subyacentes y Complementarias
- Git en AWS, AZURE y GCP
PYTHON DATA WRANGLING

9Lecciones · 4 h 30 min
- Introducción a Python
- Análisis de datos con Python
- Desarrollando algoritmos con Numpy
- Desarrollando algoritmos con Pandas
- Entendiendo la Estadística Inferencial
- Entendiendo la Estadística Descriptiva
- Aprendiendo sobre los secretos ocultos del Data Wrangling
- Web Scraping básico y avanzado para la recopilación de datos
- Python y bases de datos de tipo RDBMS
MÓDULO 7: Tecnologías APIs

11Lecciones · 5 h 30 min
- Entendiendo los APIs y sus tipos
- Ejemplo de una API en un sitio real
- Tipos de pruebas de AP I
- Postman como herramienta de testing
- Anatomía de una API Request
- Manejo de Coleccione s
- Manejando los verbos de tipo HTTP
- Manejo de variables en Postman
- Creación de Postman monitors
- Automatización de pruebas
- Integración de Postman tests en pipelines de Azure
API CON PYTHON

5Lecciones · 2 h 30 min
- ¿Qué es Newman? Y sus beneficios para correr pruebas automáticas
- Mecanismos o tipos de autenticación y autorización
- Construcción de un API con Python
- Probando nuestro API con los principales verbos HTTP
- Probando nuestro API Python en un Data pipeline en Azure
MÓDULO 8: Procesamiento Real-Time sobre Big Data

18Lecciones · 8 h 20 min
- Instalar/Habilitar Google Colaboratory/Colab
- ¿Qué es Apache Kakfa?
- Apache Kafka Straming (Real-Time)
- Arquitectura y Despliegue local
- Arquitectura y Despliegue local
- Preparando Pentaho Data Integration (PDI)
- ¿Streaming, Real Time, Near Real Time o Micro Batch?
- Arquitectura General para Proyectos Real Time
- Captura de Datos desde fuentes Real Time: Tormenta de Datos
- La Elasticidad en la Capa de Captura y Procesamiento
- La Importancia de la Parelización Elástica Evitando el Colapso de CPU
- Kafka como Repositorio Temporal de baja latencia
- Tópico, Producers y Consumers
- Tuning de Tópicos
- Spark Streaming
- Arquetipo de procesamiento Real Time
- Arquetipo enriquecimiento Real Time
- Limitaciones y cómo superarlas
SQL & NoSQL | KSQL

5Lecciones · 2 h 30 min
- Diferencias entre SQL & NoSQL
- Tipos de Bases de Datos NoSQL
- ¿Qué Base de Datos NoSQL me conviene utilizar en mi proyecto?
- Uso práctico de Casandra y Mongo DB on- premise y on-Cloud
- DynamoDB y el uso de RDS
Cheat Sheet

1Lecciones · 5 min
- Cloud Comparison Cheat Sheet