Data Engineer II & Big Data Hybrid-Cloud

En el programa de Data Engineer II, los participantes adquieren las habilidades cognitivas necesarias para comprender, diseñar y desarrollar procesos ETL y/o ELT. Además, aprenden a identificar los principales frameworks ETL/ELT y a utilizar Pentaho Data Integration (PDI), una herramienta de analítica proporcionada por la empresa japonesa HITACHI. Con estas habilidades, podrán desarrollar casos de uso y pruebas de concepto para el procesamiento de datos en tiempo real y/o casi en tiempo real, utilizando clusters con Apache Kafka y Apache Flink.

Descargar Temario

$ 299,00

Responsable	Carlos Fierro
Última actualización	19/01/2024
Tiempo de finalización	1 día 18 horas 40 minutos
Miembros	0

Curso
Reseñas

Data Engineer Avanzado

Presentación del Programa Completo Data Engineer I y II

2Lecciones ·
- Presentación Tématica del Programa de Data Engineer
- ¿Que es Big Data en 5 minutos?
MÓDULO 1: ETL / ETL Frameworks

11Lecciones · 5 h
- Sesión 1 - Completa en vivo
- ¿Diferencias entre ELT y ELT?
- Tipos de Framework ETL/ELT
- ¿Qué es la Suite de Pentaho Analytics?
- ¿Qué es Pentaho Data Integration?
- Diseñando nuestra primera transformación
- Diseñando nuestro primer Job.
- Soporte y conexiones a diversas fuentes de datos
- Trabajando con control de versiones Git
- Demostración de como utilizar el repositorio nativo basado en metadatos compartidos de la Suite de Pentaho
- Conociendo los steps o componentes de tipo transformación y job orientados al Big Data y Big Data Streaming
Orquestación Hybrid-Cloud

6Lecciones · 3 h
- Ingestando y transformando datos a un clúster on-premise a de Big Data de Cloudera (CDH)
- Ingestando y transformando datos a un clúster on-premise de Big Data de Hortonworks (HDP)
- Ingestando y transformando datos a un Datalake On-Cloud de Big Data en AWS
- Ingestando y transformando datos a un Datalake On-Cloud de Big Data en GCP
- Entendiendo el Landing Zone, Raw Zone,Refine Zone, Trusted Zone y Analytics Zone
- Perfilando la construcción de un DataWarehouse on-cloud en AWS
MÓDULO 2: Stream Processing con Kafka

7Lecciones · 3 h 30 min
- ¿Revisando la tecnología de Apache Kafka?
- Desplegando Clúster con 3 nodos de Kafka y 3 nodos de Zookeeper
- Definiendo y creando tópicos
- Monitoreando tramas de flujos de Streaming con herramientas de consumo de Streaming para Kafka
- Caso de Uso: Ingestando y transformando data en Streaming de un Banco
- PDI en el consumo de streaming desde un tópico de Kafka
- Produciendo datos desde PDI en un Tópico
STREAMING PROCESSING CON FLINK

5Lecciones · 2 h 30 min
- Caso de uso real: Procesamiento por Streaming con Apache Flink y publicación en formato RAW en tópico de Apache Kafka
- Procesamiento por Streaming con Flink, refinería de datos y transmisión a tópicos en Apache Kafka
- Consumiendo y transformando datos por Streaming con Pentaho Data Integration
- Apache Kafka, Apache Flink On-cloud, Caso de uso en AWS
- Llevando nuestro Pipeline a la nube en AWS
MÓDULO 3: Stream Processing con Elastic

7Lecciones · 3 h 30 min
- ¿Revisando el Stack tecnológico de Elastic?
- Desplegando Clúster con 3 nodos de Elastick Search, 1 Logstach, Beats y Kiabana
- Integrando Logstach + kafka + Elastic
- Creando índices para la gestión de datos geo- referenciados
- Caso de Uso: Ingestando y transformando data en Streaming
- PDI para la orquestación entre Apache Kafka y Elastic Stack
- Optimizando data pipeline
MÓDULO 4: Monitoreo de Data Pipelines

10Lecciones · 5 h
- Arquitectura de Supervisión
- Despliegue de Prometheus con Docker y Kubernetes en nuestro entorno on-premise
- Consultas con PromQL
- Despliegue de Grafana con Docker y Kubernetes en nuestro entorno on-premise
- Creación y gestión de alertas
- Monitoreando nuestro Data Pipeline
- Creación de gráficos con Grafana
- Monitoreo de Data Pipelines On-Cloud con AWS
- Monitoreo de Data Pipelines On-Cloud con Azure
- Monitoreo de Data Pipelines On-Cloud con GCP
MÓDULO 5: Procesamiento sobre Spark

10Lecciones · 4 h 40 min
- Python con Spark para PySpark
- Programación Funcional
- Dataframes para Datos Estructurados y Semi-Estructurados
- Transformaciones y Operaciones en Dataframes
- Creación de Funciones Personalizadas con UDFs
- UDFs con Multi-Parámetros
- Almacenamiento en Formatos Binarios de rápido Procesamiento: Parquet y Delta
- Procesamientos en Pasos Encadenados
- Procesamientos en Pasos Separados
- Liberación de Memoria con el Garbage Collector
MÓDULO 6: Jenkins | GitHub Actions

10Lecciones · 5 h
- Revisión de la gestión de repositorios y control de versión con Git
- Integración continua (CI) con Jenkins pipelines
- Entrega continua y despliegue continuo (CD) con Jenkins y Kubernetes
- ¿Qué es Github Action Workflow?
- Acciones de Github
- Runners en Github
- Trabajando con Github Actions y AWS
- Trabajando con Github Actions y Azure
- Trabajando con Github Actions y GCP
- Github y Pentaho Data Integration
Jenkins | GitLab Pipelines

7Lecciones · 3 h 30 min
- Fundamentos de Integración Continua con GitLab (CI)
- Flujos básico de tipo CI/CD con Gitlab CI
- Tópicos específicos y Tópicos de usuario
- YAML básicos
- Trabajando con Gitlab pipelines y AWS
- Trabajando con Gitlab pipelines y Azure
- Trabajando con Gitlab pipelines y GCP
MÓDULO 7: Identificación y Gestión de Acceso

10Lecciones · 5 h
- Mecanismos de identificación y gestión de acceso on-premise
- Mecanismos de identificación y gestión de acceso on-cloud con AWS
- Mecanismos de identificación y gestión de acceso on-cloud con Azure
- Mecanismos de identificación y gestión de acceso on-cloud con GCP
- Caso de USO I en AWS
- Caso de USO II en AWS
- Caso de USO I en Azure
- Caso de USO II en Azure
- Caso de USO I en GCP
- Caso de USO II en CP
MÓDULO 8: Proyecto Integrador Hybrid-Cloud

4Lecciones · 2 h
- Una capa de Data Scraping en tiempo real
- Una capa de Pipeline de Ingestión de datos en tiempo real
- Una capa de Pipeline de Ingestión de datos en Batch
- Una capa de Monitoreo del Pipeline completo