Data Engineer II & Big Data Hybrid-Cloud

Data Engineer II & Big Data Hybrid-Cloud

En el programa de Data Engineer II, los participantes adquieren las habilidades cognitivas necesarias para comprender, diseñar y desarrollar procesos ETL y/o ELT. Además, aprenden a identificar los principales frameworks ETL/ELT y a utilizar Pentaho Data Integration (PDI), una herramienta de analítica proporcionada por la empresa japonesa HITACHI. Con estas habilidades, podrán desarrollar casos de uso y pruebas de concepto para el procesamiento de datos en tiempo real y/o casi en tiempo real, utilizando clusters con Apache Kafka y Apache Flink.

​Descargar Temario​

299,00
299.0 USD 299,00
299,00
Responsable Carlos Fierro
Última actualización 19/01/2024
Tiempo de finalización 1 día 18 horas 40 minutos
Miembros 0
Data Engineer Avanzado
  • Presentación del Programa Completo Data Engineer I y II
    2Lecciones ·
    • Presentación Tématica del Programa de Data Engineer
    • ¿Que es Big Data en 5 minutos?
  • MÓDULO 1: ETL / ETL Frameworks
    11Lecciones · 5 h
    • Sesión 1 - Completa en vivo
    • ¿Diferencias entre ELT y ELT?
    • Tipos de Framework ETL/ELT
    • ¿Qué es la Suite de Pentaho Analytics?
    • ¿Qué es Pentaho Data Integration?
    • Diseñando nuestra primera transformación
    • Diseñando nuestro primer Job.
    • Soporte y conexiones a diversas fuentes de datos
    • Trabajando con control de versiones Git
    • Demostración de como utilizar el repositorio nativo basado en metadatos compartidos de la Suite de Pentaho
    • Conociendo los steps o componentes de tipo transformación y job orientados al Big Data y Big Data Streaming
  • Orquestación Hybrid-Cloud
    6Lecciones · 3 h
    • Ingestando y transformando datos a un clúster on-premise a de Big Data de Cloudera (CDH)
    • Ingestando y transformando datos a un clúster on-premise de Big Data de Hortonworks (HDP)
    • Ingestando y transformando datos a un Datalake On-Cloud de Big Data en AWS
    • Ingestando y transformando datos a un Datalake On-Cloud de Big Data en GCP
    • Entendiendo el Landing Zone, Raw Zone,Refine Zone, Trusted Zone y Analytics Zone
    • Perfilando la construcción de un DataWarehouse on-cloud en AWS
  • MÓDULO 2: Stream Processing con Kafka
    7Lecciones · 3 h 30 min
    • ¿Revisando la tecnología de Apache Kafka?
    • Desplegando Clúster con 3 nodos de Kafka y 3 nodos de Zookeeper
    • Definiendo y creando tópicos
    • Monitoreando tramas de flujos de Streaming con herramientas de consumo de Streaming para Kafka
    • Caso de Uso: Ingestando y transformando data en Streaming de un Banco
    • PDI en el consumo de streaming desde un tópico de Kafka
    • Produciendo datos desde PDI en un Tópico
  • STREAMING PROCESSING CON FLINK
    5Lecciones · 2 h 30 min
    • Caso de uso real: Procesamiento por Streaming con Apache Flink y publicación en formato RAW en tópico de Apache Kafka
    • Procesamiento por Streaming con Flink, refinería de datos y transmisión a tópicos en Apache Kafka
    • Consumiendo y transformando datos por Streaming con Pentaho Data Integration
    • Apache Kafka, Apache Flink On-cloud, Caso de uso en AWS
    • Llevando nuestro Pipeline a la nube en AWS
  • MÓDULO 3: Stream Processing con Elastic
    7Lecciones · 3 h 30 min
    • ¿Revisando el Stack tecnológico de Elastic?
    • Desplegando Clúster con 3 nodos de Elastick Search, 1 Logstach, Beats y Kiabana
    • Integrando Logstach + kafka + Elastic
    • Creando índices para la gestión de datos geo- referenciados
    • Caso de Uso: Ingestando y transformando data en Streaming
    • PDI para la orquestación entre Apache Kafka y Elastic Stack
    • Optimizando data pipeline
  • MÓDULO 4: Monitoreo de Data Pipelines
    10Lecciones · 5 h
    • Arquitectura de Supervisión
    • Despliegue de Prometheus con Docker y Kubernetes en nuestro entorno on-premise
    • Consultas con PromQL
    • Despliegue de Grafana con Docker y Kubernetes en nuestro entorno on-premise
    • Creación y gestión de alertas
    • Monitoreando nuestro Data Pipeline
    • Creación de gráficos con Grafana
    • Monitoreo de Data Pipelines On-Cloud con AWS
    • Monitoreo de Data Pipelines On-Cloud con Azure
    • Monitoreo de Data Pipelines On-Cloud con GCP
  • MÓDULO 5: Procesamiento sobre Spark
    10Lecciones · 4 h 40 min
    • Python con Spark para PySpark
    • Programación Funcional
    • Dataframes para Datos Estructurados y Semi-Estructurados
    • Transformaciones y Operaciones en Dataframes
    • Creación de Funciones Personalizadas con UDFs
    • UDFs con Multi-Parámetros
    • Almacenamiento en Formatos Binarios de rápido Procesamiento: Parquet y Delta
    • Procesamientos en Pasos Encadenados
    • Procesamientos en Pasos Separados
    • Liberación de Memoria con el Garbage Collector
  • MÓDULO 6: Jenkins | GitHub Actions
    10Lecciones · 5 h
    • Revisión de la gestión de repositorios y control de versión con Git
    • Integración continua (CI) con Jenkins pipelines
    • Entrega continua y despliegue continuo (CD) con Jenkins y Kubernetes
    • ¿Qué es Github Action Workflow?
    • Acciones de Github
    • Runners en Github
    • Trabajando con Github Actions y AWS
    • Trabajando con Github Actions y Azure
    • Trabajando con Github Actions y GCP
    • Github y Pentaho Data Integration
  • Jenkins | GitLab Pipelines
    7Lecciones · 3 h 30 min
    • Fundamentos de Integración Continua con GitLab (CI)
    • Flujos básico de tipo CI/CD con Gitlab CI
    • Tópicos específicos y Tópicos de usuario
    • YAML básicos
    • Trabajando con Gitlab pipelines y AWS
    • Trabajando con Gitlab pipelines y Azure
    • Trabajando con Gitlab pipelines y GCP
  • MÓDULO 7: Identificación y Gestión de Acceso
    10Lecciones · 5 h
    • Mecanismos de identificación y gestión de acceso on-premise
    • Mecanismos de identificación y gestión de acceso on-cloud con AWS
    • Mecanismos de identificación y gestión de acceso on-cloud con Azure
    • Mecanismos de identificación y gestión de acceso on-cloud con GCP
    • Caso de USO I en AWS
    • Caso de USO II en AWS
    • Caso de USO I en Azure
    • Caso de USO II en Azure
    • Caso de USO I en GCP
    • Caso de USO II en CP
  • MÓDULO 8: Proyecto Integrador Hybrid-Cloud
    4Lecciones · 2 h
    • Una capa de Data Scraping en tiempo real
    • Una capa de Pipeline de Ingestión de datos en tiempo real
    • Una capa de Pipeline de Ingestión de datos en Batch
    • Una capa de Monitoreo del Pipeline completo