Data Engineer II & Big Data Hybrid-Cloud
En el programa de Data Engineer II, los participantes adquieren las habilidades cognitivas necesarias para comprender, diseñar y desarrollar procesos ETL y/o ELT. Además, aprenden a identificar los principales frameworks ETL/ELT y a utilizar Pentaho Data Integration (PDI), una herramienta de analítica proporcionada por la empresa japonesa HITACHI. Con estas habilidades, podrán desarrollar casos de uso y pruebas de concepto para el procesamiento de datos en tiempo real y/o casi en tiempo real, utilizando clusters con Apache Kafka y Apache Flink.
$ 299,00
299.0
USD
$ 299,00
Responsable | Carlos Fierro |
---|---|
Última actualización | 19/01/2024 |
Tiempo de finalización | 1 día 18 horas 40 minutos |
Miembros | 0 |
Compartir este curso
Compartir enlace
Compartir en redes sociales
Compartir por correo electrónico
Por favor iniciar sesión para compartir esto Data Engineer II & Big Data Hybrid-Cloud por correo.
Data Engineer
Avanzado
-
Presentación del Programa Completo Data Engineer I y II2Lecciones ·
-
Presentación Tématica del Programa de Data Engineer
-
¿Que es Big Data en 5 minutos?
-
-
MÓDULO 1: ETL / ETL Frameworks11Lecciones · 5 h
-
Sesión 1 - Completa en vivo
-
¿Diferencias entre ELT y ELT?
-
Tipos de Framework ETL/ELT
-
¿Qué es la Suite de Pentaho Analytics?
-
¿Qué es Pentaho Data Integration?
-
Diseñando nuestra primera transformación
-
Diseñando nuestro primer Job.
-
Soporte y conexiones a diversas fuentes de datos
-
Trabajando con control de versiones Git
-
Demostración de como utilizar el repositorio nativo basado en metadatos compartidos de la Suite de Pentaho
-
Conociendo los steps o componentes de tipo transformación y job orientados al Big Data y Big Data Streaming
-
-
Orquestación Hybrid-Cloud6Lecciones · 3 h
-
Ingestando y transformando datos a un clúster on-premise a de Big Data de Cloudera (CDH)
-
Ingestando y transformando datos a un clúster on-premise de Big Data de Hortonworks (HDP)
-
Ingestando y transformando datos a un Datalake On-Cloud de Big Data en AWS
-
Ingestando y transformando datos a un Datalake On-Cloud de Big Data en GCP
-
Entendiendo el Landing Zone, Raw Zone,Refine Zone, Trusted Zone y Analytics Zone
-
Perfilando la construcción de un DataWarehouse on-cloud en AWS
-
-
MÓDULO 2: Stream Processing con Kafka7Lecciones · 3 h 30 min
-
¿Revisando la tecnología de Apache Kafka?
-
Desplegando Clúster con 3 nodos de Kafka y 3 nodos de Zookeeper
-
Definiendo y creando tópicos
-
Monitoreando tramas de flujos de Streaming con herramientas de consumo de Streaming para Kafka
-
Caso de Uso: Ingestando y transformando data en Streaming de un Banco
-
PDI en el consumo de streaming desde un tópico de Kafka
-
Produciendo datos desde PDI en un Tópico
-
-
STREAMING PROCESSING CON FLINK5Lecciones · 2 h 30 min
-
Caso de uso real: Procesamiento por Streaming con Apache Flink y publicación en formato RAW en tópico de Apache Kafka
-
Procesamiento por Streaming con Flink, refinería de datos y transmisión a tópicos en Apache Kafka
-
Consumiendo y transformando datos por Streaming con Pentaho Data Integration
-
Apache Kafka, Apache Flink On-cloud, Caso de uso en AWS
-
Llevando nuestro Pipeline a la nube en AWS
-
-
MÓDULO 3: Stream Processing con Elastic7Lecciones · 3 h 30 min
-
¿Revisando el Stack tecnológico de Elastic?
-
Desplegando Clúster con 3 nodos de Elastick Search, 1 Logstach, Beats y Kiabana
-
Integrando Logstach + kafka + Elastic
-
Creando índices para la gestión de datos geo- referenciados
-
Caso de Uso: Ingestando y transformando data en Streaming
-
PDI para la orquestación entre Apache Kafka y Elastic Stack
-
Optimizando data pipeline
-
-
MÓDULO 4: Monitoreo de Data Pipelines10Lecciones · 5 h
-
Arquitectura de Supervisión
-
Despliegue de Prometheus con Docker y Kubernetes en nuestro entorno on-premise
-
Consultas con PromQL
-
Despliegue de Grafana con Docker y Kubernetes en nuestro entorno on-premise
-
Creación y gestión de alertas
-
Monitoreando nuestro Data Pipeline
-
Creación de gráficos con Grafana
-
Monitoreo de Data Pipelines On-Cloud con AWS
-
Monitoreo de Data Pipelines On-Cloud con Azure
-
Monitoreo de Data Pipelines On-Cloud con GCP
-
-
MÓDULO 5: Procesamiento sobre Spark10Lecciones · 4 h 40 min
-
Python con Spark para PySpark
-
Programación Funcional
-
Dataframes para Datos Estructurados y Semi-Estructurados
-
Transformaciones y Operaciones en Dataframes
-
Creación de Funciones Personalizadas con UDFs
-
UDFs con Multi-Parámetros
-
Almacenamiento en Formatos Binarios de rápido Procesamiento: Parquet y Delta
-
Procesamientos en Pasos Encadenados
-
Procesamientos en Pasos Separados
-
Liberación de Memoria con el Garbage Collector
-
-
MÓDULO 6: Jenkins | GitHub Actions10Lecciones · 5 h
-
Revisión de la gestión de repositorios y control de versión con Git
-
Integración continua (CI) con Jenkins pipelines
-
Entrega continua y despliegue continuo (CD) con Jenkins y Kubernetes
-
¿Qué es Github Action Workflow?
-
Acciones de Github
-
Runners en Github
-
Trabajando con Github Actions y AWS
-
Trabajando con Github Actions y Azure
-
Trabajando con Github Actions y GCP
-
Github y Pentaho Data Integration
-
-
Jenkins | GitLab Pipelines7Lecciones · 3 h 30 min
-
Fundamentos de Integración Continua con GitLab (CI)
-
Flujos básico de tipo CI/CD con Gitlab CI
-
Tópicos específicos y Tópicos de usuario
-
YAML básicos
-
Trabajando con Gitlab pipelines y AWS
-
Trabajando con Gitlab pipelines y Azure
-
Trabajando con Gitlab pipelines y GCP
-
-
MÓDULO 7: Identificación y Gestión de Acceso10Lecciones · 5 h
-
Mecanismos de identificación y gestión de acceso on-premise
-
Mecanismos de identificación y gestión de acceso on-cloud con AWS
-
Mecanismos de identificación y gestión de acceso on-cloud con Azure
-
Mecanismos de identificación y gestión de acceso on-cloud con GCP
-
Caso de USO I en AWS
-
Caso de USO II en AWS
-
Caso de USO I en Azure
-
Caso de USO II en Azure
-
Caso de USO I en GCP
-
Caso de USO II en CP
-
-
MÓDULO 8: Proyecto Integrador Hybrid-Cloud4Lecciones · 2 h
-
Una capa de Data Scraping en tiempo real
-
Una capa de Pipeline de Ingestión de datos en tiempo real
-
Una capa de Pipeline de Ingestión de datos en Batch
-
Una capa de Monitoreo del Pipeline completo
-