Ingeniería de datos
5
Contenidos
KAFKA Y SPARK STREAMING
Bloque 3. Gobierno E Implantación CICD / MLOps • Conceptos básicos de entornos de desarrollo (desarrollo, integración, producción, repositorio, etc). • Ciclo CICD para desarrollos. • Concepto de MLOps. Diferencias con CICD. • Implantación Ciclo MLOps. • Jenkins: recetas. • Planificación de procesos. • Ejemplo aplicación e2e. GESTION Y GOBIERNO DEL DATO • Data governance y data management. • Metadata. • Calidad, linaje, auditoría.
SPARK ORIENTADO A IA • Frameworks: Notebooks.
• Definición de bus: Kafka / Confluent. • Mensajes, Topics y el Log de mensajes. • Productores, consumidores y brokers. • Conectores. • Streams. • Particiones. • Kafka Streams. • Windowed Stream Processing.
• Muestreo, anonimización y filtrado. • Estructuras tipo customer view. • Normalización y discretización de variables. • Funciones analíticas: MLlib & Others. • Puesta en producción de un modelo analítico tipo batch. APIFICACIÓN • Tipos y securización: Rest, SOAP, apigateway, etc. • API y virtualización. • Desarrollo de API para DataService. • Desarrollo de API para modelo analítico. • Desarrollo de API en bases de datos de búsqueda. CAPTURA DE LOGS Y MONITORIZACION • Arquitectura ELK. • Logstash. • ElasticSearch. • Kibana. • Monitorización, alarmado y acceso al dato ElasticSearch.
PROCESOS PARA EXPLOTACION DE DATOS • Estrella y copo de nieve. • Cubos y OLAP. • Desnormalización. • Cálculo de KPIs complejos.
DESARROLLO PROCESOS ETL • Extracción: replica, batch, microbatch, streaming, webscraping. • Transformación y carga: procresos de carga way. • Transformaciones básicas (SQL y Python). • Monitorización, alarmado, control de flujo, calidad.
Made with FlippingBook - professional solution for displaying marketing and sales documents online