Conocer el funcionamiento de Spark relativo a las aplicaciones, así como el de las estructuras de streaming con Kafka y sus usos más comunes.
Creación, configuración y ejecución de aplicaciones Spark
• Creación de una aplicación Spark
• Compilar y ejecutar la aplicación
• Application Deployment Mode
• La interfaz Spark Application Web UI
• Configuración de las propiedades de la aplicación
Procesamiento distribuido Spark
• Apache Spark en un Clúster
• Particiones RDD
• Ejemplo: Particionamiento en consultas
• Etapas y Tareas
• Planificación de tareas de ejecución
• Ejemplo: Programar la ejecución de Catalyst
• Ejemplo: Programar la ejecución de un RDD
Persistencia de datos distribuidos
• Persistencia en Datasets y DataFrames
• Persistencia en niveles de almacenamiento
• Visualización de RDDs persistentes
Patrones comunes al procesar datos con Spark
• Casos comunes de uso de Spark
• Algoritmos de iteración en Apache Spark
• Machine Learning
• Caso práctico
Introducción a las Estructuras Streaming
• Visión general de Apache Spark Streaming
• Creación de Streaming DataFrames
• Transformación de Dataframes
• Ejecución de consultas Streaming
Estructuras Streaming con Apache Kafka
• Vistazo general
• Recepción de mensajes Kafka
• Envío de mensajes Kafka
Agregación y unión de Streaming Dataframes
• o Agregación Streaming
• o Unión de Streaming Dataframes
Conclusión
Procesamiento de mensajes con Apache Kafka
• ¿Qué es Apache Kafka?
• Visión general de Apache Kafka
• Escalado de Apache Kafka
• Arquitectura de un Clúster Apache Kafka
• Herramientas Apache Kafka de la linea de comandos
• Concienciación del uso de aplicaciones con Spark y los usos de Kafka, así como dominio de las herramientas para su aportación a los objetivos de la empresa.
• Conocimiento del papel personal en la buena gestión de los conocimientos de esta temática para integrarlos dentro de los objetivos integrales de la empresa.