IFCT165PO

Big data para ingenierías

80 HORAS |

Especialidades formativas del sepe

Conocer las tecnologías disponibles para realizar estrategias de Big Data paraIngenierías, realizar un desarrollo con Spark y Hadoop y analizar datos con Pig Hive e Impala.

Diseñado y producido por:

Contenidos del curso

CURSO IFCT165PO Big data para ingenierías

1. Introducción.

1.1. ¿Qué es Big Data?
1.2. Paradigmas de procesamiento en Big Data.
1.3. Las 8 V de Big Data (Volumen, Volatilidad, Variedad, Valor, Velocidad, Variabilidad, Veracidad, Validez).

2. Batch Processing.

2.1. MapReduce.
2.1.1. Entorno MapReduce.
2.1.2. Función Map y función Reduce.
2.1.3. Flujo de datos
2.1.4. Características de MapReduce.
2.1.5. Uso de MapReduce.
2.1.6. Ventajas e inconvenientes de MapReduce
2.1.7. Ejercicios y ejemplos con MapReduce.
2.2. Hadoop
2.2.1. Entorno Hadoop.
2.2.2. Almacenamiento: HDFS.
2.2.3. Características de HDFS
2.2.3.1. Lectura y escritura de archivos.
2.2.3.2. Consideraciones acerca de memoria de NameNode.
2.2.3.3. Aspectos generales de seguridad en HDFS.
2.2.3.4. Empleo del Namenode Web UI.
2.2.3.5. Empleo del File Shell de Hadoop.
2.2.3.6. Procesamiento: MapReduce.
2.2.3.7. Ventajas e inconvenientes de Hadoop.
2.3. Apache Hadoop YARN.
2.3.1. Funciones de Framework computacionales.
2.3.2. YARN: El gestor de recursos del Cluster.
2.3.3. Conceptos de Apache Spark.
2.3.4. Ejecución de Computational Frameworks en YARN.
2.3.5. Exploración de las aplicaciones de YARN Applications a través de la Web UIs y de Shell.
2.4. Agregación de los logs de YARN.
2.4.1. Configuración de Hadoop y registros de Daemon.
2.4.2. Localizar configuraciones y aplicar cambios de configuración
2.4.3. Gestión de instancias de Role y añadir servicios
2.4.4. Configuración del servicio HDFS
2.4.5. Configuración de los logs de Hadoop Daemon
2.4.6. Configuración del servicio YARN
2.5. Obtención de datos en HDFS
2.5.1. Ingestión de datos desde fuentes de recursos externos con Flume
2.5.2. Ingestión de datos desde bases de datos relacionales con Sqoop
2.5.3. REST Interfaces
2.5.4. Buenas prácticas para la importación de datos
2.6. Planificación de un clúster Hadoop
2.6.1. Consideraciones generales de planificación
2.6.2. Elección correcta de Hardware
2.6.3. Opciones de Virtualización
2.6.4. Consideraciones de red
2.6.5. Configuración de nodos
2.7. Instalación y configuración de Hive, Pig e Impala
2.8. Clientes Hadoop incluidos en Hue
2.8.1. ¿Qué es un cliente de Hadoop?
2.8.2. Instalación y configuración de clientes Hadoop
2.8.3. Instalación y configuración de Hue
2.8.4. Autorizaciones y autenticación Hue
2.9. Configuración avanzada de un clúster
2.9.1. Parámetros avanzados de configuración
2.9.2. Configuración de puertos Hadoop
2.9.3. Configuración de HDFS para la organización en rack
2.9.4. Configuración de HDFS para obtención de alta disponibilidad
2.10. Seguridad Hadoop
2.10.1. ¿Por qué es importante la seguridad en Hadoop?
2.10.2. Conceptos del sistema de seguridad de Hadoop
2.10.3. Qué es Kerberos y cómo funciona
2.10.4. Securización de un clúster Hadoop Clúster con Kerberos.
2.10.5. Otros conceptos de seguridad.
2.11. Gestión de recursos.
2.11.1. Configuración de cgroups con Static Service Pools.
2.11.2. El Fair Scheduler.
2.11.3. Configuración de Dynamic Resource Pools.
2.11.4. Configuraciones de CPU y memoria YARN.
2.11.5. Impala Query Scheduling.
2.12. Mantenimiento de un clúster.
2.12.1. Chequeo del estado de HDFS.
2.12.2. Copia de datos entre clústers.
2.12.3. Añadir y eliminar de nodos en el clúster.
2.12.4. Rebalanceo del Clúster.
2.12.5. Directorio de Snapshots.
2.12.6. Actualización del clúster.
2.13. Solución de problemas y monitorización de un clúster.
2.13.1. Sistema general de monitorización.
2.13.2. Monitorización de clústers Hadoop.
2.13.3. Solución de problemas habituales en el clúster de Hadoop.
2.13.4. Errores habituales en la configuración.

3. Ciencia de datos.

3.1. Data Science.
3.1.1. Que hacen los data Scientists, herramientas y procesos que utilizan.
3.1.2. Aplicación de lo aprendido en módulo 2: Uso de Hue.
3.2. Apache Spark.
3.2.1. Cómo trabaja Apache Spark y que capacidades nos ofrece.
3.2.2. Que formatos de ficheros populares puede usar Spark para almacenar datos.
3.2.3. Que lenguajes de programación puedes utilizar para trabajar con Spark.
3.2.4. Cómo empezar a utilizar PySpark y Sparklyr.
3.2.5. Cómo comparar PySpark y Sparklyr.
3.3. Machine Learning.
3.3.1. ¿Qué es machine learning?
3.3.2. Algunos conceptos y términos importantes.
3.3.3. Diferentes tipos de algoritmos.
3.3.4. Librerías que se utilizan.
3.4. Apache Spark MLlib.
3.4.1. Qué capacidades de machine learning nos proporciona MLlib.
3.4.2. Cómo crear, validar y utilizar modelos de machine learning con MLlib.
3.4.3. Ejecución de trabajos Apache Spark.
3.4.4. Cómo un trabajo de Spark se compone de una secuencia de transformaciones seguida de una
3.4.5. Cómo Spark utiliza la ejecución lenta
3.4.6. Cómo Spark divide los datos entre las particiones
3.4.7. Cómo ejecuta Spark operaciones limitadas y grandes
3.4.8. Cómo Spark ejecuta un trabajo en tareas y fases

4. DESARROLLO PARA SPARK Y HADOOP

4.1. Datasets y Dataframes
4.2. Operaciones en Dataframe
4.3. Trabajar con Dataframes y Schemas
4.4. Crear Dataframes a partir de Data Sources
4.5. Guardar DataFrames en Data Sources
4.6. DataFrame Schemas
4.7. Rapidez y lentitud de ejecución
4.8. Análisis de datos con consultas de DataFrame
4.8.1. Consultar DataFrames con el empleo de expresiones de columna
4.8.2. Agrupación y agregación de consultas
4.8.3. Unión de DataFrames
4.9. RDD
4.9.1. Introducción RDD
4.9.2. RDD Data Sources
4.9.3. Creando y guardando RDDs
4.9.4. Operaciones con RDDs
4.10. Transformación de datos con RDDs
4.10.1. Escritura y paso de funciones de transformación
4.10.2. Ejecuciones de transformación
4.10.3. Conversión entre RDDs y DataFrames
4.11. Agregación de datos con Pair RDDs
4.11.1. Key-Valué Pair RDDs
4.11.2. Mal-Reduce
4.11.3. Otras operaciones Pair RDD
4.12. Consulta y vistas de tablas con Spark SQL
4.12.1. Datasets y DataFrames
4.12.2. Creación de Datasets
4.12.3. Ejecución y guardado de Datasets.
4.12.4. Operaciones de Dataset.
4.13. Creación, configuración y ejecución de aplicaciones Spark.
4.13.1. Creación de una aplicación Spark.
4.13.2. Compilar y ejecutar la aplicación.
4.13.3. Application Deployment Mode.
4.13.4. La interfaz Spark Application Web UI.
4.13.5. Configuración de las propiedades de la aplicación.
4.14. Procesamiento distribuido.
4.14.1. Apache Spark en un Clúster.
4.14.2. Particiones RDD.
4.14.3. Ejemplo: Particionamiento en consultas.
4.14.4. Etapas y Tareas.
4.14.5. Planificación de tareas de ejecución.
4.15. Persistencia de datos distribuidos.
4.15.1. Persistencia en Datasets y DataFrames.
4.15.2. Persistencia en niveles de almacenamiento.
4.15.3. Visualización de RDDs persistentes.
4.16. Patrones comunes al procesar datos con Spark.
4.16.1. Casos comunes de uso de Spark.
4.16.2. Algoritmos de iteración en Apache Spark.
4.16.3. Machine Learning.
4.17. Spark Streaming: Introducción a DStreams.
4.17.1. Vista general de Spark Streaming.
4.17.2. DStreams.
4.17.3. Desarrollo de aplicaciones en Streaming.
4.18. Spark Streaming: procesamiento de múltiples lotes.
4.18.1. Operaciones Multi-Batch.
4.18.2. Time Slicing.
4.18.3. Operaciones de estado.
4.18.4. Operaciones Sliding Window.
4.18.5. Vista previa: Streaming estructurado.
4.19. Apache Spark Streaming: Data Sources.
4.19.1. Vista general de Streaming Data Source.
4.19.2. Apache Flume y Apache Kafka Data Sources.
4.19.3. Ejemplo: uso de un Kafka Direct Data Source.

5. Análisis de datos.

5.1. Introducción a Pig.
5.1.1. ¿Qué es Pig?
5.1.2. Características de Pig.
5.1.3. Casos de empleo de Pig.
5.1.4. Interacción con Pig.
5.2. Análisis de datos básico con Pig.
5.2.1. Sintaxis Pig Latin.
5.2.2. Carga de datos.
5.2.3. Tipos simples de datos.
5.2.4. Definición de campos.
5.2.5. Datos de salida.
5.2.6. Vistas y esquemas.
5.2.7. Filtrado y ordenación de datos.
5.2.8. Funciones habituales.
5.3. Procesado de datos complejos con Pig.
5.3.1. Formatos de almacenamiento.
5.3.2. Tipos de datos complejos y anidados.
5.3.3. Agrupaciones.
5.3.4. Funciones predefinidas para datos complejos.
5.3.5. Iteración de datos agrupados.
5.4. Operaciones con multiconjuntos de datos con Pig.
5.4.1. Técnicas para combinar conjuntos de datos.
5.4.2. Unión de conjuntos de datos con Pig.
5.4.3. Conjunto de operaciones.
5.4.4. División de conjuntos de datos.
5.5. Troubleshooting y optimización de Pig.
5.5.1. Troubleshooting en Pig.
5.5.2. Inicio de sesión.
5.5.3. Empleo de UI web Hadoop.
5.5.4. Muestreo de datos y depuración.
5.5.5. Visión general del rendimiento.
5.5.6. Comprensión del plan de ejecución.
5.5.7. Consejos para mejorar el rendimiento de Jobs en Pig.
5.6. Introducción a Hive e Impala.
5.6.1. ¿Qué es Hive?
5.6.2. ¿Qué es Impala?
5.6.3. ¿Por qué utilizar Hive e Impala?
5.6.4. Schema y almacenamiento de datos.
5.6.5. Comparación entre Hive y bases de datos tradicionales.
5.6.6. Casos de uso.
5.7. Consultas con Hive e Impala.
5.7.1. Tablas y bases de datos.
5.7.2. Sintaxis básica en consultas Hive e Impala.
5.7.3. Tipos de datos.
5.7.4. Empleo de Hue para ejecutar consultas.
5.7.5. Empleo de Beeline (la Shell de Hive).
5.7.6. Empleo de la Shell de Impala.
5.8. Administración de datos.
5.8.1. Almacenamiento de datos.
5.8.2. Creación de bases de datos y tablas.
5.8.3. Carga de datos.
5.8.4. Alteración de bases de datos y tablas.
5.8.5. Simplificación de consultas con vistas.
5.8.6. Almacenamiento de resultados de consultas.
5.9. Almacenamiento y datos de rendimiento.
5.9.1. Partición de tablas.
5.9.2. Carga de datos en tablas particionadas.
5.9.3. ¿Cuándo utilizar el particionamiento?
5.9.4. Elección de formato de almacenamiento.
5.9.5. Gestión de metadatos.
5.9.6. Control de acceso a datos.
5.10. Análisis de datos relacional con Hive e Impala.
5.10.1. Unión de conjuntos de datos.
5.10.2. Funciones predefinidas habituales.
5.10.3. Agregaciones y Windowing.
5.11. Datos complejos con Hive e Impala.
5.11.1. Datos complejos con Hive.
5.11.2. Datos complejos con Impala.
5.12. Análisis de texto con Hive e Impala.
5.12.1. Empleo de expresiones regulares.
5.12.2. Procesamiento de texto con SerDes en Hive.
5.12.3. Análisis de los sentimientos y NGrams.
5.13. Optimización Hive.
5.13.1. Rendimiento de las consultas.
5.13.2. Bucketing.
5.13.3. Indexación de datos.
5.13.4. Hive en Spark.
5.14. Optimización de Impala.
5.14.1. Ejecución de consultas.
5.14.2. Mejorar el rendimiento de Impala.
5.15. Extendiendo Hive e Impala.
5.15.1. Customizar SerDes y formatos de fichero en Hive.
5.15.2. Transformación de datos con Scripts personalizados en Hive.
5.15.3. Funciones definidas por el usuario.
5.15.4. Consultas parametrizadas.
5.15.5. Comparación entre MapReduce, Pig, Hive, Impala, y bases de datos relacionales. ¿Cuál elegir?

Cursos Smartmind

¿Cómo son los cursos Smartmind?

Cursos con diseño profesional y contenido audiovisual interactivo en formato de licencia y cumplen 100% con las especificaciones del SEPE. Te presentamos los catálogos de cursos elearning en SCORM más completos y avanzados del mercado. Mejoramos hasta el 30% las finalizaciones de tus cursos, se incrementan hasta un 70% los alumnos que repiten y empresas como Endesa, Correos o Telefónica forman parte de nuestra cartera de clientes. ¿No crees que por algo será?

Más cursos de especialidades formativas

Cursos del Plan de Referencia que cumplen con los requisitos del SEPE y cuentan con el sello de diseño y calidad de Smartmind. Colaboramos con las más importantes empresas de formación en la selección de los mejores y más actuales para conseguir los mejores resultados.

ADGD243PO

Selección de personal. Modelo de gestión por competencias

ADGG020PO

Excel avanzado

ADGD359PO

Lean manufacturing

ADGD88

Resolución de problemas a través de la metodología design thinking

ADGD244PO

Selección en la red

ADGD120PO

Gestión de equipos eficaces: influir y motivar

¿Cómo funciona el

Catálogo?

Todo lo que debes saber sobre los contenidos Smartmind

Edtech

¿Cómo funciona el catálogo elearning de Smartmind?

Sandra Buzon

Desarrollos a medida

¿Por qué las licencias de los cursos on line en formato SCORM de Smartmind son la mejor opción para el éxito de tus programas formativos?

Pablo Lobato