IFCD66

Data Scientist (Analista de datos masivos y científico de datos)

310 HORAS | 

Especialidades formativas del sepe

Extraer el conocimiento de utilidad para un propósito en concreto a partir de grandes volúmenes de datos de diferentes fuentes disponibles en formato digital

Diseñado y producido por:

Contenidos del curso

CURSO IFCD66 Data Scientist (Analista de datos masivos y científico de datos)

Conocimiento/capacidades cognitivas y prácticas

1. Caracterización de la aplicación del lenguaje Python

Lenguaje Python

Ejecución de programas Python

Objetos en Python

Tipos numéricos y dinámicos

Gestión de cadenas de texto: listas, diccionarios, tuplas y ficheros

Sentencias Python: asignaciones, expresiones e imprimir resultados

Tests de variables, reglas de sintaxis

Bucles for y while

2. Interpretación la aplicación de protocolos API

Uso de APIs remotas

Integración de las aplicaciones con APIs remotas

Ejemplos de aplicación de APIs remotas en lenguaje Python

3. Programación de un algoritmo modular en lenguaje Python

Programación de módulos

Fundamentos de programación de clases

Utilización de APIs e integración con aplicaciones Python

4. Distinción de los conceptos Cloud básicos

Principios de computación en la nube (Cloud Computing)

Ingeniería de servicios: software as a service, Platform as a service, Infrastructure as a

5. Uso de BBDD NoSQL y nuevos modelos de datos (estructurados y no estructurados)

Fundamentos del paradigma NoSQL

Distribución de los datos y procesamiento en paralelo

Principales modelos de datos en el mundo NoSQL: clave-valor, orientación a

6. Conocimiento del almacenamiento Big Data y las herramientas de procesamiento masivo

Aplicaciones basadas en la gestión y el análisis de grandes volúmenes de datos

Fundamentos arquitectónicos de los sistemas distribuidos

Principales arquitecturas de referencia

Nuevos modelos de datos

Sistemas de ficheros distribuidos

Document stores

Bases de datos de grafos

7. Evaluación de las metodologías y técnicas aplicadas en la resolución de problemas y justificación de los planteamientos, decisiones y propuestas realizadas

Sistemas de soporte a la toma de decisiones

Análisis de los datos: análisis descriptivo, predictivo y prescriptivo

Casos de uso: gestión y análisis de grandes volúmenes de datos

8. Identificación de los factores clave de un problema complejo en el contexto de un proyecto de analítica.

Contexto de la sociedad /economía de los datos y el paradigma de las aplicaciones orientadas a los datos

Fundamentos de bases de datos relacionales: lenguaje SQL.

Necesidad de un cambio de paradigma: NoSQL. El principio ‘one size does not fit all’.

Principales modelos de datos en el mundo NoSQL: Key-Value, Documento-oriented, Property Graphs y Knowledge Graphs

Fundamentos arquitectónicos: sistemas distribuidos, escalabilidad, paralelismo. Principales arquitecturas de referencia (shared nothing, shared disk, shared memory)

9. Distinción y aplicación de los nuevos modelos de datos

Sistemas de archivos distribuidos: conceptos y principios (distribución, replicación, particionamiento horizontal vs. Vertical, formatos de archivos especializados)

Conocimiento y utilización deHadoop File System (HDFS), Apache Avro, Apache Parquet, Key-value stores: Apache HBase

Document stores: conceptos y principios (mecanismos de réplica, sharding, consultas espaciales)

Inmersión a MongoDB y el Aggregation Framework

Graph databases: property y knowledge graphs. Conceptos y principios Modelización en grafo, consultas regulares. Introducción a Neo4j y Cypher

Knowledge graphs. Conceptos y principios: el paradigma open / linked data, RDF y SPARQL. Introducción a GraphDB

10. Identificación y análisis de problemas complejos en el área de análisis de datos y planteamiento de soluciones

Principales conceptos de los flujos de procesamiento de datos en sistemas de gran volumen

Fases principales de la gestión de grandes volúmenes de datos y retos asociados

Roles del ingeniero de datos en las fases principales de la gestión de datos

Limitaciones principales de los modelos tradicionales de gestión de los datos

Nuevos modelos de datos

11. Planificación y ejecución de un trabajo de análisis de datos con una propuesta metodológica

Definición de un conjunto de datos de partida y una serie de necesidades de negocio que requieran una agregación de los datos, una captura de datos externa, un proceso ETL, análisis de datos y una visualización final de los resultados obtenidos

Implementación de un sistema de archivos distribuido

Uso de Hadoop para almacenar un conjunto de datos de actividad de red social. Almacenamiento de un conjunto de datos en un entorno HDFS

Modelización de grafos: almacenar un conjunto de datos en una base de datos documental u orientada a grafos.

12. Elección de un repositorio adecuado para los datos del problema y definición de una estrategia de almacenamiento.

Ciclo de vida de los datos: diseño de bases de datos, gestor de los flujos de datos, arquitectura de los sistemas de extracción, carga y transformación de los datos y sistemas de almacenamiento y procesamiento distribuido

Gestión de los datos: límites del modelo relacional y distribución de los datos

HABILIDADES DE GESTIÓN, PERSONALES Y SOCIALES

Utilización de técnicas para actualizar las metodologías didácticas.

Utilización de técnicas y recursos para el análisis de capacidades personales.

Fomento de la capacidad organizativa.

Fomento de la creatividad dirigida a la mejora de las metodologías activas de enseñanza.

Conocimiento/capacidades cognitivas y prácticas

1. Evaluación crítica de las metodologías y técnicas a aplicar en la resolución de problemas y justificación de los planteamientos, decisiones y propuestas realizadas

Fundamentos de gestión de los datos para un proyecto con múltiples fuentes de entrada de datos

Técnicas de organización de modelos de datos desde un punto de vista lógico y físico

2. Identificación de los flujos de datos y ETL (Extract Transform Load)

Fundamentos de Data Warehousing y Business Intelligence

Conceptos de OLAP y extracción de información

Proceso ETL: extracción, transformación y carga de los datos

Tipos de flujos y operaciones

Data cleaning

Data quality

Ejemplos de aplicaciones

3. Diseño de un proceso ETL y un modelo de análisis multidimensional.

Modelización multidimensional

DFM: Dimensional Fact Model

Esquema en estrella y derivados

Operadores OLAP

Implementación de cubos y operadores OLAP en entornos relacionales

Herramientas de modelización multidimensional

4. Diseño de una carga de datos a un repositorio NoSQL y análisis de los datos básico utilizando Spark

Diseño, implementación y mantenimiento de soluciones Fecha Lake. Conceptos y principios (schema-on-write vs. schema-on-read). Modelización y gobernanza de datos

Conceptos y principios de procesamiento distribuido de datos (soluciones declarativas vs. no declarativas)

Modelos de procesamiento distribuido de datos: Basados en disco y basados en memoria principal

MapReduce y a Apache Spark

Procesamiento de datos en tiempo real (streaming). Conceptos y principios (modelos, ventanas temporales, consultas temporales). Lenguajes de consultas sobre streams. Introducción a herramientas streaming: Apache Kafka, Apache Spark Streaming

Arquitecturas BigData: Lambda, Kappa y orquestadores. Herramientas de gestión de workflows: Apache Airflow

5. Identificación de los factores clave de un problema complejo en el contexto de un proyecto de analítica.

Proyecto de diseño e implementación ETL con herramientas NoSQL

Proceso de incorporación de datos batch con herramientas Apache.

Análisis de datos y extracción de datos para modelo de negocio a partir del conjunto de datos con Spark

Análisis de datos con Apache Spark

Lectura y exportación de datos

Revisión de la calidad de los datos

Filtros y transformaciones de los datos

Procesamiento de los datos para obtener resúmenes y agrupaciones

Combinaciones, particiones y reformulación de los datos.

Configuración, monitorización y gestión de los errores de las aplicaciones Spark

HABILIDADES DE GESTIÓN, PERSONALES Y SOCIALES

Demostración de una actitud crítica de un pensamiento estratégico, presentando esquemas de tratamiento de los datos y permitiendo la discusión con grupos de interés internos y externos a la empresa para formular actuaciones orientadas al futuro.

Desarrollo de las actividades de diseño y análisis de datos con responsabilidad social, honestidad intelectual e integridad científica.

Concienciación de la necesidad de una actitud responsable y comprometida con los resultados y la limitación de los recursos disponibles en la toma de decisiones en entornos profesionales complejos.

Valoración de la importancia de la adaptación a las restricciones de coste, disponibilidad, tiempo de desarrollo o implantación en la revisión de un diseño inicial de gestión de datos.

Conocimiento/capacidades cognitivas y prácticas

1. Identificación de los fundamentos de análisis de datos y aprendizaje automático (Machine Learning)

Tipología de tareas y algoritmos de aprendizaje (supervisado, no supervisado, semisupervisado)

Métodos principales de aprendizaje

Validación y evaluación de resultados

2. Distinción de los métodos clasificadores.

Modelos predictivos

Métodos no supervisados. Agrupamiento jerárquico. Agrupamiento particional (k-means y derivados). Reducción de la dimensionalidad (PCA y otros)

Métodos supervisados. K-NN. Árboles de decisión. SVM. Redes neuronales

Validación y evaluación de resultados

3. Aplicación de las técnicas de aprendizaje automático y la integración de diversas fuentes de datos

Análisis de sentimientos y polaridad sobre el conjunto de tweets recogidos.

Construcción de un análisis de perfiles mediante el uso de algoritmos de agrupamiento no supervisados (clustering).

Implementación de un análisis de polaridad (sentimiento analysis) sobre el conjunto de mensajes recogidos.

Implementación de dos enfoques alternativos para poder comparar el rendimiento obtenido: Aproximación basada en diccionarios. Aproximación en vectorización (Word2Vec) y uso de un modelo supervisado de aprendizaje automático.

4. Diseño, desarrollo y evaluación de los métodos de aprendizaje automático.

Procesamiento de datos

Fundamentos de aprendizaje automático

Tipología de tareas y algoritmos de aprendizaje

Validación y evaluación de resultados

5. Diseño y desarrollo de dashboards.

Principios de visualización de datos.

Diseño de paneles de control y dashboards para definir alarmas y transmitir resultados

Integración de la visualización con herramientas de análisis y consultas de datos

Documentación visual y escrita de los resultados de los proyectos de analítica de datos para audiencias no especializadas

6. Utilización de una herramienta de visualización de datos para el diseño y carga de datos a un panel de control

Herramientas de visualización de datos: Grafana, MS PowerBar, Tableau

Visualización de consultas de negocio y panel de control de resultados en herramientas de visualización de datos

7. Elección, aplicación y evaluación de la calidad de un algoritmo de aprendizaje automático para un problema dado a partir de un conjunto de datos.

Procesamiento de textos (NLP)

Análisis de polaridad basado en diccionarios

Análisis basado en modelos predictivos supervisados

Extracción de características (Word2Vec)

HABILIDADES DE GESTIÓN, PERSONALES Y SOCIALES

Uso de habilidades de comunicación con los grupos de interés para mostrar los aspectos más relevantes de los resultados obtenidos en los resultados del proceso y su adaptación a las necesidades del proyecto.

Aplicación de soluciones innovadoras y adaptación a los entornos cambiantes.

Capacidad de desarrollo continuo de proyectos y comunicación de los resultados y decisiones con técnicas y herramientas de visualización

Coordinación y comunicación con especialistas, no especialistas, supervisores y clientes con el uso de las herramientas de comunicación para el diseño de información relevante sobre los aspectos claves de la aplicación.

Demo

Transformación digital

*La temática y el diseño de la demo son orientativos

Cursos Smartmind

¿Cómo son los cursos Smartmind?

Cursos con diseño profesional y contenido audiovisual interactivo en formato de licencia y cumplen 100% con las especificaciones del SEPE. Te presentamos los catálogos de cursos elearning en SCORM más completos y avanzados del mercado. Mejoramos hasta el 30% las finalizaciones de tus cursos, se incrementan hasta un 70% los alumnos que repiten y empresas como Endesa, Correos o Telefónica forman parte de nuestra cartera de clientes. ¿No crees que por algo será?

Más cursos de especialidades formativas

Cursos del Plan de Referencia que cumplen con los requisitos del SEPE y cuentan con el sello de diseño y calidad de Smartmind. Colaboramos con las más importantes empresas de formación en la selección de los mejores y más actuales para conseguir los mejores resultados.

¿Cómo funciona el

Catálogo?

Todo lo que debes saber sobre los contenidos Smartmind

catalogo-elearning-smartmind.j

Edtech

¿Cómo funciona el catálogo elearning de Smartmind?

programas-formativos-exito

Desarrollos a medida

¿Por qué las licencias de los cursos on line en formato SCORM de Smartmind son la mejor opción para el éxito de tus programas formativos?

diseño de cursos elearning a medida

Desarrollos a medida

Diseño, digitalización y producción de contenidos de aprendizaje a medida. Nuestro Framework de diseño

¿Quieres más información sobre este curso?

Rellena el formulario con tus datos y nos pondremos en contacto contigo para darte todos los detalles de nuestras licencias.

¡Qué bien! Necesitamos saber algunas cosas de ti :)

Nombre *
Apellido *
Email *
Número de teléfono *
Nombre de la empresa
Web de tu empresa
Tipo de empresa *
Finalidad de tu solicitud *
País/región
Mensaje

¿Tienes alguna duda o quieres más información?

Déjanos tus datos y nos pondremos en contacto contigo para resolverte todas tus dudas.

¡Qué bien! Necesitamos saber algunas cosas de ti :)

Nombre *
Apellido *
Email *
Teléfono *
Nombre de la empresa *
País/región *
Tipo de empresa *
¿Participas en convocatorias de formación de oferta estatales o autonómicas? *
¿En qué podemos ayudarte?
Mensaje