Aprendizaje automático con Python

El aprendizaje automático es hoy en día una de las técnicas más eficaces para extraer conocimiento y valor de la creciente cantidad de datos que se recopilan en las empresas.

Descubra con un experto Artefact Python, gracias a numerosas bibliotecas especializadas y a una comunidad activa, le permite implementar soluciones de aprendizaje automático que se adapten a sus necesidades.

Un curso de tres días (3 sesiones de 7 horas) con un itinerario de aprendizaje claro y progresivo. Nos aseguramos de que no te pierdas por el camino y de facilitarte la asimilación de los conocimientos que necesitas para avanzar.

Objetivos

Descubre los principales modelos utilizados en el aprendizaje automático
Comprender los problemas de clasificación, regresión y agrupación
Saber implementar, evaluar y optimizar una solución de aprendizaje automático

Adquiere la capacidad de

Al finalizar esta formación, que combina teoría, ejercicios interactivos con Python y casos prácticos guiados, serás capaz de:

Conocer los diferentes tipos de algoritmos de aprendizaje automático
Comprender el proceso de implementación de un proyecto de aprendizaje automático
Implementar un modelo complejo de aprendizaje automático con herramientas
Evaluar y optimizar los principales algoritmos de aprendizaje automático
Realizar minería de textos
Hacer web scraping

Materiales de formación

Un libro de fichas de resumen con los puntos clave de la formación
Todos los códigos presentados durante la sesión

Evaluación

La evaluación de los conocimientos adquiridos se lleva a cabo a lo largo de la sesión mediante talleres y ejercicios prácticos. Al final de la sesión se realiza sistemáticamente una encuesta de satisfacción entre los alumnos y se entrega a los participantes un certificado de formación en el que se indican los objetivos de la formación, la naturaleza, el programa y la duración de la actividad formativa, así como la acreditación de los conocimientos adquiridos.

Requisitos previos

Conceptos básicos de Python

Público

Materiales necesarios

Ordinateur portable récent (<5 ans) avec droits d’administration

Reserva este curso

Instructor principal

Rafaëlle Aygalenq

En Artefact, Rafaëlle ha trabajado con éxito en diversos temas complejos, desde el marketing de datos hasta la visión artificial, pasando por el procesamiento del lenguaje natural y las previsiones para diversas empresas.

En concreto, Rafaëlle tiene experiencia en el cálculo del impacto de las promociones en el contexto de la previsión de ventas.

Programa del curso

Módulo 1Módulo 2Módulo 3Módulo 4Módulo 5Módulo 6

El aprendizaje automático: conceptos básicos

3 horas

1.1 Introducción al aprendizaje automático
¿Qué es el aprendizaje automático?
1. Casos de uso cotidianos, uso del aprendizaje automático por parte de los gigantes industriales actuales
2. ¿Qué es el aprendizaje automático? Definiciones y resumen de las etapas clave
3. Posibles casos de uso en los principales sectores típicos, sus particularidades y puntos en común
4. Compromiso entre rendimiento e interpretabilidad: ¿siempre hay que elegir entre ambos?

1.2 Aprendizaje supervisado – Procesos de Data
Enfoque en el tipo de algoritmo más frecuente: el aprendizaje supervisado
1. Definición de la variable objetivo y de las variables explicativas. Creación del conjunto de datos y preparación de las muestras.
2. Elección y entrenamiento del modelo: importancia de las estadísticas descriptivas y predicción de variables.
3. Cómo cuantificar y presentar el rendimiento de un modelo, eligiendo al mismo tiempo la métrica adecuada a nuestras necesidades
Trabajos prácticos

Aprendizaje supervisado

4 horas

2.1 Aprendizaje supervisado: gestión del sobreaprendizaje

Comprender y evitar el sobreaprendizaje

Aprender las tendencias identificadas en los datos, pero no de memoria: los problemas del subaprendizaje y el sobreaprendizaje
Muestreo de datos: cómo elegir correctamente los conjuntos de entrenamiento y de prueba
Mantener las características de los datos en las muestras: el muestreo estratificado
Gestionar la presencia de valores nunca observados en la fase de entrenamiento
Aprovechar mejor los datos disponibles mediante la validación cruzada
Caso particular: las series temporales

2.2 Aprendizaje supervisado: algoritmos clásicos

Los principales algoritmos del aprendizaje supervisado

Los árboles de decisión y los modelos de aprendizaje por ensembles basados en ellos: bosques aleatorios y gradient boosting
Las máquinas de vectores de soporte
Optimización de hiperparámetros: búsqueda por cuadrícula y búsqueda aleatoria

Aprendizaje no supervisado

3 horas

3.1 Aprendizaje no supervisado

¿Qué hacer si no se dispone de una variable objetivo?

Metodología y ejemplo de aprendizaje no supervisado: agrupación con k-means y Dbscan
Combinar los enfoques supervisados y no supervisados para obtener resultados más útiles.
Un problema clásico sin supervisión: la reducción de dimensiones. Análisis de componentes principales y selección de características

Análisis de texto, web scraping

4 horas

4.1 Minería de textos

Aprovechar los datos textuales

Aclaración de la terminología y los posibles casos de uso: PLN, CLU, GLP, REC
Posibles fuentes de datos que se pueden utilizar en un proyecto
Las etapas del preprocesamiento de texto: limpieza, gestión de caracteres especiales, lematización y raízización
Principales algoritmos: TF-IDF, análisis latente de Dirichlet, Word2Vec, Doc2Vec, …

4.2 Extracción de datos de la web

Extracción de datos de la web: diferentes enfoques y aplicación práctica

Recopilación de datos web: uso de API frente al web scraping. Costes y limitaciones de ambos enfoques.
Paquetes utilizados: urllib y beautifulsoup. Trabajo práctico relacionado
Restricciones legales: ¡no se puede hacer todo lo que uno es capaz de hacer!

Caso práctico: análisis de datos

4 horas

5.1 Apropiación del conjunto de datos

Preparación para un proyecto de Data

Presentación de la plataforma Kaggle y extracción de un conjunto de datos
Exploración de datos: tipos de columnas / valores perdidos o atípicos, distribución de los valores.
Visualización de datos: gráficos univariantes y bivariantes, correlación entre variables
Manipulación de variables: valores perdidos, valores atípicos, gestión de variables categóricas e ingeniería de características

Caso práctico: modelización y predicción

3 horas

6.1 Creación de plantillas

Calibración de un modelo

Creación de un conjunto de datos de entrenamiento y validación; definición de la métrica de puntuación.
Selección de los modelos que se van a probar y su puesta a punto. Medición del rendimiento en la pista de pruebas.
Calibración del modelo: validación cruzada, hiperparámetros (búsqueda por cuadrícula).

6.2 Predicción

Evaluar el rendimiento del modelo

Predicción en el conjunto de prueba. Corrección de errores en caso de problemas (p. ej., variable categórica desconocida)
Medidas del rendimiento de las predicciones en el conjunto de prueba y comparaciones con las métricas del conjunto de entrenamiento.
Análisis de los resultados, identificación del modelo más eficaz y debate sobre posibles vías de mejora.

APRENDIZAJE AUTOMÁTICO