El aprendizaje automático es hoy en día una de las técnicas más eficaces para extraer conocimiento y valor de la creciente cantidad de datos que se recopilan en las empresas.

Descubra con un experto Artefact Python, gracias a numerosas bibliotecas especializadas y a una comunidad activa, le permite implementar soluciones de aprendizaje automático que se adapten a sus necesidades.

Un curso de tres días (3 sesiones de 7 horas) con un itinerario de aprendizaje claro y progresivo. Nos aseguramos de que no te pierdas por el camino y de facilitarte la asimilación de los conocimientos que necesitas para avanzar.

Objetivos

  • Descubre los principales modelos utilizados en el aprendizaje automático
  • Comprender los problemas de clasificación, regresión y agrupación
  • Saber implementar, evaluar y optimizar una solución de aprendizaje automático

Adquiere la capacidad de

Al finalizar esta formación, que combina teoría, ejercicios interactivos con Python y casos prácticos guiados, serás capaz de:

  1. Conocer los diferentes tipos de algoritmos de aprendizaje automático
  2. Comprender el proceso de implementación de un proyecto de aprendizaje automático
  3. Implementar un modelo complejo de aprendizaje automático con herramientas
  4. Evaluar y optimizar los principales algoritmos de aprendizaje automático
  5. Realizar minería de textos
  6. Hacer web scraping

Materiales de formación

  • Un libro de fichas de resumen con los puntos clave de la formación
  • Todos los códigos presentados durante la sesión

Evaluación

La evaluación de los conocimientos adquiridos se lleva a cabo a lo largo de la sesión mediante talleres y ejercicios prácticos. Al final de la sesión se realiza sistemáticamente una encuesta de satisfacción entre los alumnos y se entrega a los participantes un certificado de formación en el que se indican los objetivos de la formación, la naturaleza, el programa y la duración de la actividad formativa, así como la acreditación de los conocimientos adquiridos.

Requisitos previos

Conceptos básicos de Python

Público

La evaluación de los conocimientos adquiridos se lleva a cabo a lo largo de la sesión mediante talleres y ejercicios prácticos. Al final de la sesión se realiza sistemáticamente una encuesta de satisfacción entre los alumnos y se entrega a los participantes un certificado de formación en el que se indican los objetivos de la formación, la naturaleza, el programa y la duración de la actividad formativa, así como la acreditación de los conocimientos adquiridos.

Materiales necesarios

Ordinateur portable récent (<5 ans) avec droits d’administration

Reserva este curso

Bajo demanda



Instructor principal

Rafaëlle Aygalenq

Rafaëlle Aygalenq

En Artefact, Rafaëlle ha trabajado con éxito en diversos temas complejos, desde el marketing de datos hasta la visión artificial, pasando por el procesamiento del lenguaje natural y las previsiones para diversas empresas.

En concreto, Rafaëlle tiene experiencia en el cálculo del impacto de las promociones en el contexto de la previsión de ventas.

Programa del curso

El aprendizaje automático: conceptos básicos

3 horas

1.1 Introducción al aprendizaje automático
¿Qué es el aprendizaje automático?
1. Casos de uso cotidianos, uso del aprendizaje automático por parte de los gigantes industriales actuales
2. ¿Qué es el aprendizaje automático? Definiciones y resumen de las etapas clave
3. Posibles casos de uso en los principales sectores típicos, sus particularidades y puntos en común
4. Compromiso entre rendimiento e interpretabilidad: ¿siempre hay que elegir entre ambos?

1.2 Aprendizaje supervisado – Procesos de Data
Enfoque en el tipo de algoritmo más frecuente: el aprendizaje supervisado
1. Definición de la variable objetivo y de las variables explicativas. Creación del conjunto de datos y preparación de las muestras.
2. Elección y entrenamiento del modelo: importancia de las estadísticas descriptivas y predicción de variables.
3. Cómo cuantificar y presentar el rendimiento de un modelo, eligiendo al mismo tiempo la métrica adecuada a nuestras necesidades
Trabajos prácticos

Aprendizaje supervisado

4 horas

2.1 Aprendizaje supervisado: gestión del sobreaprendizaje

Comprender y evitar el sobreaprendizaje

  1. Aprender las tendencias identificadas en los datos, pero no de memoria: los problemas del subaprendizaje y el sobreaprendizaje
  2. Muestreo de datos: cómo elegir correctamente los conjuntos de entrenamiento y de prueba
  3. Mantener las características de los datos en las muestras: el muestreo estratificado
  4. Gestionar la presencia de valores nunca observados en la fase de entrenamiento
  5. Aprovechar mejor los datos disponibles mediante la validación cruzada
  6. Caso particular: las series temporales

 

2.2 Aprendizaje supervisado: algoritmos clásicos

Los principales algoritmos del aprendizaje supervisado

  1. Los árboles de decisión y los modelos de aprendizaje por ensembles basados en ellos: bosques aleatorios y gradient boosting
  2. Las máquinas de vectores de soporte
  3. Optimización de hiperparámetros: búsqueda por cuadrícula y búsqueda aleatoria

Aprendizaje no supervisado

3 horas

3.1 Aprendizaje no supervisado

¿Qué hacer si no se dispone de una variable objetivo?

  1. Metodología y ejemplo de aprendizaje no supervisado: agrupación con k-means y Dbscan
  2. Combinar los enfoques supervisados y no supervisados para obtener resultados más útiles.
  3. Un problema clásico sin supervisión: la reducción de dimensiones. Análisis de componentes principales y selección de características

Análisis de texto, web scraping

4 horas

4.1 Minería de textos

Aprovechar los datos textuales

  1. Aclaración de la terminología y los posibles casos de uso: PLN, CLU, GLP, REC
  2. Posibles fuentes de datos que se pueden utilizar en un proyecto
  3. Las etapas del preprocesamiento de texto: limpieza, gestión de caracteres especiales, lematización y raízización
  4. Principales algoritmos: TF-IDF, análisis latente de Dirichlet, Word2Vec, Doc2Vec, …

 

4.2 Extracción de datos de la web

Extracción de datos de la web: diferentes enfoques y aplicación práctica

  1. Recopilación de datos web: uso de API frente al web scraping. Costes y limitaciones de ambos enfoques.
  2. Paquetes utilizados: urllib y beautifulsoup. Trabajo práctico relacionado
  3. Restricciones legales: ¡no se puede hacer todo lo que uno es capaz de hacer!

Caso práctico: análisis de datos

4 horas

5.1 Apropiación del conjunto de datos

Preparación para un proyecto de Data

  1. Presentación de la plataforma Kaggle y extracción de un conjunto de datos
  2. Exploración de datos: tipos de columnas / valores perdidos o atípicos, distribución de los valores.
  3. Visualización de datos: gráficos univariantes y bivariantes, correlación entre variables
  4. Manipulación de variables: valores perdidos, valores atípicos, gestión de variables categóricas e ingeniería de características

Caso práctico: modelización y predicción

3 horas

6.1 Creación de plantillas

Calibración de un modelo

  1. Creación de un conjunto de datos de entrenamiento y validación; definición de la métrica de puntuación.
  2. Selección de los modelos que se van a probar y su puesta a punto. Medición del rendimiento en la pista de pruebas.
  3. Calibración del modelo: validación cruzada, hiperparámetros (búsqueda por cuadrícula).

 

6.2 Predicción

Evaluar el rendimiento del modelo

  1. Predicción en el conjunto de prueba. Corrección de errores en caso de problemas (p. ej., variable categórica desconocida)
  2. Medidas del rendimiento de las predicciones en el conjunto de prueba y comparaciones con las métricas del conjunto de entrenamiento.
  3. Análisis de los resultados, identificación del modelo más eficaz y debate sobre posibles vías de mejora.