El aprendizaje automático es hoy en día una de las técnicas más eficaces para extraer conocimiento y valor de la creciente cantidad de datos que se recopilan en las empresas.
Descubra con un experto Artefact Python, gracias a numerosas bibliotecas especializadas y a una comunidad activa, le permite implementar soluciones de aprendizaje automático que se adapten a sus necesidades.
Un curso de tres días (3 sesiones de 7 horas) con un itinerario de aprendizaje claro y progresivo. Nos aseguramos de que no te pierdas por el camino y de facilitarte la asimilación de los conocimientos que necesitas para avanzar.
Objetivos
- Descubre los principales modelos utilizados en el aprendizaje automático
- Comprender los problemas de clasificación, regresión y agrupación
- Saber implementar, evaluar y optimizar una solución de aprendizaje automático
Adquiere la capacidad de
Al finalizar esta formación, que combina teoría, ejercicios interactivos con Python y casos prácticos guiados, serás capaz de:
- Conocer los diferentes tipos de algoritmos de aprendizaje automático
- Comprender el proceso de implementación de un proyecto de aprendizaje automático
- Implementar un modelo complejo de aprendizaje automático con herramientas
- Evaluar y optimizar los principales algoritmos de aprendizaje automático
- Realizar minería de textos
- Hacer web scraping
Materiales de formación
- Un libro de fichas de resumen con los puntos clave de la formación
- Todos los códigos presentados durante la sesión
Evaluación
La evaluación de los conocimientos adquiridos se lleva a cabo a lo largo de la sesión mediante talleres y ejercicios prácticos. Al final de la sesión se realiza sistemáticamente una encuesta de satisfacción entre los alumnos y se entrega a los participantes un certificado de formación en el que se indican los objetivos de la formación, la naturaleza, el programa y la duración de la actividad formativa, así como la acreditación de los conocimientos adquiridos.
Requisitos previos
Conceptos básicos de Python
Público
La evaluación de los conocimientos adquiridos se lleva a cabo a lo largo de la sesión mediante talleres y ejercicios prácticos. Al final de la sesión se realiza sistemáticamente una encuesta de satisfacción entre los alumnos y se entrega a los participantes un certificado de formación en el que se indican los objetivos de la formación, la naturaleza, el programa y la duración de la actividad formativa, así como la acreditación de los conocimientos adquiridos.
Materiales necesarios
Ordinateur portable récent (<5 ans) avec droits d’administration
Programa del curso
El aprendizaje automático: conceptos básicos
3 horas
1.1 Introducción al aprendizaje automático
¿Qué es el aprendizaje automático?
1. Casos de uso cotidianos, uso del aprendizaje automático por parte de los gigantes industriales actuales
2. ¿Qué es el aprendizaje automático? Definiciones y resumen de las etapas clave
3. Posibles casos de uso en los principales sectores típicos, sus particularidades y puntos en común
4. Compromiso entre rendimiento e interpretabilidad: ¿siempre hay que elegir entre ambos?
1.2 Aprendizaje supervisado – Procesos de Data
Enfoque en el tipo de algoritmo más frecuente: el aprendizaje supervisado
1. Definición de la variable objetivo y de las variables explicativas. Creación del conjunto de datos y preparación de las muestras.
2. Elección y entrenamiento del modelo: importancia de las estadísticas descriptivas y predicción de variables.
3. Cómo cuantificar y presentar el rendimiento de un modelo, eligiendo al mismo tiempo la métrica adecuada a nuestras necesidades
Trabajos prácticos
Aprendizaje supervisado
4 horas
2.1 Aprendizaje supervisado: gestión del sobreaprendizaje
Comprender y evitar el sobreaprendizaje
- Aprender las tendencias identificadas en los datos, pero no de memoria: los problemas del subaprendizaje y el sobreaprendizaje
- Muestreo de datos: cómo elegir correctamente los conjuntos de entrenamiento y de prueba
- Mantener las características de los datos en las muestras: el muestreo estratificado
- Gestionar la presencia de valores nunca observados en la fase de entrenamiento
- Aprovechar mejor los datos disponibles mediante la validación cruzada
- Caso particular: las series temporales
2.2 Aprendizaje supervisado: algoritmos clásicos
Los principales algoritmos del aprendizaje supervisado
- Los árboles de decisión y los modelos de aprendizaje por ensembles basados en ellos: bosques aleatorios y gradient boosting
- Las máquinas de vectores de soporte
- Optimización de hiperparámetros: búsqueda por cuadrícula y búsqueda aleatoria
Aprendizaje no supervisado
3 horas
3.1 Aprendizaje no supervisado
¿Qué hacer si no se dispone de una variable objetivo?
- Metodología y ejemplo de aprendizaje no supervisado: agrupación con k-means y Dbscan
- Combinar los enfoques supervisados y no supervisados para obtener resultados más útiles.
- Un problema clásico sin supervisión: la reducción de dimensiones. Análisis de componentes principales y selección de características
Análisis de texto, web scraping
4 horas
4.1 Minería de textos
Aprovechar los datos textuales
- Aclaración de la terminología y los posibles casos de uso: PLN, CLU, GLP, REC
- Posibles fuentes de datos que se pueden utilizar en un proyecto
- Las etapas del preprocesamiento de texto: limpieza, gestión de caracteres especiales, lematización y raízización
- Principales algoritmos: TF-IDF, análisis latente de Dirichlet, Word2Vec, Doc2Vec, …
4.2 Extracción de datos de la web
Extracción de datos de la web: diferentes enfoques y aplicación práctica
- Recopilación de datos web: uso de API frente al web scraping. Costes y limitaciones de ambos enfoques.
- Paquetes utilizados: urllib y beautifulsoup. Trabajo práctico relacionado
- Restricciones legales: ¡no se puede hacer todo lo que uno es capaz de hacer!
Caso práctico: análisis de datos
4 horas
5.1 Apropiación del conjunto de datos
Preparación para un proyecto de Data
- Presentación de la plataforma Kaggle y extracción de un conjunto de datos
- Exploración de datos: tipos de columnas / valores perdidos o atípicos, distribución de los valores.
- Visualización de datos: gráficos univariantes y bivariantes, correlación entre variables
- Manipulación de variables: valores perdidos, valores atípicos, gestión de variables categóricas e ingeniería de características
Caso práctico: modelización y predicción
3 horas
6.1 Creación de plantillas
Calibración de un modelo
- Creación de un conjunto de datos de entrenamiento y validación; definición de la métrica de puntuación.
- Selección de los modelos que se van a probar y su puesta a punto. Medición del rendimiento en la pista de pruebas.
- Calibración del modelo: validación cruzada, hiperparámetros (búsqueda por cuadrícula).
6.2 Predicción
Evaluar el rendimiento del modelo
- Predicción en el conjunto de prueba. Corrección de errores en caso de problemas (p. ej., variable categórica desconocida)
- Medidas del rendimiento de las predicciones en el conjunto de prueba y comparaciones con las métricas del conjunto de entrenamiento.
- Análisis de los resultados, identificación del modelo más eficaz y debate sobre posibles vías de mejora.







