L'apprentissage automatique constitue aujourd'hui l'une des techniques les plus efficaces pour extraire des connaissances et de la valeur de la masse croissante de données collectées au sein des entreprises.
Découvrez avec un expert Artefact Python, grâce à de nombreuses bibliothèques spécialisées et à une communauté active, vous permet de mettre en œuvre des solutions d'apprentissage automatique adaptées à vos besoins.
Une formation de trois jours (3 x 7 heures) avec un parcours d’apprentissage clair et progressif. Nous veillons à ce que vous ne vous perdiez pas en chemin et à faciliter la mémorisation des connaissances dont vous avez besoin pour progresser.
Objectifs
- Découvrir les principaux modèles utilisés en apprentissage automatique
- Comprendre les problèmes de classification, de régression et de regroupement
- Savoir mettre en œuvre, évaluer et optimiser une solution d'apprentissage automatique
Repartez en étant capable de
À l'issue de cette formation, qui allie théorie, exercices interactifs avec Python et études de cas guidées, vous serez en mesure de :
- Connaître les différentes catégories d'algorithmes d'apprentissage automatique
- Comprendre la démarche de mise en place d’un projet d’apprentissage automatique
- Mettre en œuvre un modèle complexe d'apprentissage automatique à l'aide d'outils
- Mesurer et optimiser les grands algorithmes d'apprentissage automatique
- Faire de l'exploration de textes
- Faire du web scraping
Supports de formation
- Un livret de fiches de révision résumant les points clés de la formation
- L'ensemble des codes présentés lors de la séance
Évaluation
L'évaluation des acquis s'effectue tout au long de la session à travers des ateliers et des mises en pratique. Une évaluation immédiate de la satisfaction des stagiaires est systématiquement réalisée à la fin de la session et une attestation de formation est délivrée aux participants, mentionnant les objectifs de la formation, la nature, le programme et la durée de la formation, ainsi que la validation des acquis.
Conditions préalables
Notions de Python
Public
L'évaluation des acquis s'effectue tout au long de la session à travers des ateliers et des mises en pratique. Une évaluation immédiate de la satisfaction des stagiaires est systématiquement réalisée à la fin de la session et une attestation de formation est délivrée aux participants, mentionnant les objectifs de la formation, la nature, le programme et la durée de la formation, ainsi que la validation des acquis.
Matériel nécessaire
Ordinateur portable récent (<5 ans) avec droits d’administration
Programme du cours
L'apprentissage automatique : notions de base
3 heures
1.1 Introduction au Machine Learning
Qu’est-ce que le Machine Learning ?
1. Cas d’utilisation au quotidien, utilisation du ML par les géants industriels d’aujourd’hui
2. Qu’est-ce que le Machine Learning ? Définitions et résumé des étapes clés
3. Les cas d’utilisation possibles dans les grands secteurs types, leurs spécificités et leurs points communs
4. Compromis performance vs. interprétabilité : faut-il toujours choisir entre les deux ?
1.2 Apprentissage supervisé – Processus de Data
Focus sur le type d’algorithme le plus courant : l’apprentissage supervisé
1. Définition de la cible et des variables explicatives. Construction de l’ensemble de données et préparation des échantillons.
2. Choix et entraînement du modèle : importance des statistiques descriptives et prévision des variables.
3. Comment quantifier et présenter la performance d’un modèle tout en choisissant la métrique adaptée à nos besoins
Travaux pratiques
Apprentissage supervisé
4 heures
2.1 Apprentissage supervisé – Gestion du sur-apprentissage
Comprendre et éviter le sur-apprentissage
- Apprendre les tendances mises en évidence par les données, mais pas par cœur : les problèmes de sous-apprentissage et de sur-apprentissage
- Échantillonnage des données : bien choisir les ensembles d'entraînement et de test
- Préserver les caractéristiques des données dans ses échantillons : l'échantillonnage stratifié
- Gérer la présence de valeurs jamais observées lors des tests en phase d'entraînement
- Mieux exploiter les données disponibles grâce à la validation croisée
- Cas particulier : les séries chronologiques
2.2 Apprentissage supervisé – Algorithmes classiques
Les grands algorithmes de l'apprentissage supervisé
- Les arbres de décision et les modèles d'apprentissage par ensembles qui s'appuient sur eux : les forêts aléatoires et le gradient boosting
- Les machines à vecteurs de support
- Optimisation des hyperparamètres : recherche par grille et recherche aléatoire
Apprentissage non supervisé
3 heures
3.1 Apprentissage non supervisé
Que faire lorsqu'il n'y a pas de variable cible ?
- Méthodologie et exemple d'apprentissage non supervisé : regroupement par k-means et Dbscan
- Combiner les approches supervisées et non supervisées afin d'obtenir des résultats plus exploitables.
- Un problème classique non supervisé : la réduction de dimension. Analyse en composantes principales et sélection de caractéristiques
Analyse de texte, extraction de données sur le Web
4 heures
4.1 Exploration de textes
Exploiter des données textuelles
- Précisions sur la terminologie et les cas d’utilisation possibles : NLP, NLU, NLG, NER
- Les sources de données pouvant être utilisées dans un projet
- Les étapes du prétraitement de texte : nettoyage, gestion des caractères spéciaux, lemmatisation et racinisation
- Principaux algorithmes : TF-IDF, analyse latente de Dirichlet, Word2Vec, Doc2Vec, …
4.2 Récupération de données sur le Web
Extraction de données sur le Web : différentes approches et mise en pratique
- Collecte de données Web : utilisation des API ou web scraping. Coûts et limites des deux approches.
- Bibliothèques utilisées : urllib et BeautifulSoup. Travail pratique associé
- Contraintes légales : on n'a pas le droit de faire tout ce dont on est capable !
Étude de cas – Explorer les données
4 heures
5.1 Utilisation du jeu de données
Formation sur un projet de Data
- Présentation de la plateforme Kaggle et extraction d’un ensemble de données
- Exploration des données : types de colonnes / valeurs manquantes ou aberrantes, répartition des valeurs.
- Visualisation des données : graphiques univariés et bivariés, corrélation entre les caractéristiques
- Traitement des variables : valeurs manquantes, valeurs aberrantes, gestion des variables catégorielles et ingénierie des caractéristiques
Étude de cas – modélisation et prévision
3 heures
6.1 Création d'un modèle
Calibrage d'un modèle
- Création d’un échantillon d’entraînement et de validation, définition de la métrique de score.
- Sélection des modèles à tester et leur mise au point. Mesures des performances sur le banc d'essai.
- Calibrage du modèle : validation croisée, hyperparamétrage (recherche par grille).
6.2 Prédiction
Évaluer les performances du modèle
- Prédiction sur l'ensemble de test. Correction des bugs en cas de problèmes (par exemple, variable catégorielle inconnue)
- Évaluation des performances des prédictions sur l'ensemble de test et comparaison avec les indicateurs de l'ensemble d'apprentissage.
- Analyse des résultats, identification du modèle le plus performant, discussion des pistes d’amélioration possibles.







