Apprentissage automatique avec Python

L'apprentissage automatique constitue aujourd'hui l'une des techniques les plus efficaces pour extraire des connaissances et de la valeur de la masse croissante de données collectées au sein des entreprises.

Découvrez avec un expert Artefact Python, grâce à de nombreuses bibliothèques spécialisées et à une communauté active, vous permet de mettre en œuvre des solutions d'apprentissage automatique adaptées à vos besoins.

Une formation de trois jours (3 x 7 heures) avec un parcours d’apprentissage clair et progressif. Nous veillons à ce que vous ne vous perdiez pas en chemin et à faciliter la mémorisation des connaissances dont vous avez besoin pour progresser.

Objectifs

Découvrir les principaux modèles utilisés en apprentissage automatique
Comprendre les problèmes de classification, de régression et de regroupement
Savoir mettre en œuvre, évaluer et optimiser une solution d'apprentissage automatique

Repartez en étant capable de

À l'issue de cette formation, qui allie théorie, exercices interactifs avec Python et études de cas guidées, vous serez en mesure de :

Connaître les différentes catégories d'algorithmes d'apprentissage automatique
Comprendre la démarche de mise en place d’un projet d’apprentissage automatique
Mettre en œuvre un modèle complexe d'apprentissage automatique à l'aide d'outils
Mesurer et optimiser les grands algorithmes d'apprentissage automatique
Faire de l'exploration de textes
Faire du web scraping

Supports de formation

Un livret de fiches de révision résumant les points clés de la formation
L'ensemble des codes présentés lors de la séance

Évaluation

L'évaluation des acquis s'effectue tout au long de la session à travers des ateliers et des mises en pratique. Une évaluation immédiate de la satisfaction des stagiaires est systématiquement réalisée à la fin de la session et une attestation de formation est délivrée aux participants, mentionnant les objectifs de la formation, la nature, le programme et la durée de la formation, ainsi que la validation des acquis.

Conditions préalables

Notions de Python

Public

Matériel nécessaire

Ordinateur portable récent (<5 ans) avec droits d’administration

Réservez ce cours

Formateur principal

Rafaëlle Aygalenq

Chez Artefact, Rafaëlle a mené à bien divers projets complexes, allant du marketing des données à la vision par ordinateur, en passant par le traitement du langage naturel et les prévisions, pour le compte de différentes entreprises.

Rafaëlle possède notamment une expérience dans le calcul de l'impact des promotions dans le cadre de la prévision des ventes.

Programme du cours

Module 1Module 2Module 3Module 4Module 5Module 6

L'apprentissage automatique : notions de base

3 heures

1.1 Introduction au Machine Learning
Qu’est-ce que le Machine Learning ?
1. Cas d’utilisation au quotidien, utilisation du ML par les géants industriels d’aujourd’hui
2. Qu’est-ce que le Machine Learning ? Définitions et résumé des étapes clés
3. Les cas d’utilisation possibles dans les grands secteurs types, leurs spécificités et leurs points communs
4. Compromis performance vs. interprétabilité : faut-il toujours choisir entre les deux ?

1.2 Apprentissage supervisé – Processus de Data
Focus sur le type d’algorithme le plus courant : l’apprentissage supervisé
1. Définition de la cible et des variables explicatives. Construction de l’ensemble de données et préparation des échantillons.
2. Choix et entraînement du modèle : importance des statistiques descriptives et prévision des variables.
3. Comment quantifier et présenter la performance d’un modèle tout en choisissant la métrique adaptée à nos besoins
Travaux pratiques

Apprentissage supervisé

4 heures

2.1 Apprentissage supervisé – Gestion du sur-apprentissage

Comprendre et éviter le sur-apprentissage

Apprendre les tendances mises en évidence par les données, mais pas par cœur : les problèmes de sous-apprentissage et de sur-apprentissage
Échantillonnage des données : bien choisir les ensembles d'entraînement et de test
Préserver les caractéristiques des données dans ses échantillons : l'échantillonnage stratifié
Gérer la présence de valeurs jamais observées lors des tests en phase d'entraînement
Mieux exploiter les données disponibles grâce à la validation croisée
Cas particulier : les séries chronologiques

2.2 Apprentissage supervisé – Algorithmes classiques

Les grands algorithmes de l'apprentissage supervisé

Les arbres de décision et les modèles d'apprentissage par ensembles qui s'appuient sur eux : les forêts aléatoires et le gradient boosting
Les machines à vecteurs de support
Optimisation des hyperparamètres : recherche par grille et recherche aléatoire

Apprentissage non supervisé

3 heures

3.1 Apprentissage non supervisé

Que faire lorsqu'il n'y a pas de variable cible ?

Méthodologie et exemple d'apprentissage non supervisé : regroupement par k-means et Dbscan
Combiner les approches supervisées et non supervisées afin d'obtenir des résultats plus exploitables.
Un problème classique non supervisé : la réduction de dimension. Analyse en composantes principales et sélection de caractéristiques

Analyse de texte, extraction de données sur le Web

4 heures

4.1 Exploration de textes

Exploiter des données textuelles

Précisions sur la terminologie et les cas d’utilisation possibles : NLP, NLU, NLG, NER
Les sources de données pouvant être utilisées dans un projet
Les étapes du prétraitement de texte : nettoyage, gestion des caractères spéciaux, lemmatisation et racinisation
Principaux algorithmes : TF-IDF, analyse latente de Dirichlet, Word2Vec, Doc2Vec, …

4.2 Récupération de données sur le Web

Extraction de données sur le Web : différentes approches et mise en pratique

Collecte de données Web : utilisation des API ou web scraping. Coûts et limites des deux approches.
Bibliothèques utilisées : urllib et BeautifulSoup. Travail pratique associé
Contraintes légales : on n'a pas le droit de faire tout ce dont on est capable !

Étude de cas – Explorer les données

4 heures

5.1 Utilisation du jeu de données

Formation sur un projet de Data

Présentation de la plateforme Kaggle et extraction d’un ensemble de données
Exploration des données : types de colonnes / valeurs manquantes ou aberrantes, répartition des valeurs.
Visualisation des données : graphiques univariés et bivariés, corrélation entre les caractéristiques
Traitement des variables : valeurs manquantes, valeurs aberrantes, gestion des variables catégorielles et ingénierie des caractéristiques

Étude de cas – modélisation et prévision

3 heures

6.1 Création d'un modèle

Calibrage d'un modèle

Création d’un échantillon d’entraînement et de validation, définition de la métrique de score.
Sélection des modèles à tester et leur mise au point. Mesures des performances sur le banc d'essai.
Calibrage du modèle : validation croisée, hyperparamétrage (recherche par grille).

6.2 Prédiction

Évaluer les performances du modèle

Prédiction sur l'ensemble de test. Correction des bugs en cas de problèmes (par exemple, variable catégorielle inconnue)
Évaluation des performances des prédictions sur l'ensemble de test et comparaison avec les indicateurs de l'ensemble d'apprentissage.
Analyse des résultats, identification du modèle le plus performant, discussion des pistes d’amélioration possibles.

APPRENTISSAGE AUTOMATIQUE