Le machine learning (apprentissage automatique) constitue aujourd’hui l’une des techniques les plus efficaces pour extraire la connaissance et la valeur de la masse croissante des données collectées au sein des entreprises.

Découvrez avec un expert Artefact comment Python, grâce à de nombreuses librairies spécialisées et une communauté active, vous permet d’implémenter les solutions de machine learning répondant à vos besoins.

Une formation sur 3 jours (3 x 7 heures) avec un parcours d’apprentissage clair et progressif. Nous veillons à ne pas vous perdre en chemin et faciliter la mémorisation des connaissances dont vous avez besoin pour avancer.

Objectives

  • Découvrir les grands modèles utilisés en Machine Learning
  • Comprendre les problèmes de classification, de régression et de clustering
  • Savoir implémenter, mesurer et optimiser une solution de machine learning

Walk away with the ability to

A l’issue de cette formation mêlant théorie, exercices interactifs avec Python et études de cas guidés vous serez en mesure de :

  1. Connaître les différentes typologies d’algorithmes de Machine Learning
  2. Assimiler la démarche de mise en place d’un projet machine learning
  3. Implémenter un modèle complexe de machine learning avec des outils
  4. Mesurer et optimiser les grands algorithmes de machine learning
  5. Faire du text mining
  6. Faire du web scrapping

Training materials

  • Un book de fiches mémoires résumant les points clés de la formation
  • L’ensemble des codes présentés lors de la séance

Assessment

L’évaluation des acquis se fait tout au long de la session au travers des ateliers et des mises en pratique. Une évaluation à chaud sur la satisfaction des stagiaires est réalisée systématiquement en fin de session et une attestation de formation est délivrée aux participants mentionnant les objectifs de la formation, la nature, le programme et la durée de l’action de formation ainsi que la formalisation des acquis.

Prerequisites

Notions de Python

Public

L’évaluation des acquis se fait tout au long de la session au travers des ateliers et des mises en pratique. Une évaluation à chaud sur la satisfaction des stagiaires est réalisée systématiquement en fin de session et une attestation de formation est délivrée aux participants mentionnant les objectifs de la formation, la nature, le programme et la durée de l’action de formation ainsi que la formalisation des acquis.

Material required

Ordinateur portable récent (<5 ans) avec droits d’administration

Book this course

On demand



Lead Instructor

Rafaëlle Aygalenq

Rafaëlle Aygalenq

Chez Artefact, Rafaëlle a travaillé avec succès sur divers sujets complexes allant du marketing des données à la vision par ordinateur, en passant par le traitement du langage naturel et les prévisions pour diverses entreprises.

En particulier, Rafaëlle a de l'expérience dans le calcul de l'impact des promotions dans le contexte de la prévision des ventes.

Course agenda

Le machine learning, premières notions

3 heures

1.1 Introduction au Machine Learning
Qu’est-ce que le Machine Learning ?
1. Cas d’usages du quotidien, utilisation du ML par les géants industriels d’aujourd’hui
2. Qu’est-ce que le Machine Learning ? Définitions et résumé des étapes clés
3. Le cas d’usages possibles dans les grands secteurs types, leurs spécificités et points en commun
4. Compromis performance vs. interprétabilité : faut-il toujours choisir entre les deux ?

1.2 Apprentissage supervisé – Processus de Data Science
Focus sur la typologie d’algorithme la plus fréquente : l’apprentissage supervisé
1. Définition de la cible et des variables explicatives. Construction du jeu de données et préparation des échantillons.
2. Choix et entraînement du modèle : importance des statistiques descriptives et prévision de variables.
3. Comment quantifier et présenter la performance d’un modèle tout en choisissant la métrique adaptée à notre besoin
Travaux pratiques

Apprentissage supervisé

4 heures

2.1 Apprentissage supervisé – Gestion du sur-apprentissage

Comprendre et éviter le sur-apprentissage

  1. Apprendre les tendances identifiées dans les données, mais pas par cœur : les problèmes de sous et sur-apprentissage
  2. Échantillonnage des données : bien choisir le set d’entraînement et de test
  3. Garder les caractéristiques des données dans ses échantillons : l’échantillonnage stratifié
  4. Gérer la présence dans le test de valeurs jamais observées en phase d’entraînement
  5. Mieux utiliser les données à disposition grâce à la validation croisée
  6. Cas particulier : les séries temporelles

 

2.2 Apprentissage supervisé – Algorithmes classiques

Les grands algorithmes de l’apprentissages supervisé

  1. Les arbres de décisions, et les modèles ensemblistes qui sont basés sur eux : forêts aléatoires et gradient boosting
  2. Les support vector machines
  3. Optimisation des hyperparamètres : grid search et randomized search

Apprentissage non supervisé

3 heures

3.1 Apprentissage non supervisé

Que faire en l’absence d’une variable cible ?

  1. Méthodologie et exemple d’apprentissage non supervisé : clustering avec k-means et Dbscan
  2. Coupler les approches supervisées et non supervisées afin d’obtenir des résultats plus exploitables.
  3. Un problème non supervisé classique : la réduction de dimension. Analyse en composantes principales et feature selection

Exploration de texte, web scraping

4 heures

4.1 Text mining

Exploiter des données textuelles

  1. Clarification de la terminologie et des cas d’usage possibles : NLP, NLU, NLG, NER
  2. Les sources de données possibles à utiliser dans un projet
  3. Les étapes d’un pré traitement de texte : nettoyage, gestion des signes spéciaux, lemmatisation et racinisation
  4. Principaux algorithmes : TF-IDF, Latent Dirichlet Analysis,Word2Vec, Doc2Vec, …

 

4.2 Web scraping

Extraire les données du web, différentes approches et mise en pratique

  1. Collecte des données web : utilisation des API vs. web scraping. Coûts et limites des deux approches.
  2. Packages utilisés : urllib et beautifulsoup. TP associé
  3. Contraintes légales : on n’a pas le droit de faire tout ce qu’on est en mesure de faire !

Étude de cas – Explorer la donnée

4 heures

5.1 Appropriation du jeux de données

Mise en condition sur un projet de Data Science

  1. Présentation de la plateforme Kaggle et extraction d’un jeu de données
  2. Exploration des données : types des colonnes / valeurs manquantes ou aberrantes, distribution des valeurs.
  3. Visualisation des données : graphiques univariés et bivariés, corrélation entre features
  4. Manipulation des variables : valeurs manquantes, outliers, gérer les variables catégorielles et feature engineering

Étude de cas – modélisation et prédiction

3 heures

6.1 Création de modèle

Calibration d’un modèle

  1. Création d’un échantillon d’entraînement et de validation, définition de la métrique de score.
  2. Choix des modèles à essayer et leur entraînement. Mesures de performances sur le train set.
  3. Calibration du modèle : validation croisée, hyperparamétrage (grid search).

 

6.2 Prédiction

Mesurer les performances du modèle

  1. Prédiction sur le set de test. Bug-fixing en cas de problèmes (ex. variable catégorielle inconnue)
  2. Mesures de performances des prédictions sur le set de test, et comparaisons avec les métriques sur le training set.
  3. Étude des résultats, identification du modèle plus performant, discussion des possibles pistes d’amélioration.