Machine Learning avec Python

Le machine learning (apprentissage automatique) constitue aujourd’hui l’une des techniques les plus efficaces pour extraire la connaissance et la valeur de la masse croissante des données collectées au sein des entreprises.

Découvrez avec un expert Artefact comment Python, grâce à de nombreuses librairies spécialisées et une communauté active, vous permet d’implémenter les solutions de machine learning répondant à vos besoins.

Une formation sur 3 jours (3 x 7 heures) avec un parcours d’apprentissage clair et progressif. Nous veillons à ne pas vous perdre en chemin et faciliter la mémorisation des connaissances dont vous avez besoin pour avancer.

Objectives

Découvrir les grands modèles utilisés en Machine Learning
Comprendre les problèmes de classification, de régression et de clustering
Savoir implémenter, mesurer et optimiser une solution de machine learning

Walk away with the ability to

A l’issue de cette formation mêlant théorie, exercices interactifs avec Python et études de cas guidés vous serez en mesure de :

Connaître les différentes typologies d’algorithmes de Machine Learning
Assimiler la démarche de mise en place d’un projet machine learning
Implémenter un modèle complexe de machine learning avec des outils
Mesurer et optimiser les grands algorithmes de machine learning
Faire du text mining
Faire du web scrapping

Training materials

Un book de fiches mémoires résumant les points clés de la formation
L’ensemble des codes présentés lors de la séance

Assessment

L’évaluation des acquis se fait tout au long de la session au travers des ateliers et des mises en pratique. Une évaluation à chaud sur la satisfaction des stagiaires est réalisée systématiquement en fin de session et une attestation de formation est délivrée aux participants mentionnant les objectifs de la formation, la nature, le programme et la durée de l’action de formation ainsi que la formalisation des acquis.

Prerequisites

Notions de Python

Public

Material required

Ordinateur portable récent (<5 ans) avec droits d’administration

Book this course

Lead Instructor

Rafaëlle Aygalenq

Chez Artefact, Rafaëlle a travaillé avec succès sur divers sujets complexes allant du marketing des données à la vision par ordinateur, en passant par le traitement du langage naturel et les prévisions pour diverses entreprises.

En particulier, Rafaëlle a de l'expérience dans le calcul de l'impact des promotions dans le contexte de la prévision des ventes.

Course agenda

Module 1Module 2Module 3Module 4Module 5Module 6

Le machine learning, premières notions

3 heures

1.1 Introduction au Machine Learning
Qu’est-ce que le Machine Learning ?
1. Cas d’usages du quotidien, utilisation du ML par les géants industriels d’aujourd’hui
2. Qu’est-ce que le Machine Learning ? Définitions et résumé des étapes clés
3. Le cas d’usages possibles dans les grands secteurs types, leurs spécificités et points en commun
4. Compromis performance vs. interprétabilité : faut-il toujours choisir entre les deux ?

1.2 Apprentissage supervisé – Processus de Data Science
Focus sur la typologie d’algorithme la plus fréquente : l’apprentissage supervisé
1. Définition de la cible et des variables explicatives. Construction du jeu de données et préparation des échantillons.
2. Choix et entraînement du modèle : importance des statistiques descriptives et prévision de variables.
3. Comment quantifier et présenter la performance d’un modèle tout en choisissant la métrique adaptée à notre besoin
Travaux pratiques

Apprentissage supervisé

4 heures

2.1 Apprentissage supervisé – Gestion du sur-apprentissage

Comprendre et éviter le sur-apprentissage

Apprendre les tendances identifiées dans les données, mais pas par cœur : les problèmes de sous et sur-apprentissage
Échantillonnage des données : bien choisir le set d’entraînement et de test
Garder les caractéristiques des données dans ses échantillons : l’échantillonnage stratifié
Gérer la présence dans le test de valeurs jamais observées en phase d’entraînement
Mieux utiliser les données à disposition grâce à la validation croisée
Cas particulier : les séries temporelles

2.2 Apprentissage supervisé – Algorithmes classiques

Les grands algorithmes de l’apprentissages supervisé

Les arbres de décisions, et les modèles ensemblistes qui sont basés sur eux : forêts aléatoires et gradient boosting
Les support vector machines
Optimisation des hyperparamètres : grid search et randomized search

Apprentissage non supervisé

3 heures

3.1 Apprentissage non supervisé

Que faire en l’absence d’une variable cible ?

Méthodologie et exemple d’apprentissage non supervisé : clustering avec k-means et Dbscan
Coupler les approches supervisées et non supervisées afin d’obtenir des résultats plus exploitables.
Un problème non supervisé classique : la réduction de dimension. Analyse en composantes principales et feature selection

Exploration de texte, web scraping

4 heures

4.1 Text mining

Exploiter des données textuelles

Clarification de la terminologie et des cas d’usage possibles : NLP, NLU, NLG, NER
Les sources de données possibles à utiliser dans un projet
Les étapes d’un pré traitement de texte : nettoyage, gestion des signes spéciaux, lemmatisation et racinisation
Principaux algorithmes : TF-IDF, Latent Dirichlet Analysis,Word2Vec, Doc2Vec, …

4.2 Web scraping

Extraire les données du web, différentes approches et mise en pratique

Collecte des données web : utilisation des API vs. web scraping. Coûts et limites des deux approches.
Packages utilisés : urllib et beautifulsoup. TP associé
Contraintes légales : on n’a pas le droit de faire tout ce qu’on est en mesure de faire !

Étude de cas – Explorer la donnée

4 heures

5.1 Appropriation du jeux de données

Mise en condition sur un projet de Data Science

Présentation de la plateforme Kaggle et extraction d’un jeu de données
Exploration des données : types des colonnes / valeurs manquantes ou aberrantes, distribution des valeurs.
Visualisation des données : graphiques univariés et bivariés, corrélation entre features
Manipulation des variables : valeurs manquantes, outliers, gérer les variables catégorielles et feature engineering

Étude de cas – modélisation et prédiction

3 heures

6.1 Création de modèle

Calibration d’un modèle

Création d’un échantillon d’entraînement et de validation, définition de la métrique de score.
Choix des modèles à essayer et leur entraînement. Mesures de performances sur le train set.
Calibration du modèle : validation croisée, hyperparamétrage (grid search).

6.2 Prédiction

Mesurer les performances du modèle

Prédiction sur le set de test. Bug-fixing en cas de problèmes (ex. variable catégorielle inconnue)
Mesures de performances des prédictions sur le set de test, et comparaisons avec les métriques sur le training set.
Étude des résultats, identification du modèle plus performant, discussion des possibles pistes d’amélioration.

MACHINE LEARNING