Machine learning met Python

Machine learning (automatisch leren) is tegenwoordig een van de meest effectieve methoden om kennis en waarde te halen uit de steeds groter wordende hoeveelheid gegevens die binnen bedrijven wordt verzameld.

Ontdek samen met een expert Artefact u met Python, dankzij talrijke gespecialiseerde bibliotheken en een actieve community, machine learning-oplossingen kunt implementeren die aan uw behoeften voldoen.

Een driedaagse training (3 x 7 uur) met een duidelijk en stapsgewijs leertraject. We zorgen ervoor dat u niet de weg kwijtraakt en helpen u de kennis die u nodig hebt om vooruit te komen, beter te onthouden.

Doelstellingen

Ontdek de belangrijkste modellen die bij machine learning worden gebruikt
Inzicht krijgen in classificatie-, regressie- en clusteringproblemen
Weten hoe je een machine learning-oplossing implementeert, meet en optimaliseert

Ga naar huis met de vaardigheid om

Na afloop van deze opleiding, die theorie, interactieve oefeningen met Python en begeleide casestudy’s combineert, bent u in staat om:

De verschillende soorten algoritmen voor machine learning leren kennen
De aanpak voor het opzetten van een machine learning-project onder de knie krijgen
Een complex machine learning-model implementeren met behulp van tools
Het meten en optimaliseren van grote machine learning-algoritmen
Tekstmining uitvoeren
Webscraping uitvoeren

Trainingsmateriaal

Een boekje met samenvattingen van de belangrijkste punten uit de opleiding
Alle codes die tijdens de sessie zijn gepresenteerd

Beoordeling

De verworven vaardigheden worden gedurende de hele sessie beoordeeld aan de hand van workshops en praktijkopdrachten. Aan het einde van de sessie wordt stelselmatig een directe evaluatie gehouden om de tevredenheid van de cursisten te peilen, en de deelnemers ontvangen een opleidingscertificaat waarop de doelstellingen van de opleiding, de aard, het programma en de duur van de opleiding, evenals de vastgelegde verworven vaardigheden zijn vermeld.

Vereisten

Basisbegrippen van Python

Openbaar

Benodigd materiaal

Ordinateur portable récent (<5 ans) avec droits d’administration

Schrijf je in voor deze cursus

Hoofdinstructeur

Rafaëlle Aygalenq

Bij Artefact heeft Rafaëlle met succes gewerkt aan diverse complexe onderwerpen, variërend van datamarketing en computervisie tot natuurlijke taalverwerking en prognoses voor verschillende bedrijven.

Rafaëlle heeft met name ervaring met het berekenen van het effect van promoties in het kader van verkoopprognoses.

Cursusprogramma

Module 1Module 2Module 3Module 4Module 5Module 6

Machine learning: basisbegrippen

3 uur

1.1 Inleiding tot machine learning
Wat is machine learning?
1. Toepassingen in het dagelijks leven, gebruik van ML door de industriële giganten van vandaag
2. Wat is machine learning? Definities en overzicht van de belangrijkste stappen
3. Mogelijke toepassingen in grote sectoren, hun specifieke kenmerken en overeenkomsten
4. Afweging tussen prestaties en interpreteerbaarheid: moet er altijd tussen beide worden gekozen?

1.2 Begeleid leren – Data
Aandacht voor de meest voorkomende algoritmetype: begeleid leren
1. Definitie van de doelvariabele en de verklarende variabelen. Samenstellen van de dataset en voorbereiden van de steekproeven.
2. Keuze en training van het model: het belang van beschrijvende statistieken en het voorspellen van variabelen.
3. Hoe de prestaties van een model te kwantificeren en te presenteren, waarbij de juiste maatstaf voor onze behoefte wordt gekozen
Praktische opdrachten

Begeleid leren

4 uur

2.1 Begeleid leren – Beheer van overleren

Overleren begrijpen en voorkomen

De trends die uit de gegevens naar voren komen leren herkennen, maar niet uit het hoofd: de problemen van onder- en overleren
Steekproeven van gegevens: de juiste trainings- en testset kiezen
De kenmerken van de gegevens in de steekproeven behouden: gestratificeerde steekproeven
Het omgaan met waarden die tijdens de trainingsfase nog nooit zijn waargenomen
Beter gebruikmaken van de beschikbare gegevens door middel van kruisvalidatie
Speciaal geval: tijdreeksen

2.2 Begeleid leren – Klassieke algoritmen

De belangrijkste algoritmen voor begeleid leren

Beslissingsbomen en de daarop gebaseerde ensemble-modellen: random forests en gradient boosting
Support vector machines
Optimalisatie van hyperparameters: grid search en randomized search

Ongeleid leren

3 uur

3.1 Onbegeleid leren

Wat te doen als er geen doelvariabele is?

Methodologie en voorbeeld van onbegeleid leren: clustering met k-means en Dbscan
Gecombineerde gebruik van benaderingen met en zonder toezicht om bruikbaardere resultaten te verkrijgen.
Een klassiek onbegeleid probleem: dimensiereductie. Hoofdcomponentenanalyse en kenmerkselectie

Tekstanalyse, webscraping

4 uur

4.1 Tekstmining

Tekstgegevens benutten

Toelichting op de terminologie en mogelijke toepassingen: NLP, NLU, NLG, NER
Mogelijke gegevensbronnen die in een project kunnen worden gebruikt
De stappen bij tekstvoorbewerking: opschoning, verwerking van speciale tekens, lemmatisering en stamvorming
Belangrijkste algoritmen: TF-IDF, Latent Dirichlet Analysis, Word2Vec, Doc2Vec, …

4.2 Webscraping

Gegevens uit het internet halen: verschillende benaderingen en praktische toepassing

Webgegevensverzameling: gebruik van API’s versus webscraping. Kosten en beperkingen van beide benaderingen.
Gebruikte pakketten: urllib en beautifulsoup. Bijbehorende practicumopdracht
Wettelijke beperkingen: we mogen niet alles doen wat we zouden kunnen doen!

Casestudy – Gegevens verkennen

4 uur

5.1 Gebruik van de dataset

Voorbereiding op een Data wetenschapsproject

Presentatie van het Kaggle-platform en het ophalen van een dataset
Dataverkenning: kolomtypen / ontbrekende of uitschieters, verdeling van de waarden.
Gegevensvisualisatie: grafieken met één en twee variabelen, correlatie tussen kenmerken
Omgaan met variabelen: ontbrekende waarden, uitschieters, omgaan met categorische variabelen en feature engineering

Casestudy – modellering en voorspelling

3 uur

6.1 Een sjabloon maken

Kalibratie van een model

Het samenstellen van een trainings- en validatiedatum, het vaststellen van de score-maatstaf.
Selectie van de te testen modellen en hun training. Prestatiemetingen op de testopstelling.
Modelkalibratie: kruisvalidatie, hyperparameteroptimalisatie (grid search).

6.2 Voorspelling

De prestaties van het model meten

Voorspelling op de testset. Problemen oplossen bij eventuele fouten (bijv. onbekende categorische variabele)
Prestatiemetingen van de voorspellingen op de testset, en vergelijkingen met de statistieken op de trainingsset.
Analyse van de resultaten, vaststelling van het best presterende model, bespreking van mogelijke verbeterpunten.

MACHINELEER