Aprendizado de Máquina com Python

O aprendizado de máquina (machine learning) é hoje uma das técnicas mais eficazes para extrair conhecimento e valor da crescente quantidade de dados coletados nas empresas.

Descubra com um especialista Artefact o Python, graças a diversas bibliotecas especializadas e a uma comunidade ativa, permite que você implemente soluções de aprendizado de máquina que atendam às suas necessidades.

Um curso de três dias (3 x 7 horas) com um percurso de aprendizagem claro e progressivo. Nos certificamos de que você não se perca ao longo do caminho e facilitamos a assimilação dos conhecimentos necessários para o seu avanço.

Objetivos

Descubra os principais modelos utilizados em Aprendizado de Máquina
Compreender os problemas de classificação, regressão e agrupamento
Saber implementar, avaliar e otimizar uma solução de aprendizado de máquina

Saia daqui sabendo como

Ao final deste curso, que combina teoria, exercícios interativos com Python e estudos de caso orientados, você será capaz de:

Conhecer os diferentes tipos de algoritmos de aprendizado de máquina
Compreender o processo de implementação de um projeto de aprendizado de máquina
Implementar um modelo complexo de aprendizado de máquina com ferramentas
Avaliar e otimizar os principais algoritmos de aprendizado de máquina
Fazer mineração de texto
Fazer web scraping

Materiais de treinamento

Um livro de fichas de referência que resume os pontos-chave do curso
Todos os códigos apresentados durante a sessão

Avaliação

A avaliação dos conhecimentos adquiridos é realizada ao longo do curso, por meio de oficinas e exercícios práticos. No final do curso, é realizada sistematicamente uma avaliação imediata sobre a satisfação dos participantes, e é entregue aos participantes um certificado de formação que indica os objetivos do curso, a natureza, o programa e a duração da ação de formação, bem como a certificação dos conhecimentos adquiridos.

Pré-requisitos

Noções de Python

Público

Materiais necessários

Ordinateur portable récent (<5 ans) avec droits d’administration

Inscreva-se neste curso

Instrutor principal

Rafaëlle Aygalenq

Na Artefact, Rafaëlle trabalhou com sucesso em diversos temas complexos, que vão desde o marketing de dados até a visão computacional, passando pelo processamento de linguagem natural e previsões para diversas empresas.

Em particular, Rafaëlle tem experiência no cálculo do impacto das promoções no contexto da previsão de vendas.

Programa do curso

Módulo 1Módulo 2Módulo 3Módulo 4Módulo 5Módulo 6

Aprendizado de máquina: noções básicas

3 horas

1.1 Introdução ao Machine Learning
O que é o Machine Learning?
1. Casos de uso no dia a dia, utilização do ML pelas grandes empresas de hoje
2. O que é o Machine Learning? Definições e resumo das etapas-chave
3. Possíveis casos de uso nos principais setores, suas especificidades e pontos em comum
4. Compromisso entre desempenho e interpretabilidade: é sempre necessário escolher entre os dois?

1.2 Aprendizado supervisionado – Processos de Data
Foco no tipo de algoritmo mais comum: o aprendizado supervisionado
1. Definição da variável-alvo e das variáveis explicativas. Construção do conjunto de dados e preparação das amostras.
2. Escolha e treinamento do modelo: importância das estatísticas descritivas e previsão de variáveis.
3. Como quantificar e apresentar o desempenho de um modelo, escolhendo a métrica adequada às nossas necessidades
Trabalhos práticos

Aprendizado supervisionado

4 horas

2.1 Aprendizado supervisionado – Gestão do sobreaprendizado

Compreender e evitar o excesso de aprendizagem

Aprenda as tendências identificadas nos dados, mas não de cor: os problemas do subaprendizado e do sobreaprendizado
Amostragem de dados: como escolher corretamente o conjunto de treinamento e de teste
Preservar as características dos dados nas amostras: a amostragem estratificada
Gerenciar a presença de valores nunca observados no teste durante a fase de treinamento
Aproveitar melhor os dados disponíveis por meio da validação cruzada
Caso específico: séries temporais

2.2 Aprendizado supervisionado – Algoritmos clássicos

Os principais algoritmos do aprendizado supervisionado

Árvores de decisão e os modelos de aprendizado de conjuntos baseados nelas: florestas aleatórias e gradient boosting
As máquinas de vetores de suporte
Otimização de hiperparâmetros: pesquisa por grade e pesquisa aleatória

Aprendizado não supervisionado

3 horas

3.1 Aprendizado não supervisionado

O que fazer quando não há uma variável-alvo?

Metodologia e exemplo de aprendizado não supervisionado: agrupamento com k-means e Dbscan
Combinar as abordagens supervisionadas e não supervisionadas para obter resultados mais úteis.
Um problema clássico não supervisionado: a redução de dimensão. Análise de componentes principais e seleção de características

Análise de texto, web scraping

4 horas

4.1 Mineração de texto

Explorar dados textuais

Esclarecimento da terminologia e dos possíveis casos de uso: NLP, NLU, NLG, NER
Possíveis fontes de dados a serem utilizadas em um projeto
As etapas do pré-processamento de texto: limpeza, tratamento de caracteres especiais, lematização e raicização
Principais algoritmos: TF-IDF, Análise Latente de Dirichlet, Word2Vec, Doc2Vec, …

4.2 Web scraping

Extração de dados da web: diferentes abordagens e aplicação prática

Coleta de dados na web: uso de APIs versus web scraping. Custos e limitações das duas abordagens.
Pacotes utilizados: urllib e beautifulsoup. Tarefa prática relacionada
Restrições legais: não temos o direito de fazer tudo o que somos capazes de fazer!

Caso de estudo – Análise de dados

4 horas

5.1 Apropriação do conjunto de dados

Preparação para um projeto de Data

Apresentação da plataforma Kaggle e extração de um conjunto de dados
Exploração de dados: tipos de colunas / valores ausentes ou atípicos, distribuição dos valores.
Visualização de dados: gráficos univariados e bivariados, correlação entre características
Manipulação de variáveis: valores ausentes, outliers, tratamento de variáveis categóricas e engenharia de características

Estudo de caso – modelagem e previsão

3 horas

6.1 Criação de modelo

Calibração de um modelo

Criação de um conjunto de dados de treinamento e validação, definição da métrica de pontuação.
Seleção dos modelos a serem testados e seu treinamento. Medição do desempenho no conjunto de trens.
Calibração do modelo: validação cruzada, ajuste de hiperparâmetros (busca por grade).

6.2 Previsão

Avaliar o desempenho do modelo

Previsão no conjunto de teste. Correção de bugs em caso de problemas (por exemplo, variável categórica desconhecida)
Medição do desempenho das previsões no conjunto de teste e comparações com as métricas do conjunto de treinamento.
Análise dos resultados, identificação do modelo mais eficaz, discussão sobre possíveis medidas de melhoria.

APRENDIZADO DE MÁQUINA