O aprendizado de máquina (machine learning) é hoje uma das técnicas mais eficazes para extrair conhecimento e valor da crescente quantidade de dados coletados nas empresas.

Descubra com um especialista Artefact o Python, graças a diversas bibliotecas especializadas e a uma comunidade ativa, permite que você implemente soluções de aprendizado de máquina que atendam às suas necessidades.

Um curso de três dias (3 x 7 horas) com um percurso de aprendizagem claro e progressivo. Nos certificamos de que você não se perca ao longo do caminho e facilitamos a assimilação dos conhecimentos necessários para o seu avanço.

Objetivos

  • Descubra os principais modelos utilizados em Aprendizado de Máquina
  • Compreender os problemas de classificação, regressão e agrupamento
  • Saber implementar, avaliar e otimizar uma solução de aprendizado de máquina

Saia daqui sabendo como

Ao final deste curso, que combina teoria, exercícios interativos com Python e estudos de caso orientados, você será capaz de:

  1. Conhecer os diferentes tipos de algoritmos de aprendizado de máquina
  2. Compreender o processo de implementação de um projeto de aprendizado de máquina
  3. Implementar um modelo complexo de aprendizado de máquina com ferramentas
  4. Avaliar e otimizar os principais algoritmos de aprendizado de máquina
  5. Fazer mineração de texto
  6. Fazer web scraping

Materiais de treinamento

  • Um livro de fichas de referência que resume os pontos-chave do curso
  • Todos os códigos apresentados durante a sessão

Avaliação

A avaliação dos conhecimentos adquiridos é realizada ao longo do curso, por meio de oficinas e exercícios práticos. No final do curso, é realizada sistematicamente uma avaliação imediata sobre a satisfação dos participantes, e é entregue aos participantes um certificado de formação que indica os objetivos do curso, a natureza, o programa e a duração da ação de formação, bem como a certificação dos conhecimentos adquiridos.

Pré-requisitos

Noções de Python

Público

A avaliação dos conhecimentos adquiridos é realizada ao longo do curso, por meio de oficinas e exercícios práticos. No final do curso, é realizada sistematicamente uma avaliação imediata sobre a satisfação dos participantes, e é entregue aos participantes um certificado de formação que indica os objetivos do curso, a natureza, o programa e a duração da ação de formação, bem como a certificação dos conhecimentos adquiridos.

Materiais necessários

Ordinateur portable récent (<5 ans) avec droits d’administration

Inscreva-se neste curso

Sob demanda



Instrutor principal

Rafaëlle Aygalenq

Rafaëlle Aygalenq

Na Artefact, Rafaëlle trabalhou com sucesso em diversos temas complexos, que vão desde o marketing de dados até a visão computacional, passando pelo processamento de linguagem natural e previsões para diversas empresas.

Em particular, Rafaëlle tem experiência no cálculo do impacto das promoções no contexto da previsão de vendas.

Programa do curso

Aprendizado de máquina: noções básicas

3 horas

1.1 Introdução ao Machine Learning
O que é o Machine Learning?
1. Casos de uso no dia a dia, utilização do ML pelas grandes empresas de hoje
2. O que é o Machine Learning? Definições e resumo das etapas-chave
3. Possíveis casos de uso nos principais setores, suas especificidades e pontos em comum
4. Compromisso entre desempenho e interpretabilidade: é sempre necessário escolher entre os dois?

1.2 Aprendizado supervisionado – Processos de Data
Foco no tipo de algoritmo mais comum: o aprendizado supervisionado
1. Definição da variável-alvo e das variáveis explicativas. Construção do conjunto de dados e preparação das amostras.
2. Escolha e treinamento do modelo: importância das estatísticas descritivas e previsão de variáveis.
3. Como quantificar e apresentar o desempenho de um modelo, escolhendo a métrica adequada às nossas necessidades
Trabalhos práticos

Aprendizado supervisionado

4 horas

2.1 Aprendizado supervisionado – Gestão do sobreaprendizado

Compreender e evitar o excesso de aprendizagem

  1. Aprenda as tendências identificadas nos dados, mas não de cor: os problemas do subaprendizado e do sobreaprendizado
  2. Amostragem de dados: como escolher corretamente o conjunto de treinamento e de teste
  3. Preservar as características dos dados nas amostras: a amostragem estratificada
  4. Gerenciar a presença de valores nunca observados no teste durante a fase de treinamento
  5. Aproveitar melhor os dados disponíveis por meio da validação cruzada
  6. Caso específico: séries temporais

 

2.2 Aprendizado supervisionado – Algoritmos clássicos

Os principais algoritmos do aprendizado supervisionado

  1. Árvores de decisão e os modelos de aprendizado de conjuntos baseados nelas: florestas aleatórias e gradient boosting
  2. As máquinas de vetores de suporte
  3. Otimização de hiperparâmetros: pesquisa por grade e pesquisa aleatória

Aprendizado não supervisionado

3 horas

3.1 Aprendizado não supervisionado

O que fazer quando não há uma variável-alvo?

  1. Metodologia e exemplo de aprendizado não supervisionado: agrupamento com k-means e Dbscan
  2. Combinar as abordagens supervisionadas e não supervisionadas para obter resultados mais úteis.
  3. Um problema clássico não supervisionado: a redução de dimensão. Análise de componentes principais e seleção de características

Análise de texto, web scraping

4 horas

4.1 Mineração de texto

Explorar dados textuais

  1. Esclarecimento da terminologia e dos possíveis casos de uso: NLP, NLU, NLG, NER
  2. Possíveis fontes de dados a serem utilizadas em um projeto
  3. As etapas do pré-processamento de texto: limpeza, tratamento de caracteres especiais, lematização e raicização
  4. Principais algoritmos: TF-IDF, Análise Latente de Dirichlet, Word2Vec, Doc2Vec, …

 

4.2 Web scraping

Extração de dados da web: diferentes abordagens e aplicação prática

  1. Coleta de dados na web: uso de APIs versus web scraping. Custos e limitações das duas abordagens.
  2. Pacotes utilizados: urllib e beautifulsoup. Tarefa prática relacionada
  3. Restrições legais: não temos o direito de fazer tudo o que somos capazes de fazer!

Caso de estudo – Análise de dados

4 horas

5.1 Apropriação do conjunto de dados

Preparação para um projeto de Data

  1. Apresentação da plataforma Kaggle e extração de um conjunto de dados
  2. Exploração de dados: tipos de colunas / valores ausentes ou atípicos, distribuição dos valores.
  3. Visualização de dados: gráficos univariados e bivariados, correlação entre características
  4. Manipulação de variáveis: valores ausentes, outliers, tratamento de variáveis categóricas e engenharia de características

Estudo de caso – modelagem e previsão

3 horas

6.1 Criação de modelo

Calibração de um modelo

  1. Criação de um conjunto de dados de treinamento e validação, definição da métrica de pontuação.
  2. Seleção dos modelos a serem testados e seu treinamento. Medição do desempenho no conjunto de trens.
  3. Calibração do modelo: validação cruzada, ajuste de hiperparâmetros (busca por grade).

 

6.2 Previsão

Avaliar o desempenho do modelo

  1. Previsão no conjunto de teste. Correção de bugs em caso de problemas (por exemplo, variável categórica desconhecida)
  2. Medição do desempenho das previsões no conjunto de teste e comparações com as métricas do conjunto de treinamento.
  3. Análise dos resultados, identificação do modelo mais eficaz, discussão sobre possíveis medidas de melhoria.