Data & ML challenges for 2022

Autor

Bruce Delattre

Data Gerente Cientista da Artefact

Leia nosso artigo sobre

Principais tendências do data e do ML em 2021... e o que elas significam para 2022

O ano de 2021 foi bastante rico em notícias relacionadas ao data e à IA. E o que vem a seguir? Neste artigo, selecionamos algumas histórias e postagens de blog que consideramos perspicazes, demos um passo atrás e tentamos inferir o que esperar desses “sinais” iniciais para 2022.

Este artigo foi possível graças às contribuições de Arthur Derennes, Robin Doumerc, Amale El Hamri, Benoît Goujon, Vincent Luciani e Hanania Ouazan.

1 - Domar a indecência dos modelos de fundação

2021 teve sua cota de novos modelos grandes. Depois do GPT-3 (Brown et al., 2020) no ano anterior, o senhor pode ter ouvido falar sobre CLIP ou, mais recentemente, Gopher. Esses “modelos de fundação”, como Bommasani et al. (2021) (já que sua arquitetura é frequentemente reutilizada, ligeiramente alterada para se adaptar a uma tarefa específica de aprendizado de máquina ou, ainda, porque é frequentemente ajustada por meio do aprendizado por transferência), continuam sua jornada e seu progresso, pois não parece haver nenhum limite para o número de parâmetros otimizados ou data aproveitados para treiná-los. O que é interessante é que esses modelos trazem consigo grandes ganhos de produtividade, A combinação de surgimento e homogeneização.

Vamos começar com a homogeneização: Além disso, a maioria dos modelos que o senhor vê na literatura é adaptada dessas arquiteturas genéricas (pense no BERT, que é onipresente hoje em dia); mas muitas vezes os profissionais também não mudam a arquitetura, Eles apenas ajustam um modelo “grande” disponível para uma tarefa posterior usando a aprendizagem por transferência. Essa “invariância” da arquitetura significa que novos aprimoramentos em um modelo de fundação podem facilmente fluir para todos os seus modelos filhos.

O surgimento, em seguida, vem da maneira como eles lidam com o treinamento do data. Treinados sob autossupervisão, contando com o data bruto que não foi rotulado de maneira específica, eles estão começando a mostrar que podem atender a necessidades para as quais não foram projetados no início (um recurso de “disparo zero”). Tarefas complexas de aprendizado de máquina que sofrem com a baixa disponibilidade do data podem ser mais bem resolvidas com o aproveitamento do “conhecimento” que esses modelos extraem de grandes partes do data. Ainda estamos nos estágios iniciais e os resultados geralmente são mais perturbadores do que bem-sucedidos, mas o GPT-3, por exemplo, aprende diretamente a resolver uma tarefa a partir de um prompt que não viu durante o treinamento (pelo menos, teoricamente, não deveria ter visto...). Esse surgimento de recursos não planejados significa que podemos avançar para mais capaz e de uso geral aprendizado de máquina.

Esses benefícios não vêm sem mudanças estruturais. Como são grandes por natureza, a lista de organizações e empresas capazes de criar esses modelos é restrita. Isso definitivamente deve impulsionar o uso do aprendizado de máquina por meio de APIs de IA proprietárias ou interfaces rápidas, abstraindo o treinamento e a manutenção de modelos básicos para os engenheiros. Por outro lado, como mais modelos dependerão de um único pai, podemos esperar mais regulamentações e investigações éticas e sociais sobre esses modelos (já que as crianças herdam o viés de seu modelo de base). Definitivamente, haverá cada vez mais valor em trabalhar com talentos que conheçam a capacidade, os limites e os vieses ocultos por trás dessas interfaces, de uma forma ou de outra... a começar pela pegada de carbono.

2 - Tornando a IA sustentável

Não é de surpreender que essas novas formas de IA tenham um alto custo em termos de emissões de carbono: Strubell et al. estimam que um único treinamento do BERT em GPUs é aproximadamente equivalente a um voo de NY para SF, enquanto Taddeo et al. avaliam que um único treinamento do GPT-3 emite a mesma quantidade de CO2 que 49 carros durante um ano.

A IA foi vista pela primeira vez como uma ferramenta valiosa para resolver problemas relacionados às mudanças climáticas (veja as muitas ideias do NeurIPS “Tackling climate change with machine learning” 2019 oficina), mas muitos especialistas também estão apontando para sua pegada de carbono. “IA sustentável”, como diz Aimee van Wynsberghe, deve abranger não apenas a IA para a sustentabilidade, mas também a sustentabilidade da IA (que também não deve se limitar a preocupações ecológicas).

Como Abhishek Gupta recomenda, trabalhando em favorecer a IA sustentável significa explorar novas formas de trabalho. O TinyML poderia nos ajudam a evitar o custo de energia da computação sem fio, enquanto conscientização sobre o carbono deve nos ajudar a entender em que local geográfico podemos treinar e implementar melhor nossos modelos de aprendizado de máquina. Um uso mais sensato do hardware e dos serviços existentes também deve ser uma preocupação de todos.

Quaisquer que sejam as soluções usadas para adotar a IA sustentável, esperamos que os tomadores de decisão pensem duas vezes antes de lançar projetos de IA. Isso levanta o desafio de medição aprendizado de máquina impacto ambiental.

O desenvolvimento do aprendizado de máquina, em 2022, deve ser cadenciado por relatórios mais sistemáticos de CO2e junto às métricas de desempenho (veja, por exemplo codecarbono), mais transparência dos fornecedores de cloud (consulte a pegada de carbono do GCP painel de controle) e, acima de tudo, uma reflexão mais profunda sobre os benefícios e os custos de alavancar a IA. Os projetos mais convincentes serão os que adotarem uma abordagem holística: não apenas quantificar a pegada de carbono da computação, mas ponderá-la em relação à eficiência proporcionada por esses novos produtos, Não se esquecendo de levar em conta um possível efeito rebote. Medir a pegada de carbono desses grandes modelos não é suficiente: Devemos levar em conta todo o processo de ponta a ponta: treinamento, implantação, monitoramento e também seu impacto sobre as formas de trabalho das pessoas.

3 - Adicionando um toque zen aos seus MLOPs

Isso é importante à medida que o lado da produção do aprendizado de máquina se torna cada vez mais complexo e sofisticado. Os MLOPs continuaram a crescer particularmente este ano e tiveram seu quinhão de inovações ou conceitos em alta, como Matt Turck explica. Pense simplesmente no lojas de recursos, transmissão e todas as iniciativas DataOps que abordaremos logo abaixo.

Embora 2021 tenha sido, mais uma vez, um ano de expansão para MLOPs, Também começamos a testemunhar uma crítica ponderada contra sua própria. E os argumentos são justos: o cenário dos MLOPs é pouco legível, abrangendo centenas de conceitos e ferramentas, talvez muitas vezes matança excessiva e o Pode-se argumentar razoavelmente que um projeto médio não necessariamente precisará de todos eles. A maioria dos “escala razoável” empresas que não são FAANG (Ou seja. sem grandes equipes técnicas, sem ROI infinito gerado por IA, volumes razoáveis de data) deve manter a simplicidade.

Ainda é difícil prever como esse cenário evoluiráO senhor sabe o que está acontecendo: sem dúvida, devemos esperar o surgimento de mais startups e, ao mesmo tempo, alguma homogeneização e consolidação por parte dos grandes players. As ferramentas sem código ou de baixo código certamente continuarão a crescer e a disponibilizar esses recursos para todos. No entanto, as coisas podem mudar, Também acreditamos muito no surgimento, nos próximos anos, de padrões abertos e de uma “pilha canônica de ML” como a que a AI Infrastructure Alliance pretende construir (Isenção de responsabilidade: o Artefact faz parte da Alliance).

Portanto, desejamos que o senhor adicione um toque de Zen para seus MLOPs em 2022. Isso significa, em primeiro lugar, dar um passo atrás e podando sua pilha para o que realmente importa: a eficiência de seus modelos de aprendizado de máquina e a produtividade de seus cientistas data, por exemplo, com um “agressivamente útil”, como a que a equipe da plataforma Stitch Fix adotou. Então, como a maioria dos antipadrões de um projeto de aprendizado de máquina parecem vir do lado do data, trabalhar na consolidação das bases do seu projeto: como o senhor obtém e processa o próprio data. Como diz Ciro Greco, o data deve de fato se tornar um “cidadão de primeira classe” de sua pilha de produção.

4 - Tornar o data mais um produto do que um simples insumo

“Sempre se tratou do data” deveria declarar 2021, com seu interesse renovado nele, como evidenciado, é claro, pelo Data - IA centrada movimento lançado por Andrew Ng. O data não é apenas o combustível do desempenho do seu modelo de aprendizado de máquina, mas também é onde surgem os problemas, já que o data desequilibrado, tendencioso ou mal rotulado certamente terá um impacto prejudicial nos algoritmos downstream. Para um determinado e fixo modelo, devemos, portanto, ser capazes de ganhar qualidade apenas trabalhando em sua entrada, o data.

O interessante é que esse movimento deve conciliar todos ao longo da cadeia de valor, desde o lado da engenharia do data e seus recentes apelos para estimular a DataOps (e nós mesmos tivemos o prazer de incluir este ano ferramentas como o Grandes expectativas em todos os nossos projetos) para os cientistas e analistas do data, que não terão falta de metodologias para refinar o data em questão (aumento, rotulagem, correção de viés, amostragem...). Obviamente, acreditamos que isso não será possível sem um investimento claro da alta gerência e a aplicação de medidas explícitas de processos do data governance para primeiro identificar e depois estruturar os diferentes domínios e seus proprietários dentro da organização.

Isso, combinado com o fato de que o data será cada vez mais fácil de movimentar graças a iniciativas como O e o aprimoramento contínuo do Compartilhamento data em nossa moderna pilha data permitiria que o empresas obviamente para encontrar novos perspectivas do próprio data, em paralelo ao que a IA já traz em termos de automação e insights.

***

É isso aí! Nesse período de resoluções de Ano Novo, desejamos que o senhor domine a indecência dos modelos de fundação, torne a IA sustentável, dê um toque zen aos seus MLOPs e, por fim, cuide do seu data como um produto, em vez de considerá-lo simplesmente como uma entrada. E o senhor? O que mais surpreendeu o senhor no ano passado? O que o senhor espera que aconteça este ano?

Média Blog por Artefact.

Este artigo foi publicado inicialmente no Medium.com.
Siga-nos em nosso Medium Blog !

Leia nosso artigo

Entre em contato conosco

Desafios do Data e ML para 2022