	{"id":65852,"date":"2022-01-31T10:48:03","date_gmt":"2022-01-31T10:48:03","guid":{"rendered":"https:\/\/www.artefact.com\/?post_type=news&#038;p=65852"},"modified":"2024-09-20T17:45:48","modified_gmt":"2024-09-20T16:45:48","slug":"data-ml-challenges-for-2022","status":"publish","type":"blog","link":"https:\/\/www.artefact.com\/br\/blog\/data-ml-challenges-for-2022\/","title":{"rendered":"Desafios do Data e ML para 2022"},"content":{"rendered":"<p><div class=\"fusion-fullwidth fullwidth-box fusion-builder-row-1 fusion-flex-container nonhundred-percent-fullwidth non-hundred-percent-height-scrolling article-author\" style=\"--awb-border-radius-top-left:0px;--awb-border-radius-top-right:0px;--awb-border-radius-bottom-right:0px;--awb-border-radius-bottom-left:0px;--awb-background-color:#ffffff;--awb-flex-wrap:wrap;\" ><div class=\"fusion-builder-row fusion-row fusion-flex-align-items-flex-start fusion-flex-content-wrap\" style=\"max-width:calc( 1440px + 20px );margin-left: calc(-20px \/ 2 );margin-right: calc(-20px \/ 2 );\"><div class=\"fusion-layout-column fusion_builder_column fusion-builder-column-0 fusion_builder_column_1_2 1_2 fusion-flex-column\" style=\"--awb-bg-size:cover;--awb-width-large:50%;--awb-margin-top-large:0px;--awb-spacing-right-large:10px;--awb-margin-bottom-large:0px;--awb-spacing-left-large:10px;--awb-width-medium:50%;--awb-order-medium:0;--awb-spacing-right-medium:10px;--awb-spacing-left-medium:10px;--awb-width-small:100%;--awb-order-small:0;--awb-spacing-right-small:10px;--awb-spacing-left-small:10px;\"><div class=\"fusion-column-wrapper fusion-column-has-shadow fusion-flex-justify-content-flex-start fusion-content-layout-column\"><div class=\"fusion-title title fusion-title-1 fusion-sep-none fusion-title-text fusion-title-size-two\" style=\"--awb-margin-bottom-small:8px;\"><h2 class=\"fusion-title-heading title-heading-left fusion-responsive-typography-calculated\" style=\"margin:0;--fontSize:50;line-height:1.2;\">Autor<\/h2><\/div><img decoding=\"async\" src=\"data:image\/svg+xml,%3Csvg%20xmlns%3D%27http%3A%2F%2Fwww.w3.org%2F2000%2Fsvg%27%20width%3D%27150%27%20height%3D%270%27%20viewBox%3D%270%200%20150%200%27%3E%3Crect%20width%3D%27150%27%20height%3D%270%27%20fill-opacity%3D%220%22%2F%3E%3C%2Fsvg%3E\" data-orig-src=\"https:\/\/www.artefact.com\/\/wp-content\/uploads\/2022\/01\/Bruce-DELATTRE-.png\" alt=\"Image\" class=\"lazyload artefact-elegant-image align-left article-author-image\" style=\"width: 150px; border-radius: 54% 46% 77% 23% \/ 74% 40% 60% 26%; overflow: hidden;\" width=\"150\" height=\"auto\" \/><div class=\"fusion-title title fusion-title-2 fusion-sep-none fusion-title-text fusion-title-size-three article-author-name-title\" style=\"--awb-margin-bottom-small:8px;\"><h3 class=\"fusion-title-heading title-heading-left fusion-responsive-typography-calculated\" style=\"margin:0;--fontSize:20;line-height:1.2;\">Bruce Delattre<\/h3><\/div><div class=\"fusion-text fusion-text-1 article-author-description\"><p>Data Gerente Cientista da Artefact<\/p>\n<\/div><\/div><\/div><\/div><\/div><div class=\"fusion-fullwidth fullwidth-box fusion-builder-row-2 fusion-flex-container nonhundred-percent-fullwidth non-hundred-percent-height-scrolling\" style=\"--awb-border-radius-top-left:0px;--awb-border-radius-top-right:0px;--awb-border-radius-bottom-right:0px;--awb-border-radius-bottom-left:0px;--awb-margin-top:40px;--awb-margin-bottom:40px;--awb-flex-wrap:wrap;\" ><div class=\"fusion-builder-row fusion-row fusion-flex-align-items-center fusion-flex-justify-content-center fusion-flex-content-wrap\" style=\"max-width:calc( 1440px + 20px );margin-left: calc(-20px \/ 2 );margin-right: calc(-20px \/ 2 );\"><div class=\"fusion-layout-column fusion_builder_column fusion-builder-column-1 fusion_builder_column_1_1 1_1 fusion-flex-column fusion-flex-align-self-center fusion-column-inner-bg-wrapper\" style=\"--awb-padding-top:20px;--awb-padding-right:20px;--awb-padding-bottom:20px;--awb-padding-left:20px;--awb-overflow:hidden;--awb-inner-bg-size:cover;--awb-border-color:rgba(10,17,40,0.1);--awb-border-top:1px;--awb-border-right:1px;--awb-border-bottom:1px;--awb-border-left:1px;--awb-border-style:solid;--awb-border-radius:4px 4px 4px 4px;--awb-inner-bg-border-radius:4px 4px 4px 4px;--awb-inner-bg-overflow:hidden;--awb-width-large:100%;--awb-margin-top-large:0px;--awb-spacing-right-large:10px;--awb-margin-bottom-large:0px;--awb-spacing-left-large:10px;--awb-width-medium:100%;--awb-order-medium:0;--awb-spacing-right-medium:10px;--awb-spacing-left-medium:10px;--awb-width-small:100%;--awb-order-small:0;--awb-spacing-right-small:10px;--awb-spacing-left-small:10px;\"><span class=\"fusion-column-inner-bg hover-type-none\"><a class=\"fusion-column-anchor\" href=\"https:\/\/medium.com\/artefact-engineering-and-data-science\/data-ml-challenges-for-2022-a066a4c9e88e\" rel=\"noopener noreferrer\" target=\"_blank\"><span class=\"fusion-column-inner-bg-image\"><\/span><\/a><\/span><div class=\"fusion-column-wrapper fusion-column-has-shadow fusion-flex-justify-content-center fusion-content-layout-row fusion-flex-align-items-center\"><div class=\"fusion-text fusion-text-2\"><p><u>Leia nosso artigo sobre<\/u><\/p>\n<\/div><div class=\"fusion-image-element\" style=\"--awb-margin-right:20px;--awb-margin-left:20px;--awb-max-width:150px;--awb-caption-title-font-family:var(--h2_typography-font-family);--awb-caption-title-font-weight:var(--h2_typography-font-weight);--awb-caption-title-font-style:var(--h2_typography-font-style);--awb-caption-title-size:var(--h2_typography-font-size);--awb-caption-title-transform:var(--h2_typography-text-transform);--awb-caption-title-line-height:var(--h2_typography-line-height);--awb-caption-title-letter-spacing:var(--h2_typography-letter-spacing);\"><span class=\"fusion-imageframe imageframe-none imageframe-1 hover-type-none\"><img decoding=\"async\" width=\"4000\" height=\"992\" title=\"M\u00e9dio Blog\" src=\"https:\/\/www.artefact.com\/\/wp-content\/uploads\/2021\/04\/Medium-Blog.png\" data-orig-src=\"https:\/\/www.artefact.com\/\/wp-content\/uploads\/2021\/04\/Medium-Blog.png\" alt class=\"lazyload img-responsive wp-image-60582\" srcset=\"data:image\/svg+xml,%3Csvg%20xmlns%3D%27http%3A%2F%2Fwww.w3.org%2F2000%2Fsvg%27%20width%3D%274000%27%20height%3D%27992%27%20viewBox%3D%270%200%204000%20992%27%3E%3Crect%20width%3D%274000%27%20height%3D%27992%27%20fill-opacity%3D%220%22%2F%3E%3C%2Fsvg%3E\" data-srcset=\"https:\/\/www.artefact.com\/\/wp-content\/uploads\/2021\/04\/Medium-Blog-200x50.png 200w, https:\/\/www.artefact.com\/\/wp-content\/uploads\/2021\/04\/Medium-Blog-400x99.png 400w, https:\/\/www.artefact.com\/\/wp-content\/uploads\/2021\/04\/Medium-Blog-600x149.png 600w, https:\/\/www.artefact.com\/\/wp-content\/uploads\/2021\/04\/Medium-Blog-800x198.png 800w, https:\/\/www.artefact.com\/\/wp-content\/uploads\/2021\/04\/Medium-Blog-1200x298.png 1200w, https:\/\/www.artefact.com\/\/wp-content\/uploads\/2021\/04\/Medium-Blog.png 4000w\" data-sizes=\"auto\" data-orig-sizes=\"(max-width: 640px) 100vw, 4000px\" \/><\/span><\/div><div class=\"fusion-text fusion-text-3\"><p>.<\/p>\n<\/div><\/div><\/div><\/div><\/div><div class=\"fusion-fullwidth fullwidth-box fusion-builder-row-3 fusion-flex-container nonhundred-percent-fullwidth non-hundred-percent-height-scrolling\" style=\"--awb-border-radius-top-left:0px;--awb-border-radius-top-right:0px;--awb-border-radius-bottom-right:0px;--awb-border-radius-bottom-left:0px;--awb-flex-wrap:wrap;\" ><div class=\"fusion-builder-row fusion-row fusion-flex-align-items-flex-start fusion-flex-content-wrap\" style=\"max-width:calc( 1440px + 20px );margin-left: calc(-20px \/ 2 );margin-right: calc(-20px \/ 2 );\"><div class=\"fusion-layout-column fusion_builder_column fusion-builder-column-2 fusion_builder_column_1_1 1_1 fusion-flex-column\" style=\"--awb-bg-size:cover;--awb-width-large:100%;--awb-margin-top-large:0px;--awb-spacing-right-large:10px;--awb-margin-bottom-large:0px;--awb-spacing-left-large:10px;--awb-width-medium:100%;--awb-order-medium:0;--awb-spacing-right-medium:10px;--awb-spacing-left-medium:10px;--awb-width-small:100%;--awb-order-small:0;--awb-spacing-right-small:10px;--awb-spacing-left-small:10px;\"><div class=\"fusion-column-wrapper fusion-column-has-shadow fusion-flex-justify-content-flex-start fusion-content-layout-column\"><div class=\"fusion-text fusion-text-4 description\"><p>Principais tend\u00eancias do data e do ML em 2021... e o que elas significam para 2022<\/p>\n<p>O ano de 2021 foi bastante rico em not\u00edcias relacionadas ao data e \u00e0 IA. E o que vem a seguir? Neste artigo, selecionamos algumas hist\u00f3rias e postagens de blog que consideramos perspicazes, demos um passo atr\u00e1s e tentamos inferir o que esperar desses \u201csinais\u201d iniciais para 2022.<\/p>\n<p>Este artigo foi poss\u00edvel gra\u00e7as \u00e0s contribui\u00e7\u00f5es de Arthur Derennes, Robin Doumerc, Amale El Hamri, Beno\u00eet Goujon, Vincent Luciani e Hanania Ouazan.<\/p>\n<\/div><\/div><\/div><\/div><\/div><article class=\"fusion-fullwidth fullwidth-box fusion-builder-row-4 fusion-flex-container nonhundred-percent-fullwidth non-hundred-percent-height-scrolling\" style=\"--awb-border-radius-top-left:0px;--awb-border-radius-top-right:0px;--awb-border-radius-bottom-right:0px;--awb-border-radius-bottom-left:0px;--awb-flex-wrap:wrap;\" ><div class=\"fusion-builder-row fusion-row fusion-flex-align-items-flex-start fusion-flex-justify-content-center fusion-flex-content-wrap\" style=\"max-width:calc( 1440px + 20px );margin-left: calc(-20px \/ 2 );margin-right: calc(-20px \/ 2 );\"><div class=\"fusion-layout-column fusion_builder_column fusion-builder-column-3 fusion_builder_column_1_1 1_1 fusion-flex-column\" style=\"--awb-bg-size:cover;--awb-width-large:100%;--awb-margin-top-large:0px;--awb-spacing-right-large:10px;--awb-margin-bottom-large:0px;--awb-spacing-left-large:10px;--awb-width-medium:100%;--awb-order-medium:0;--awb-spacing-right-medium:10px;--awb-spacing-left-medium:10px;--awb-width-small:100%;--awb-order-small:0;--awb-spacing-right-small:10px;--awb-spacing-left-small:10px;\"><div class=\"fusion-column-wrapper fusion-column-has-shadow fusion-flex-justify-content-flex-start fusion-content-layout-column\"><div class=\"fusion-title title fusion-title-3 fusion-sep-none fusion-title-text fusion-title-size-two\" style=\"--awb-margin-bottom-small:8px;\"><h2 class=\"fusion-title-heading title-heading-left fusion-responsive-typography-calculated\" style=\"margin:0;--fontSize:50;line-height:1.2;\">1 - Domar a indec\u00eancia dos modelos de funda\u00e7\u00e3o<\/h2><\/div><div class=\"fusion-text fusion-text-5\"><p>2021 teve sua cota de novos modelos grandes. Depois do GPT-3 (<a href=\"https:\/\/arxiv.org\/abs\/2005.14165\" target=\"_blank\" rel=\"noopener\">Brown et al., 2020<\/a>) no ano anterior, o senhor pode ter ouvido falar sobre <a href=\"https:\/\/openai.com\/blog\/clip\/\" target=\"_blank\" rel=\"noopener\">CLIP<\/a> ou, mais recentemente, <a href=\"https:\/\/deepmind.com\/blog\/article\/language-modelling-at-scale\" target=\"_blank\" rel=\"noopener\">Gopher<\/a>. Esses \u201cmodelos de funda\u00e7\u00e3o\u201d, como <a href=\"https:\/\/arxiv.org\/abs\/2108.07258\" target=\"_blank\" rel=\"noopener\">Bommasani et al. (2021)<\/a> (j\u00e1 que sua arquitetura \u00e9 frequentemente reutilizada, ligeiramente alterada para se adaptar a uma tarefa espec\u00edfica de aprendizado de m\u00e1quina ou, ainda, porque \u00e9 frequentemente ajustada por meio do aprendizado por transfer\u00eancia), continuam sua jornada e seu progresso, pois n\u00e3o parece haver nenhum limite para o n\u00famero de par\u00e2metros otimizados ou data aproveitados para trein\u00e1-los. <strong>O que \u00e9 interessante \u00e9 que esses modelos trazem consigo grandes ganhos de produtividade<\/strong>, A combina\u00e7\u00e3o de <em>surgimento<\/em> e <em>homogeneiza\u00e7\u00e3o<\/em>.<\/p>\n<\/div><div class=\"fusion-text fusion-text-6\"><p>Vamos come\u00e7ar com a homogeneiza\u00e7\u00e3o: <strong>Al\u00e9m disso, a maioria dos modelos que o senhor v\u00ea na literatura \u00e9 adaptada dessas arquiteturas gen\u00e9ricas <\/strong>(pense no BERT, que \u00e9 onipresente hoje em dia); <strong>mas muitas vezes os profissionais tamb\u00e9m n\u00e3o mudam a arquitetura<\/strong>, Eles apenas ajustam um modelo \u201cgrande\u201d dispon\u00edvel para uma tarefa posterior usando a aprendizagem por transfer\u00eancia. Essa \u201cinvari\u00e2ncia\u201d da arquitetura significa que <strong>novos aprimoramentos em um modelo de funda\u00e7\u00e3o podem facilmente fluir para todos os seus modelos filhos<\/strong>.<\/p>\n<\/div><div class=\"fusion-text fusion-text-7\"><p>O surgimento, em seguida, vem da maneira como eles lidam com o treinamento do data. Treinados sob autossupervis\u00e3o, contando com o data bruto que n\u00e3o foi rotulado de maneira espec\u00edfica, eles est\u00e3o come\u00e7ando a mostrar que podem atender a necessidades para as quais n\u00e3o foram projetados no in\u00edcio (um recurso de \u201cdisparo zero\u201d). <strong>Tarefas complexas de aprendizado de m\u00e1quina que sofrem com a baixa disponibilidade do data podem ser mais bem resolvidas com o aproveitamento do \u201cconhecimento\u201d que esses modelos extraem de grandes partes do data<\/strong>. Ainda estamos nos est\u00e1gios iniciais e os resultados geralmente s\u00e3o mais perturbadores do que bem-sucedidos, mas o GPT-3, por exemplo, aprende diretamente a resolver uma tarefa a partir de um prompt que n\u00e3o viu durante o treinamento (<em>pelo menos, teoricamente, n\u00e3o deveria ter visto...<\/em>). <strong>Esse surgimento de recursos n\u00e3o planejados significa que podemos avan\u00e7ar para mais <\/strong><a href=\"https:\/\/ai.googleblog.com\/2022\/01\/google-research-themes-from-2021-and.html\" target=\"_blank\" rel=\"noopener\">capaz e de uso geral<\/a><strong> aprendizado de m\u00e1quina. <\/strong><\/p>\n<\/div><div class=\"fusion-text fusion-text-8\"><p>Esses benef\u00edcios n\u00e3o v\u00eam sem mudan\u00e7as estruturais. Como s\u00e3o grandes por natureza, a lista de organiza\u00e7\u00f5es e empresas capazes de criar esses modelos \u00e9 restrita. <strong>Isso definitivamente deve impulsionar o uso do aprendizado de m\u00e1quina por meio de APIs de IA propriet\u00e1rias ou interfaces r\u00e1pidas, abstraindo o treinamento e a manuten\u00e7\u00e3o de modelos b\u00e1sicos para os engenheiros<\/strong>. Por outro lado, como mais modelos depender\u00e3o de um \u00fanico pai, podemos esperar mais regulamenta\u00e7\u00f5es e investiga\u00e7\u00f5es \u00e9ticas e sociais sobre esses modelos (j\u00e1 que as crian\u00e7as herdam o vi\u00e9s de seu modelo de base). <strong>Definitivamente, haver\u00e1 cada vez mais valor em trabalhar com talentos que conhe\u00e7am a capacidade, os limites e os vieses ocultos por tr\u00e1s dessas interfaces, de uma forma ou de outra... a come\u00e7ar pela pegada de carbono.<\/strong><\/p>\n<\/div><div class=\"fusion-title title fusion-title-4 fusion-sep-none fusion-title-text fusion-title-size-two\" style=\"--awb-margin-bottom-small:8px;\"><h2 class=\"fusion-title-heading title-heading-left fusion-responsive-typography-calculated\" style=\"margin:0;--fontSize:50;line-height:1.2;\">2 - Tornando a IA sustent\u00e1vel<\/h2><\/div><div class=\"fusion-text fusion-text-9\"><p><strong>N\u00e3o \u00e9 de surpreender que essas novas formas de IA tenham um alto custo em termos de emiss\u00f5es de carbono<\/strong>: <a href=\"https:\/\/arxiv.org\/pdf\/1906.02243.pdf\" target=\"_blank\" rel=\"noopener\">Strubell et al.<\/a> estimam que um \u00fanico treinamento do BERT em GPUs \u00e9 aproximadamente equivalente a um voo de NY para SF, enquanto <a href=\"https:\/\/papers.ssrn.com\/sol3\/papers.cfm?abstract_id=3873881\" target=\"_blank\" rel=\"noopener\">Taddeo et al.<\/a> avaliam que um \u00fanico treinamento do GPT-3 emite a mesma quantidade de CO2 que 49 carros durante um ano.<\/p>\n<p>A IA foi vista pela primeira vez como uma ferramenta valiosa para resolver problemas relacionados \u00e0s mudan\u00e7as clim\u00e1ticas (veja as muitas ideias do NeurIPS \u201cTackling climate change with machine learning\u201d 2019 <a href=\"https:\/\/www.climatechange.ai\/events\/neurips2019\" target=\"_blank\" rel=\"noopener\">oficina<\/a>), mas muitos especialistas tamb\u00e9m est\u00e3o apontando para sua pegada de carbono. <strong>\u201c<a href=\"https:\/\/link.springer.com\/article\/10.1007\/s43681-021-00043-6\" target=\"_blank\" rel=\"noopener\">IA sustent\u00e1vel<\/a>\u201d, como diz Aimee van Wynsberghe, deve abranger n\u00e3o apenas a IA para a sustentabilidade, mas tamb\u00e9m a sustentabilidade da IA<\/strong> (que tamb\u00e9m n\u00e3o deve se limitar a preocupa\u00e7\u00f5es ecol\u00f3gicas).<\/p>\n<\/div><div class=\"fusion-text fusion-text-10\"><p>Como Abhishek Gupta <a href=\"https:\/\/thegradient.pub\/sustainable-ai\/\" target=\"_blank\" rel=\"noopener\">recomenda<\/a>, trabalhando em <strong>favorecer a IA sustent\u00e1vel significa explorar novas formas de trabalho<\/strong>. O TinyML poderia <a href=\"https:\/\/arxiv.org\/pdf\/2003.04821.pdf\" target=\"_blank\" rel=\"noopener\">nos ajudam a evitar o custo de energia da computa\u00e7\u00e3o sem fio<\/a>, enquanto <a href=\"https:\/\/electricitymap.org\/\" target=\"_blank\" rel=\"noopener\">conscientiza\u00e7\u00e3o sobre o carbono<\/a> deve nos ajudar a entender em que local geogr\u00e1fico podemos treinar e implementar melhor nossos modelos de aprendizado de m\u00e1quina. Um uso mais sensato do hardware e dos servi\u00e7os existentes tamb\u00e9m deve ser uma preocupa\u00e7\u00e3o de todos.<\/p>\n<p><strong>Quaisquer que sejam as solu\u00e7\u00f5es usadas para adotar a IA sustent\u00e1vel, esperamos que os tomadores de decis\u00e3o pensem duas vezes antes de lan\u00e7ar projetos de IA<\/strong>. Isso levanta o desafio de <strong>medi\u00e7\u00e3o<\/strong> aprendizado de m\u00e1quina impacto ambiental.<\/p>\n<\/div><div class=\"fusion-text fusion-text-11\"><p>O desenvolvimento do aprendizado de m\u00e1quina, em 2022, deve ser cadenciado por relat\u00f3rios mais sistem\u00e1ticos de CO2e junto \u00e0s m\u00e9tricas de desempenho (veja, por exemplo <a href=\"https:\/\/github.com\/mlco2\/codecarbon\" target=\"_blank\" rel=\"noopener\">codecarbono<\/a>), mais transpar\u00eancia dos fornecedores de cloud (consulte a pegada de carbono do GCP <a href=\"https:\/\/cloud.google.com\/carbon-footprint\" target=\"_blank\" rel=\"noopener\">painel de controle<\/a>) e, acima de tudo, uma reflex\u00e3o mais profunda sobre os benef\u00edcios e os custos de alavancar a IA. <strong>Os projetos mais convincentes ser\u00e3o os que adotarem uma abordagem hol\u00edstica: n\u00e3o apenas quantificar a pegada de carbono da computa\u00e7\u00e3o, mas ponder\u00e1-la em rela\u00e7\u00e3o \u00e0 efici\u00eancia proporcionada por esses novos produtos<\/strong>, N\u00e3o se esquecendo de levar em conta um poss\u00edvel <a href=\"https:\/\/en.wikipedia.org\/wiki\/Rebound_effect_(conservation)\" target=\"_blank\" rel=\"noopener\">efeito rebote<\/a>. Medir a pegada de carbono desses grandes modelos n\u00e3o \u00e9 suficiente: <strong>Devemos levar em conta todo o processo de ponta a ponta: treinamento, implanta\u00e7\u00e3o, monitoramento e tamb\u00e9m seu impacto sobre as formas de trabalho das pessoas<\/strong>.<\/p>\n<\/div><div class=\"fusion-title title fusion-title-5 fusion-sep-none fusion-title-text fusion-title-size-two\" style=\"--awb-margin-bottom-small:8px;\"><h2 class=\"fusion-title-heading title-heading-left fusion-responsive-typography-calculated\" style=\"margin:0;--fontSize:50;line-height:1.2;\">3 - Adicionando um toque zen aos seus MLOPs<\/h2><\/div><div class=\"fusion-text fusion-text-12\"><p><strong>Isso \u00e9 importante \u00e0 medida que o lado da produ\u00e7\u00e3o do aprendizado de m\u00e1quina se torna cada vez mais complexo e sofisticado<\/strong>. Os MLOPs continuaram a crescer particularmente este ano e tiveram seu quinh\u00e3o de inova\u00e7\u00f5es ou conceitos em alta, como Matt Turck <a href=\"https:\/\/mattturck.com\/data2021\/\" target=\"_blank\" rel=\"noopener\">explica<\/a>. Pense simplesmente no <a href=\"https:\/\/data-notes.co\/what-i-learned-from-attending-tectons-apply-conference-85635a03ff2e\" target=\"_blank\" rel=\"noopener\">lojas de recursos<\/a>, <a href=\"https:\/\/www.reuters.com\/business\/confluent-targets-over-8-bln-valuation-us-ipo-2021-06-16\/\" target=\"_blank\" rel=\"noopener\">transmiss\u00e3o<\/a> e todas as iniciativas DataOps que abordaremos logo abaixo.<\/p>\n<p>Embora 2021 tenha sido, mais uma vez, um ano de expans\u00e3o para <a href=\"https:\/\/ml-ops.org\/content\/motivation#mlops-definition\" target=\"_blank\" rel=\"noopener\">MLOPs<\/a>, Tamb\u00e9m come\u00e7amos a <strong>testemunhar uma cr\u00edtica ponderada contra sua pr\u00f3pria<\/strong>. E os argumentos s\u00e3o justos: o cen\u00e1rio dos MLOPs \u00e9 <a href=\"https:\/\/mattturck.com\/data2021\/\" target=\"_blank\" rel=\"noopener\">pouco leg\u00edvel,<\/a> abrangendo centenas de conceitos e ferramentas, talvez muitas vezes <a href=\"https:\/\/laszlo.substack.com\/p\/whats-wrong-with-mlops\" target=\"_blank\" rel=\"noopener\">matan\u00e7a excessiva<\/a> e o <strong>Pode-se argumentar razoavelmente que um projeto m\u00e9dio <a href=\"https:\/\/en.wikipedia.org\/wiki\/You_aren%27t_gonna_need_it\" target=\"_blank\" rel=\"noopener\">n\u00e3o necessariamente precisar\u00e1 de todos eles<\/a><\/strong>. A maioria dos \u201c<a href=\"https:\/\/towardsdatascience.com\/mlops-without-much-ops-d17f502f76e8\" target=\"_blank\" rel=\"noopener\">escala razo\u00e1vel<\/a>\u201d empresas que n\u00e3o s\u00e3o <a href=\"https:\/\/towardsdatascience.com\/ml-and-mlops-at-a-reasonable-scale-31d2c0782d9c\" target=\"_blank\" rel=\"noopener\">FAANG<\/a> (<em>Ou seja.<\/em> sem grandes equipes t\u00e9cnicas, sem ROI infinito gerado por IA, volumes razo\u00e1veis de data) <strong>deve manter a simplicidade<\/strong>.<\/p>\n<\/div><div class=\"fusion-text fusion-text-13\"><p><strong>Ainda \u00e9 dif\u00edcil prever como esse cen\u00e1rio evoluir\u00e1<\/strong>O senhor sabe o que est\u00e1 acontecendo: sem d\u00favida, devemos esperar o surgimento de mais startups e, ao mesmo tempo, alguma homogeneiza\u00e7\u00e3o e consolida\u00e7\u00e3o por parte dos grandes players. As ferramentas sem c\u00f3digo ou de baixo c\u00f3digo certamente continuar\u00e3o a crescer e a disponibilizar esses recursos para todos. No entanto, as coisas podem mudar, <strong>Tamb\u00e9m acreditamos muito no surgimento, nos pr\u00f3ximos anos, de padr\u00f5es abertos e de uma \u201cpilha can\u00f4nica de ML\u201d<\/strong> como a que a AI Infrastructure Alliance pretende <a href=\"https:\/\/towardsdatascience.com\/ml-and-mlops-at-a-reasonable-scale-31d2c0782d9c\" target=\"_blank\" rel=\"noopener\">construir<\/a> (Isen\u00e7\u00e3o de responsabilidade: o Artefact faz parte da Alliance).<\/p>\n<\/div><div class=\"fusion-text fusion-text-14\"><p><strong>Portanto, desejamos que o senhor adicione um toque de <a href=\"https:\/\/en.wikipedia.org\/wiki\/Zen\" target=\"_blank\" rel=\"noopener\">Zen<\/a> para seus MLOPs em 2022<\/strong>. Isso significa, em primeiro lugar, dar um passo atr\u00e1s e <strong>podando sua pilha para o que realmente importa<\/strong>: a efici\u00eancia de seus modelos de aprendizado de m\u00e1quina e a produtividade de seus cientistas data, por exemplo, com um \u201c<a href=\"https:\/\/multithreaded.stitchfix.com\/blog\/2021\/02\/09\/aggressively-helpful-platform-teams\/\" target=\"_blank\" rel=\"noopener\">agressivamente \u00fatil<\/a>\u201d, como a que a equipe da plataforma Stitch Fix adotou. Ent\u00e3o, como a maioria dos <a href=\"https:\/\/arxiv.org\/pdf\/2107.00079.pdf\" target=\"_blank\" rel=\"noopener\">antipadr\u00f5es<\/a> de um projeto de aprendizado de m\u00e1quina parecem vir do lado do data,<strong> trabalhar na consolida\u00e7\u00e3o das bases do seu projeto: como o senhor obt\u00e9m e processa o pr\u00f3prio data<\/strong>. Como diz Ciro Greco, o data deve de fato se tornar um \u201c<a href=\"https:\/\/towardsdatascience.com\/hagakure-for-mlops-the-four-pillars-of-ml-at-reasonable-scale-5a09bd073da\" target=\"_blank\" rel=\"noopener\">cidad\u00e3o de primeira classe<\/a>\u201d de sua pilha de produ\u00e7\u00e3o.<\/p>\n<\/div><div class=\"fusion-title title fusion-title-6 fusion-sep-none fusion-title-text fusion-title-size-two\" style=\"--awb-margin-bottom-small:8px;\"><h2 class=\"fusion-title-heading title-heading-left fusion-responsive-typography-calculated\" style=\"margin:0;--fontSize:50;line-height:1.2;\">4 - Tornar o data mais um produto do que um simples insumo<\/h2><\/div><div class=\"fusion-text fusion-text-15\"><p>\u201cSempre se tratou do data\u201d deveria declarar 2021, com seu interesse renovado nele, como evidenciado, \u00e9 claro, pelo <a href=\"https:\/\/www.forbes.com\/sites\/gilpress\/2021\/06\/16\/andrew-ng-launches-a-campaign-for-data-centric-ai\/?sh=3b1e4c3c74f5\" target=\"_blank\" rel=\"noopener\">Data - IA centrada<\/a> movimento lan\u00e7ado por Andrew Ng. <strong>O data n\u00e3o \u00e9 apenas o combust\u00edvel do desempenho do seu modelo de aprendizado de m\u00e1quina, mas tamb\u00e9m \u00e9 onde surgem os problemas, j\u00e1 que o data desequilibrado, tendencioso ou mal rotulado certamente ter\u00e1 um impacto prejudicial nos algoritmos downstream<\/strong>. Para um determinado e fixo modelo, devemos, portanto, ser capazes de ganhar qualidade apenas trabalhando em sua entrada, o data.<\/p>\n<\/div><div class=\"fusion-text fusion-text-16\"><p>O interessante \u00e9 que esse movimento deve conciliar todos ao longo da cadeia de valor, desde o lado da engenharia do data e seus recentes apelos para estimular a <a href=\"https:\/\/databand.ai\/data-observability\/\" target=\"_blank\" rel=\"noopener\">DataOps<\/a> (e n\u00f3s mesmos tivemos o prazer de incluir este ano ferramentas como o <a href=\"https:\/\/greatexpectations.io\/\" target=\"_blank\" rel=\"noopener\">Grandes expectativas<\/a> em todos os nossos projetos) para os cientistas e analistas do data, que n\u00e3o ter\u00e3o falta de <a href=\"https:\/\/datacentricai.org\/\" target=\"_blank\" rel=\"noopener\">metodologias<\/a> para refinar o data em quest\u00e3o (aumento, rotulagem, corre\u00e7\u00e3o de vi\u00e9s, amostragem...). <strong>Obviamente, acreditamos que isso n\u00e3o ser\u00e1 poss\u00edvel sem um investimento claro da alta ger\u00eancia e a aplica\u00e7\u00e3o de medidas expl\u00edcitas de <a href=\"https:\/\/marketing.artefact.com\/l\/597421\/2021-12-20\/hwlcq2?utm_source=ebook&amp;utm_medium=website&amp;utm_campaign=2021-11-FR-Ebook-Data-Governance\" target=\"_blank\" rel=\"noopener\">processos<\/a> do data governance para primeiro identificar e depois estruturar os diferentes dom\u00ednios e seus propriet\u00e1rios dentro da organiza\u00e7\u00e3o. <\/strong><\/p>\n<\/div><div class=\"fusion-text fusion-text-17\"><p>Isso, combinado com o fato de que o data ser\u00e1 cada vez mais f\u00e1cil de movimentar gra\u00e7as a iniciativas como <a href=\"https:\/\/consent.yahoo.com\/v2\/collectConsent?sessionId=3_cc-session_7581c65a-5999-46c3-9a14-3b8bc2674d2f\" target=\"_blank\" rel=\"noopener\">O<\/a> e o aprimoramento cont\u00ednuo do <a href=\"https:\/\/databricks.com\/blog\/2021\/05\/26\/introducing-delta-sharing-an-open-protocol-for-secure-data-sharing.html\" target=\"_blank\" rel=\"noopener\">Compartilhamento data<\/a> em nossa moderna pilha data permitiria que o<strong> empresas obviamente para encontrar novos <a href=\"https:\/\/towardsdatascience.com\/the-future-of-the-modern-data-stack-2de175b3c809\" target=\"_blank\" rel=\"noopener\">perspectivas<\/a> do pr\u00f3prio data<\/strong>, em paralelo ao que a IA j\u00e1 traz em termos de automa\u00e7\u00e3o e insights.<\/p>\n<\/div><div class=\"fusion-text fusion-text-18\"><p>***<\/p>\n<p>\u00c9 isso a\u00ed! Nesse per\u00edodo de resolu\u00e7\u00f5es de Ano Novo, desejamos que o senhor domine a indec\u00eancia dos modelos de funda\u00e7\u00e3o, torne a IA sustent\u00e1vel, d\u00ea um toque zen aos seus MLOPs e, por fim, cuide do seu data como um produto, em vez de consider\u00e1-lo simplesmente como uma entrada. E o senhor?<strong> O que mais surpreendeu o senhor no ano passado? O que o senhor espera que aconte\u00e7a este ano?\u00a0<\/strong><\/p>\n<\/div><\/div><\/div><\/div><\/article><div class=\"fusion-fullwidth fullwidth-box fusion-builder-row-5 fusion-flex-container nonhundred-percent-fullwidth non-hundred-percent-height-scrolling\" style=\"--awb-border-radius-top-left:0px;--awb-border-radius-top-right:0px;--awb-border-radius-bottom-right:0px;--awb-border-radius-bottom-left:0px;--awb-margin-top:40px;--awb-margin-bottom:40px;--awb-flex-wrap:wrap;\" ><div class=\"fusion-builder-row fusion-row fusion-flex-align-items-center fusion-flex-justify-content-center fusion-flex-content-wrap\" style=\"max-width:calc( 1440px + 20px );margin-left: calc(-20px \/ 2 );margin-right: calc(-20px \/ 2 );\"><div class=\"fusion-layout-column fusion_builder_column fusion-builder-column-4 fusion_builder_column_1_1 1_1 fusion-flex-column fusion-flex-align-self-center fusion-column-inner-bg-wrapper\" style=\"--awb-padding-top:40px;--awb-padding-right:40px;--awb-padding-bottom:40px;--awb-padding-left:40px;--awb-overflow:hidden;--awb-inner-bg-position:left center;--awb-inner-bg-size:cover;--awb-border-color:rgba(10,17,40,0.1);--awb-border-style:solid;--awb-border-radius:4px 4px 4px 4px;--awb-inner-bg-border-radius:4px 4px 4px 4px;--awb-inner-bg-overflow:hidden;--awb-width-large:100%;--awb-margin-top-large:0px;--awb-spacing-right-large:10px;--awb-margin-bottom-large:0px;--awb-spacing-left-large:10px;--awb-width-medium:100%;--awb-order-medium:0;--awb-spacing-right-medium:10px;--awb-spacing-left-medium:10px;--awb-width-small:100%;--awb-order-small:0;--awb-spacing-right-small:10px;--awb-spacing-left-small:10px;\"><span class=\"fusion-column-inner-bg hover-type-none\"><a class=\"fusion-column-anchor\" href=\"https:\/\/medium.com\/artefact-engineering-and-data-science\/data-ml-challenges-for-2022-a066a4c9e88e\" target=\"_blank\" rel=\"noopener\"><span class=\"fusion-column-inner-bg-image lazyload\" data-bg=\"https:\/\/www.artefact.com\/\/wp-content\/uploads\/2021\/03\/background.jpg\"><\/span><\/a><\/span><div class=\"fusion-column-wrapper fusion-column-has-shadow fusion-flex-justify-content-center fusion-content-layout-column fusion-column-has-bg-image\" data-bg-url=\"https:\/\/www.artefact.com\/\/wp-content\/uploads\/2021\/03\/background.jpg\"><div class=\"fusion-image-element\" style=\"text-align:center;--awb-margin-right:20px;--awb-margin-left:20px;--awb-max-width:150px;--awb-caption-title-font-family:var(--h2_typography-font-family);--awb-caption-title-font-weight:var(--h2_typography-font-weight);--awb-caption-title-font-style:var(--h2_typography-font-style);--awb-caption-title-size:var(--h2_typography-font-size);--awb-caption-title-transform:var(--h2_typography-text-transform);--awb-caption-title-line-height:var(--h2_typography-line-height);--awb-caption-title-letter-spacing:var(--h2_typography-letter-spacing);\"><span class=\"fusion-imageframe imageframe-none imageframe-2 hover-type-none\"><img decoding=\"async\" width=\"72\" height=\"41\" title=\"m\u00e9dio\" src=\"data:image\/svg+xml,%3Csvg%20xmlns%3D%27http%3A%2F%2Fwww.w3.org%2F2000%2Fsvg%27%20width%3D%2772%27%20height%3D%2741%27%20viewBox%3D%270%200%2072%2041%27%3E%3Crect%20width%3D%2772%27%20height%3D%2741%27%20fill-opacity%3D%220%22%2F%3E%3C%2Fsvg%3E\" data-orig-src=\"https:\/\/www.artefact.com\/\/wp-content\/uploads\/2021\/03\/medium.png\" alt class=\"lazyload img-responsive wp-image-60927\"\/><\/span><\/div><div class=\"fusion-title title fusion-title-7 fusion-sep-none fusion-title-center fusion-title-text fusion-title-size-three\" style=\"--awb-margin-top:20px;--awb-margin-bottom:0px;--awb-margin-bottom-small:8px;\"><h3 class=\"fusion-title-heading title-heading-center fusion-responsive-typography-calculated\" style=\"margin:0;--fontSize:20;line-height:1.2;\">M\u00e9dia Blog por Artefact.<\/h3><\/div><div class=\"fusion-text fusion-text-19\" style=\"--awb-content-alignment:center;\"><p>Este artigo foi publicado inicialmente no <strong>Medium.com<\/strong>.<br \/>\nSiga-nos em nosso Medium Blog !<\/p>\n<\/div><div style=\"text-align:center;\"><a class=\"fusion-button button-flat button-medium button-default fusion-button-default button-1 fusion-button-default-span fusion-button-default-type\" target=\"_blank\" rel=\"noopener noreferrer\" href=\"https:\/\/medium.com\/artefact-engineering-and-data-science\/data-ml-challenges-for-2022-a066a4c9e88e\"><span class=\"fusion-button-text awb-button__text awb-button__text--default\">Leia nosso artigo<\/span><\/a><\/div><\/div><\/div><\/div><\/div><\/p>","protected":false},"excerpt":{"rendered":"<p>Principais tend\u00eancias do data e do ML em 2021... e o que elas significam para 2022<\/p>","protected":false},"featured_media":68685,"parent":0,"template":"","meta":{"_acf_changed":false,"ep_exclude_from_search":false},"blog-category":[21939],"blog-language":[2991],"class_list":["post-65852","blog","type-blog","status-publish","has-post-thumbnail","hentry","blog-category-medium","blog-language-en"],"acf":[],"_links":{"self":[{"href":"https:\/\/www.artefact.com\/br\/wp-json\/wp\/v2\/blog\/65852","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/www.artefact.com\/br\/wp-json\/wp\/v2\/blog"}],"about":[{"href":"https:\/\/www.artefact.com\/br\/wp-json\/wp\/v2\/types\/blog"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/www.artefact.com\/br\/wp-json\/wp\/v2\/media\/68685"}],"wp:attachment":[{"href":"https:\/\/www.artefact.com\/br\/wp-json\/wp\/v2\/media?parent=65852"}],"wp:term":[{"taxonomy":"blog-category","embeddable":true,"href":"https:\/\/www.artefact.com\/br\/wp-json\/wp\/v2\/blog-category?post=65852"},{"taxonomy":"blog-language","embeddable":true,"href":"https:\/\/www.artefact.com\/br\/wp-json\/wp\/v2\/blog-language?post=65852"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}