	{"id":65852,"date":"2022-01-31T10:48:03","date_gmt":"2022-01-31T10:48:03","guid":{"rendered":"https:\/\/www.artefact.com\/?post_type=news&#038;p=65852"},"modified":"2024-09-20T17:45:48","modified_gmt":"2024-09-20T16:45:48","slug":"data-ml-challenges-for-2022","status":"publish","type":"blog","link":"https:\/\/www.artefact.com\/nl\/blog\/data-ml-challenges-for-2022\/","title":{"rendered":"Data &amp; ML uitdagingen voor 2022"},"content":{"rendered":"<p><div class=\"fusion-fullwidth fullwidth-box fusion-builder-row-1 fusion-flex-container nonhundred-percent-fullwidth non-hundred-percent-height-scrolling article-author\" style=\"--awb-border-radius-top-left:0px;--awb-border-radius-top-right:0px;--awb-border-radius-bottom-right:0px;--awb-border-radius-bottom-left:0px;--awb-background-color:#ffffff;--awb-flex-wrap:wrap;\" ><div class=\"fusion-builder-row fusion-row fusion-flex-align-items-flex-start fusion-flex-content-wrap\" style=\"max-width:calc( 1440px + 20px );margin-left: calc(-20px \/ 2 );margin-right: calc(-20px \/ 2 );\"><div class=\"fusion-layout-column fusion_builder_column fusion-builder-column-0 fusion_builder_column_1_2 1_2 fusion-flex-column\" style=\"--awb-bg-size:cover;--awb-width-large:50%;--awb-margin-top-large:0px;--awb-spacing-right-large:10px;--awb-margin-bottom-large:0px;--awb-spacing-left-large:10px;--awb-width-medium:50%;--awb-order-medium:0;--awb-spacing-right-medium:10px;--awb-spacing-left-medium:10px;--awb-width-small:100%;--awb-order-small:0;--awb-spacing-right-small:10px;--awb-spacing-left-small:10px;\"><div class=\"fusion-column-wrapper fusion-column-has-shadow fusion-flex-justify-content-flex-start fusion-content-layout-column\"><div class=\"fusion-title title fusion-title-1 fusion-sep-none fusion-title-text fusion-title-size-two\" style=\"--awb-margin-bottom-small:8px;\"><h2 class=\"fusion-title-heading title-heading-left fusion-responsive-typography-calculated\" style=\"margin:0;--fontSize:50;line-height:1.2;\">Auteur<\/h2><\/div><img decoding=\"async\" src=\"data:image\/svg+xml,%3Csvg%20xmlns%3D%27http%3A%2F%2Fwww.w3.org%2F2000%2Fsvg%27%20width%3D%27150%27%20height%3D%270%27%20viewBox%3D%270%200%20150%200%27%3E%3Crect%20width%3D%27150%27%20height%3D%270%27%20fill-opacity%3D%220%22%2F%3E%3C%2Fsvg%3E\" data-orig-src=\"https:\/\/www.artefact.com\/\/wp-content\/uploads\/2022\/01\/Bruce-DELATTRE-.png\" alt=\"Image\" class=\"lazyload artefact-elegant-image align-left article-author-image\" style=\"width: 150px; border-radius: 54% 46% 77% 23% \/ 74% 40% 60% 26%; overflow: hidden;\" width=\"150\" height=\"auto\" \/><div class=\"fusion-title title fusion-title-2 fusion-sep-none fusion-title-text fusion-title-size-three article-author-name-title\" style=\"--awb-margin-bottom-small:8px;\"><h3 class=\"fusion-title-heading title-heading-left fusion-responsive-typography-calculated\" style=\"margin:0;--fontSize:20;line-height:1.2;\">Bruce Delattre<\/h3><\/div><div class=\"fusion-text fusion-text-1 article-author-description\"><p>Data Wetenschapsmanager bij Artefact<\/p>\n<\/div><\/div><\/div><\/div><\/div><div class=\"fusion-fullwidth fullwidth-box fusion-builder-row-2 fusion-flex-container nonhundred-percent-fullwidth non-hundred-percent-height-scrolling\" style=\"--awb-border-radius-top-left:0px;--awb-border-radius-top-right:0px;--awb-border-radius-bottom-right:0px;--awb-border-radius-bottom-left:0px;--awb-margin-top:40px;--awb-margin-bottom:40px;--awb-flex-wrap:wrap;\" ><div class=\"fusion-builder-row fusion-row fusion-flex-align-items-center fusion-flex-justify-content-center fusion-flex-content-wrap\" style=\"max-width:calc( 1440px + 20px );margin-left: calc(-20px \/ 2 );margin-right: calc(-20px \/ 2 );\"><div class=\"fusion-layout-column fusion_builder_column fusion-builder-column-1 fusion_builder_column_1_1 1_1 fusion-flex-column fusion-flex-align-self-center fusion-column-inner-bg-wrapper\" style=\"--awb-padding-top:20px;--awb-padding-right:20px;--awb-padding-bottom:20px;--awb-padding-left:20px;--awb-overflow:hidden;--awb-inner-bg-size:cover;--awb-border-color:rgba(10,17,40,0.1);--awb-border-top:1px;--awb-border-right:1px;--awb-border-bottom:1px;--awb-border-left:1px;--awb-border-style:solid;--awb-border-radius:4px 4px 4px 4px;--awb-inner-bg-border-radius:4px 4px 4px 4px;--awb-inner-bg-overflow:hidden;--awb-width-large:100%;--awb-margin-top-large:0px;--awb-spacing-right-large:10px;--awb-margin-bottom-large:0px;--awb-spacing-left-large:10px;--awb-width-medium:100%;--awb-order-medium:0;--awb-spacing-right-medium:10px;--awb-spacing-left-medium:10px;--awb-width-small:100%;--awb-order-small:0;--awb-spacing-right-small:10px;--awb-spacing-left-small:10px;\"><span class=\"fusion-column-inner-bg hover-type-none\"><a class=\"fusion-column-anchor\" href=\"https:\/\/medium.com\/artefact-engineering-and-data-science\/data-ml-challenges-for-2022-a066a4c9e88e\" rel=\"noopener noreferrer\" target=\"_blank\"><span class=\"fusion-column-inner-bg-image\"><\/span><\/a><\/span><div class=\"fusion-column-wrapper fusion-column-has-shadow fusion-flex-justify-content-center fusion-content-layout-row fusion-flex-align-items-center\"><div class=\"fusion-text fusion-text-2\"><p><u>Lees ons artikel over<\/u><\/p>\n<\/div><div class=\"fusion-image-element\" style=\"--awb-margin-right:20px;--awb-margin-left:20px;--awb-max-width:150px;--awb-caption-title-font-family:var(--h2_typography-font-family);--awb-caption-title-font-weight:var(--h2_typography-font-weight);--awb-caption-title-font-style:var(--h2_typography-font-style);--awb-caption-title-size:var(--h2_typography-font-size);--awb-caption-title-transform:var(--h2_typography-text-transform);--awb-caption-title-line-height:var(--h2_typography-line-height);--awb-caption-title-letter-spacing:var(--h2_typography-letter-spacing);\"><span class=\"fusion-imageframe imageframe-none imageframe-1 hover-type-none\"><img decoding=\"async\" width=\"4000\" height=\"992\" title=\"Medium Blog\" src=\"https:\/\/www.artefact.com\/\/wp-content\/uploads\/2021\/04\/Medium-Blog.png\" data-orig-src=\"https:\/\/www.artefact.com\/\/wp-content\/uploads\/2021\/04\/Medium-Blog.png\" alt class=\"lazyload img-responsive wp-image-60582\" srcset=\"data:image\/svg+xml,%3Csvg%20xmlns%3D%27http%3A%2F%2Fwww.w3.org%2F2000%2Fsvg%27%20width%3D%274000%27%20height%3D%27992%27%20viewBox%3D%270%200%204000%20992%27%3E%3Crect%20width%3D%274000%27%20height%3D%27992%27%20fill-opacity%3D%220%22%2F%3E%3C%2Fsvg%3E\" data-srcset=\"https:\/\/www.artefact.com\/\/wp-content\/uploads\/2021\/04\/Medium-Blog-200x50.png 200w, https:\/\/www.artefact.com\/\/wp-content\/uploads\/2021\/04\/Medium-Blog-400x99.png 400w, https:\/\/www.artefact.com\/\/wp-content\/uploads\/2021\/04\/Medium-Blog-600x149.png 600w, https:\/\/www.artefact.com\/\/wp-content\/uploads\/2021\/04\/Medium-Blog-800x198.png 800w, https:\/\/www.artefact.com\/\/wp-content\/uploads\/2021\/04\/Medium-Blog-1200x298.png 1200w, https:\/\/www.artefact.com\/\/wp-content\/uploads\/2021\/04\/Medium-Blog.png 4000w\" data-sizes=\"auto\" data-orig-sizes=\"(max-width: 640px) 100vw, 4000px\" \/><\/span><\/div><div class=\"fusion-text fusion-text-3\"><p>.<\/p>\n<\/div><\/div><\/div><\/div><\/div><div class=\"fusion-fullwidth fullwidth-box fusion-builder-row-3 fusion-flex-container nonhundred-percent-fullwidth non-hundred-percent-height-scrolling\" style=\"--awb-border-radius-top-left:0px;--awb-border-radius-top-right:0px;--awb-border-radius-bottom-right:0px;--awb-border-radius-bottom-left:0px;--awb-flex-wrap:wrap;\" ><div class=\"fusion-builder-row fusion-row fusion-flex-align-items-flex-start fusion-flex-content-wrap\" style=\"max-width:calc( 1440px + 20px );margin-left: calc(-20px \/ 2 );margin-right: calc(-20px \/ 2 );\"><div class=\"fusion-layout-column fusion_builder_column fusion-builder-column-2 fusion_builder_column_1_1 1_1 fusion-flex-column\" style=\"--awb-bg-size:cover;--awb-width-large:100%;--awb-margin-top-large:0px;--awb-spacing-right-large:10px;--awb-margin-bottom-large:0px;--awb-spacing-left-large:10px;--awb-width-medium:100%;--awb-order-medium:0;--awb-spacing-right-medium:10px;--awb-spacing-left-medium:10px;--awb-width-small:100%;--awb-order-small:0;--awb-spacing-right-small:10px;--awb-spacing-left-small:10px;\"><div class=\"fusion-column-wrapper fusion-column-has-shadow fusion-flex-justify-content-flex-start fusion-content-layout-column\"><div class=\"fusion-text fusion-text-4 description\"><p>Belangrijkste data &amp; ML trends voor 2021... en wat ze betekenen voor 2022<\/p>\n<p>Het jaar 2021 is behoorlijk rijk geweest aan data &amp; AI-gerelateerd nieuws. En wat komt hierna? In dit artikel hebben we een paar verhalen en blogberichten geselecteerd die we inzichtelijk vonden, een stapje terug gedaan en geprobeerd af te leiden wat we kunnen verwachten van deze vroege \u201ctekenen\u201d voor 2022.<\/p>\n<p>Dit artikel is mogelijk gemaakt dankzij de bijdragen van Arthur Derennes, Robin Doumerc, Amale El Hamri, Beno\u00eet Goujon, Vincent Luciani en Hanania Ouazan.<\/p>\n<\/div><\/div><\/div><\/div><\/div><article class=\"fusion-fullwidth fullwidth-box fusion-builder-row-4 fusion-flex-container nonhundred-percent-fullwidth non-hundred-percent-height-scrolling\" style=\"--awb-border-radius-top-left:0px;--awb-border-radius-top-right:0px;--awb-border-radius-bottom-right:0px;--awb-border-radius-bottom-left:0px;--awb-flex-wrap:wrap;\" ><div class=\"fusion-builder-row fusion-row fusion-flex-align-items-flex-start fusion-flex-justify-content-center fusion-flex-content-wrap\" style=\"max-width:calc( 1440px + 20px );margin-left: calc(-20px \/ 2 );margin-right: calc(-20px \/ 2 );\"><div class=\"fusion-layout-column fusion_builder_column fusion-builder-column-3 fusion_builder_column_1_1 1_1 fusion-flex-column\" style=\"--awb-bg-size:cover;--awb-width-large:100%;--awb-margin-top-large:0px;--awb-spacing-right-large:10px;--awb-margin-bottom-large:0px;--awb-spacing-left-large:10px;--awb-width-medium:100%;--awb-order-medium:0;--awb-spacing-right-medium:10px;--awb-spacing-left-medium:10px;--awb-width-small:100%;--awb-order-small:0;--awb-spacing-right-small:10px;--awb-spacing-left-small:10px;\"><div class=\"fusion-column-wrapper fusion-column-has-shadow fusion-flex-justify-content-flex-start fusion-content-layout-column\"><div class=\"fusion-title title fusion-title-3 fusion-sep-none fusion-title-text fusion-title-size-two\" style=\"--awb-margin-bottom-small:8px;\"><h2 class=\"fusion-title-heading title-heading-left fusion-responsive-typography-calculated\" style=\"margin:0;--fontSize:50;line-height:1.2;\">1 - Het onfatsoen van foundationmodellen temmen<\/h2><\/div><div class=\"fusion-text fusion-text-5\"><p>2021 had zijn aandeel in nieuwe grote modellen. Na GPT-3 (<a href=\"https:\/\/arxiv.org\/abs\/2005.14165\" target=\"_blank\" rel=\"noopener\">Brown et al., 2020<\/a>) het jaar daarvoor, heeft u misschien gehoord over <a href=\"https:\/\/openai.com\/blog\/clip\/\" target=\"_blank\" rel=\"noopener\">CLIP<\/a> of, recenter, <a href=\"https:\/\/deepmind.com\/blog\/article\/language-modelling-at-scale\" target=\"_blank\" rel=\"noopener\">Gopher<\/a>. Deze \u201cfunderingsmodellen\u201d, zoals <a href=\"https:\/\/arxiv.org\/abs\/2108.07258\" target=\"_blank\" rel=\"noopener\">Bommasani et al. (2021)<\/a> noemen (omdat hun architectuur vaak hergebruikt wordt, lichtjes gewijzigd om ze aan te passen voor een specifieke Machine Learning taak, of omdat ze ook vaak verder verfijnd worden via transfer learning), hun reis en vooruitgang voortzetten omdat er geen limiet lijkt te zijn aan het aantal parameters dat geoptimaliseerd of data gebruikt wordt om ze te trainen. <strong>Interessant is dat deze modellen grote productiviteitswinsten met zich meebrengen<\/strong>, gebruik te maken, zoals Bommasani en co-auteurs opmerken, van de combinatie van <em>opkomst<\/em> en <em>homogenisatie<\/em>.<\/p>\n<\/div><div class=\"fusion-text fusion-text-6\"><p>Laten we beginnen met homogenisatie: <strong>niet alleen zijn de meeste modellen die u in de literatuur ziet, aangepast aan deze generieke architecturen <\/strong>(denk aan BERT, dat tegenwoordig alomtegenwoordig is); <strong>maar vaak veranderen beoefenaars ook de architectuur niet<\/strong>, Ze stemmen gewoon een beschikbaar \u201cgroot\u201d model af op een downstream taak met behulp van transfer learning. Deze architectuur \u201cinvariantie\u201d betekent dat <strong>nieuwe verbeteringen aan \u00e9\u00e9n funderingsmodel kunnen gemakkelijk worden doorgevoerd in alle kindmodellen<\/strong>.<\/p>\n<\/div><div class=\"fusion-text fusion-text-7\"><p>De opkomst komt vervolgens van de manier waarop ze omgaan met het trainen van data. Getraind onder zelftoezicht, vertrouwend op onbewerkt data dat niet op een specifieke manier gelabeld is, beginnen ze te laten zien dat ze kunnen voldoen aan behoeften waarvoor ze in eerste instantie niet ontworpen waren (een \u201czero-shot\u201d mogelijkheid). <strong>Complexe machineleertaken die lijden onder een zeer slechte beschikbaarheid van data kunnen beter worden opgelost door gebruik te maken van de \u201ckennis\u201d die deze modellen uit grote stukken data halen.<\/strong>. We zijn nog in het beginstadium en de resultaten zijn vaak meer verontrustend dan succesvol, maar GPT-3 leert bijvoorbeeld direct een taak op te lossen vanaf een prompt die het tijdens de training niet heeft gezien (<em>althans, theoretisch niet had moeten zien...<\/em>). <strong>Deze opkomst van niet-geplande capaciteiten betekent dat we mogelijk naar meer <\/strong><a href=\"https:\/\/ai.googleblog.com\/2022\/01\/google-research-themes-from-2021-and.html\" target=\"_blank\" rel=\"noopener\">geschikt en voor algemeen gebruik<\/a><strong> machinaal leren. <\/strong><\/p>\n<\/div><div class=\"fusion-text fusion-text-8\"><p>Deze voordelen komen niet zonder structurele veranderingen. Omdat ze van nature groot zijn, is de lijst van organisaties en bedrijven die dergelijke modellen kunnen cre\u00ebren beperkt. <strong>Dit zou zeker het gebruik van machine learning moeten stimuleren via eigen AI API's of snelle interfaces, waarbij de training en het onderhoud van basismodellen wordt geabstraheerd naar ingenieurs.<\/strong>. Aan de andere kant, als meer modellen afhankelijk zullen zijn van \u00e9\u00e9n enkele ouder, kunnen we meer regelgeving, ethisch en sociaal onderzoek naar deze modellen verwachten (aangezien kinderen de vooringenomenheid van hun stichtingsmodel erven). <strong>Het zal zeker steeds waardevoller worden om met talenten te werken die de mogelijkheden, beperkingen en vooroordelen kennen die op de een of andere manier achter deze interfaces schuilgaan... te beginnen met hun CO2-voetafdruk.<\/strong><\/p>\n<\/div><div class=\"fusion-title title fusion-title-4 fusion-sep-none fusion-title-text fusion-title-size-two\" style=\"--awb-margin-bottom-small:8px;\"><h2 class=\"fusion-title-heading title-heading-left fusion-responsive-typography-calculated\" style=\"margin:0;--fontSize:50;line-height:1.2;\">2 - AI duurzaam maken<\/h2><\/div><div class=\"fusion-text fusion-text-9\"><p><strong>Het is geen verrassing dat deze nieuwe vormen van AI hoge kosten met zich meebrengen in termen van koolstofemissies.<\/strong>: <a href=\"https:\/\/arxiv.org\/pdf\/1906.02243.pdf\" target=\"_blank\" rel=\"noopener\">Strubell et al.<\/a> schatten dat een enkele training van BERT op GPU's ongeveer gelijk is aan een NY naar SF vlucht, terwijl <a href=\"https:\/\/papers.ssrn.com\/sol3\/papers.cfm?abstract_id=3873881\" target=\"_blank\" rel=\"noopener\">Taddeo et al.<\/a> evalueren dat \u00e9\u00e9n GPT-3-training evenveel CO2 uitstoot als 49 auto's gedurende een jaar.<\/p>\n<p>AI werd voor het eerst gezien als een waardevol hulpmiddel om problemen met betrekking tot klimaatverandering op te lossen (zie de vele idee\u00ebn uit de NeurIPS \u201cTackling climate change with machine learning\u201d 2019 <a href=\"https:\/\/www.climatechange.ai\/events\/neurips2019\" target=\"_blank\" rel=\"noopener\">workshop<\/a>), maar veel experts wijzen ook op de koolstofvoetafdruk. <strong>\u201c<a href=\"https:\/\/link.springer.com\/article\/10.1007\/s43681-021-00043-6\" target=\"_blank\" rel=\"noopener\">Duurzame AI<\/a>\u201d, zoals Aimee van Wynsberghe het stelt, moet niet alleen AI voor duurzaamheid omvatten, maar ook de duurzaamheid van AI.<\/strong> (die ook niet beperkt moeten blijven tot ecologische overwegingen).<\/p>\n<\/div><div class=\"fusion-text fusion-text-10\"><p>Als Abhishek Gupta <a href=\"https:\/\/thegradient.pub\/sustainable-ai\/\" target=\"_blank\" rel=\"noopener\">raadt  aan<\/a>, werken in <strong>Voorstander van duurzame AI betekent nieuwe manieren van werken verkennen<\/strong>. TinyML zou <a href=\"https:\/\/arxiv.org\/pdf\/2003.04821.pdf\" target=\"_blank\" rel=\"noopener\">ons helpen de energiekosten van draadloze berekeningen te vermijden<\/a>, terwijl <a href=\"https:\/\/electricitymap.org\/\" target=\"_blank\" rel=\"noopener\">koolstofbewustzijn<\/a> zou ons moeten helpen om te begrijpen op welke geografische locatie we onze modellen voor machinaal leren het beste kunnen trainen en inzetten. Een verstandiger gebruik van de bestaande hardware en diensten zou ook gewoon ieders zorg moeten zijn.<\/p>\n<p><strong>Welke oplossingen ook worden gebruikt om duurzame AI te omarmen, wij verwachten dat besluitvormers eerder twee keer zullen nadenken voordat ze AI-projecten lanceren.<\/strong>. Dit werpt de uitdaging op van <strong>meten<\/strong> machine learning milieu-impact.<\/p>\n<\/div><div class=\"fusion-text fusion-text-11\"><p>De ontwikkeling van machinaal leren zou in 2022 gepaard moeten gaan met een meer systematische rapportage van CO2e naast de prestatiecijfers (zie bijvoorbeeld <a href=\"https:\/\/github.com\/mlco2\/codecarbon\" target=\"_blank\" rel=\"noopener\">codecarbon<\/a>), meer transparantie van cloud leveranciers (zie GCP koolstofvoetafdruk <a href=\"https:\/\/cloud.google.com\/carbon-footprint\" target=\"_blank\" rel=\"noopener\">dashboard<\/a>) en vooral een diepere reflectie over de voordelen en kosten van het gebruik van AI. <strong>De meest overtuigende projecten zijn die met een holistische aanpak: niet alleen de koolstofvoetafdruk van berekeningen kwantificeren, maar deze ook afwegen tegen de effici\u00ebntie die deze nieuwe producten opleveren.<\/strong>, en vergeet niet om rekening te houden met een potenti\u00eble <a href=\"https:\/\/en.wikipedia.org\/wiki\/Rebound_effect_(conservation)\" target=\"_blank\" rel=\"noopener\">rebound-effect<\/a>. Het meten van de koolstofvoetafdruk van deze grote modellen is niet genoeg: <strong>we moeten rekening houden met de hele end-to-end pijplijn: training, inzet, controle en ook de impact op de manier van werken van mensen<\/strong>.<\/p>\n<\/div><div class=\"fusion-title title fusion-title-5 fusion-sep-none fusion-title-text fusion-title-size-two\" style=\"--awb-margin-bottom-small:8px;\"><h2 class=\"fusion-title-heading title-heading-left fusion-responsive-typography-calculated\" style=\"margin:0;--fontSize:50;line-height:1.2;\">3 - Een vleugje Zen toevoegen aan uw MLOP's<\/h2><\/div><div class=\"fusion-text fusion-text-12\"><p><strong>Dit is belangrijk omdat de productiekant van Machine Learning steeds ingewikkelder en geavanceerder wordt.<\/strong>. Vooral MLOP's bleven het dit jaar goed doen en hadden hun deel aan innovaties of gonzende concepten zoals Matt Turck <a href=\"https:\/\/mattturck.com\/data2021\/\" target=\"_blank\" rel=\"noopener\">legt  uit<\/a>. Denk eenvoudigweg aan <a href=\"https:\/\/data-notes.co\/what-i-learned-from-attending-tectons-apply-conference-85635a03ff2e\" target=\"_blank\" rel=\"noopener\">functies winkels<\/a>, <a href=\"https:\/\/www.reuters.com\/business\/confluent-targets-over-8-bln-valuation-us-ipo-2021-06-16\/\" target=\"_blank\" rel=\"noopener\">streaming<\/a> mogelijkheden en alle DataOps initiatieven die we hieronder zullen behandelen.<\/p>\n<p>Terwijl 2021 opnieuw een bloeiend jaar was voor <a href=\"https:\/\/ml-ops.org\/content\/motivation#mlops-definition\" target=\"_blank\" rel=\"noopener\">MLOP's<\/a>, zijn we ook begonnen met <strong>getuige zijn van doordachte kritiek op zijn eigen buzz<\/strong>. En de argumenten zijn eerlijk: het MLOP-landschap is <a href=\"https:\/\/mattturck.com\/data2021\/\" target=\"_blank\" rel=\"noopener\">nauwelijks leesbaar,<\/a> omvat honderden concepten en hulpmiddelen, misschien vaak <a href=\"https:\/\/laszlo.substack.com\/p\/whats-wrong-with-mlops\" target=\"_blank\" rel=\"noopener\">overkilling<\/a> het, en <strong>men redelijkerwijs zou kunnen stellen dat een gemiddeld project <a href=\"https:\/\/en.wikipedia.org\/wiki\/You_aren%27t_gonna_need_it\" target=\"_blank\" rel=\"noopener\">zal ze niet noodzakelijk allemaal nodig hebben<\/a><\/strong>. De meerderheid van \u201c<a href=\"https:\/\/towardsdatascience.com\/mlops-without-much-ops-d17f502f76e8\" target=\"_blank\" rel=\"noopener\">redelijke schaal<\/a>\u201d bedrijven die niet <a href=\"https:\/\/towardsdatascience.com\/ml-and-mlops-at-a-reasonable-scale-31d2c0782d9c\" target=\"_blank\" rel=\"noopener\">FAANG<\/a> (<em>D.w.z.<\/em> geen enorme technische teams, geen oneindige ROI gegenereerd door AI, redelijke data volumes) <strong>moet het eenvoudig houden<\/strong>.<\/p>\n<\/div><div class=\"fusion-text fusion-text-13\"><p><strong>Het blijft moeilijk om te voorspellen hoe dit landschap zich zal ontwikkelen<\/strong>Zonder enige twijfel moeten we verwachten dat er meer startups zullen verschijnen, terwijl er ook enige homogenisatie &amp; consolidatie achter grote spelers zal plaatsvinden. No- of low-code tools zullen zeker blijven groeien en deze functies voor iedereen beschikbaar maken. De dingen kunnen echter nog veranderen, <strong>wij geloven ook echt in de opkomst in de komende jaren van open standaarden en een \u201ccanonieke ML-stack\u201d.\u201d<\/strong> zoals de AI-infrastructuuralliantie van plan is om <a href=\"https:\/\/towardsdatascience.com\/ml-and-mlops-at-a-reasonable-scale-31d2c0782d9c\" target=\"_blank\" rel=\"noopener\">bouwen<\/a> (disclaimer: Artefact maakt deel uit van de Alliance).<\/p>\n<\/div><div class=\"fusion-text fusion-text-14\"><p><strong>Dus we willen dat u een vleugje <a href=\"https:\/\/en.wikipedia.org\/wiki\/Zen\" target=\"_blank\" rel=\"noopener\">Zen<\/a> naar uw MLOP's in 2022<\/strong>. Het betekent eerst een stap terug doen en <strong>uw stapel beperken tot wat echt belangrijk is<\/strong>: de effici\u00ebntie van uw modellen voor machinaal leren en de productiviteit van uw data wetenschappers, bijvoorbeeld met een \u201c<a href=\"https:\/\/multithreaded.stitchfix.com\/blog\/2021\/02\/09\/aggressively-helpful-platform-teams\/\" target=\"_blank\" rel=\"noopener\">agressief behulpzaam<\/a>\u201d mentaliteit zoals het team van het Stitch Fix-platform heeft aangenomen. Dan, zoals de meeste van de <a href=\"https:\/\/arxiv.org\/pdf\/2107.00079.pdf\" target=\"_blank\" rel=\"noopener\">antipatronen<\/a> van een Machine Learning project lijken van de data kant te komen,<strong> om te werken aan de consolidatie van de fundamenten van uw project: hoe u de data zelf inkoopt en verwerkt<\/strong>. Zoals Ciro Greco het zegt, moet data inderdaad een \u201c<a href=\"https:\/\/towardsdatascience.com\/hagakure-for-mlops-the-four-pillars-of-ml-at-reasonable-scale-5a09bd073da\" target=\"_blank\" rel=\"noopener\">eersteklas burger<\/a>\u201d van uw productiestapel.<\/p>\n<\/div><div class=\"fusion-title title fusion-title-6 fusion-sep-none fusion-title-text fusion-title-size-two\" style=\"--awb-margin-bottom-small:8px;\"><h2 class=\"fusion-title-heading title-heading-left fusion-responsive-typography-calculated\" style=\"margin:0;--fontSize:50;line-height:1.2;\">4 - Van data meer een product maken dan een eenvoudige invoer<\/h2><\/div><div class=\"fusion-text fusion-text-15\"><p>\u201cIt has always been about data\u201d zou 2021 moeten verklaren, met zijn hernieuwde belangstelling ervoor, zoals natuurlijk blijkt uit de <a href=\"https:\/\/www.forbes.com\/sites\/gilpress\/2021\/06\/16\/andrew-ng-launches-a-campaign-for-data-centric-ai\/?sh=3b1e4c3c74f5\" target=\"_blank\" rel=\"noopener\">Data-Centrische AI<\/a> beweging gelanceerd door Andrew Ng. <strong>Niet alleen data is de brandstof voor de prestaties van uw model voor machinaal leren, maar ook waar de problemen komen, aangezien ongebalanceerde, bevooroordeelde of slecht gelabelde data zeker een nadelig effect zal hebben op downstream algoritmen.<\/strong>. Voor een gegeven en vast model zouden we dus in staat moeten zijn om kwaliteit te winnen door alleen maar te werken aan de input, de data.<\/p>\n<\/div><div class=\"fusion-text fusion-text-16\"><p>Wat interessant is, is dat deze beweging iedereen langs de waardeketen met elkaar zou moeten verzoenen, van de data engineering-kant en zijn recente oproepen om te koesteren <a href=\"https:\/\/databand.ai\/data-observability\/\" target=\"_blank\" rel=\"noopener\">DataOps<\/a> praktijken (en wijzelf hebben dit jaar met veel plezier hulpmiddelen zoals <a href=\"https:\/\/greatexpectations.io\/\" target=\"_blank\" rel=\"noopener\">Grote verwachtingen<\/a> in al onze projecten) aan de data wetenschappers &amp; analisten die geen gebrek zullen hebben aan geavanceerde <a href=\"https:\/\/datacentricai.org\/\" target=\"_blank\" rel=\"noopener\">methodologie\u00ebn<\/a> om de huidige data te verfijnen (augmentatie, labeling, biascorrectie, bemonstering...). <strong>Natuurlijk denken we dat dit niet mogelijk zal zijn zonder een duidelijke investering van het hoger management en de toepassing van expliciete <a href=\"https:\/\/marketing.artefact.com\/l\/597421\/2021-12-20\/hwlcq2?utm_source=ebook&amp;utm_medium=website&amp;utm_campaign=2021-11-FR-Ebook-Data-Governance\" target=\"_blank\" rel=\"noopener\">processen<\/a> van data governance om eerst de verschillende domeinen en hun eigenaren binnen de organisatie te identificeren en vervolgens te structureren. <\/strong><\/p>\n<\/div><div class=\"fusion-text fusion-text-17\"><p>Dit, gecombineerd met het feit dat data steeds gemakkelijker te verplaatsen zal zijn dankzij initiatieven zoals <a href=\"https:\/\/consent.yahoo.com\/v2\/collectConsent?sessionId=3_cc-session_7581c65a-5999-46c3-9a14-3b8bc2674d2f\" target=\"_blank\" rel=\"noopener\">Airbyte's<\/a> en de voortdurende verbetering van <a href=\"https:\/\/databricks.com\/blog\/2021\/05\/26\/introducing-delta-sharing-an-open-protocol-for-secure-data-sharing.html\" target=\"_blank\" rel=\"noopener\">data delen<\/a> technologie\u00ebn in onze moderne data stack zou het mogelijk maken om<strong> bedrijven natuurlijk om nieuwe <a href=\"https:\/\/towardsdatascience.com\/the-future-of-the-modern-data-stack-2de175b3c809\" target=\"_blank\" rel=\"noopener\">perspectieven<\/a> van de data zelf<\/strong>, parallel aan wat AI al brengt in termen van automatisering en inzichten.<\/p>\n<\/div><div class=\"fusion-text fusion-text-18\"><p>***<\/p>\n<p>Dat is het! In deze periode van nieuwjaarsvoornemens wensen wij u dus toe om het onfatsoen van foundationmodellen te temmen, AI duurzaam te maken, een vleugje Zen aan uw MLOP's toe te voegen en tenslotte uw data als product te koesteren in plaats van het simpelweg als een input te beschouwen. En u?<strong> Wat heeft u vorig jaar het meest verrast? Wat verwacht u dat er dit jaar zal gebeuren?\u00a0<\/strong><\/p>\n<\/div><\/div><\/div><\/div><\/article><div class=\"fusion-fullwidth fullwidth-box fusion-builder-row-5 fusion-flex-container nonhundred-percent-fullwidth non-hundred-percent-height-scrolling\" style=\"--awb-border-radius-top-left:0px;--awb-border-radius-top-right:0px;--awb-border-radius-bottom-right:0px;--awb-border-radius-bottom-left:0px;--awb-margin-top:40px;--awb-margin-bottom:40px;--awb-flex-wrap:wrap;\" ><div class=\"fusion-builder-row fusion-row fusion-flex-align-items-center fusion-flex-justify-content-center fusion-flex-content-wrap\" style=\"max-width:calc( 1440px + 20px );margin-left: calc(-20px \/ 2 );margin-right: calc(-20px \/ 2 );\"><div class=\"fusion-layout-column fusion_builder_column fusion-builder-column-4 fusion_builder_column_1_1 1_1 fusion-flex-column fusion-flex-align-self-center fusion-column-inner-bg-wrapper\" style=\"--awb-padding-top:40px;--awb-padding-right:40px;--awb-padding-bottom:40px;--awb-padding-left:40px;--awb-overflow:hidden;--awb-inner-bg-position:left center;--awb-inner-bg-size:cover;--awb-border-color:rgba(10,17,40,0.1);--awb-border-style:solid;--awb-border-radius:4px 4px 4px 4px;--awb-inner-bg-border-radius:4px 4px 4px 4px;--awb-inner-bg-overflow:hidden;--awb-width-large:100%;--awb-margin-top-large:0px;--awb-spacing-right-large:10px;--awb-margin-bottom-large:0px;--awb-spacing-left-large:10px;--awb-width-medium:100%;--awb-order-medium:0;--awb-spacing-right-medium:10px;--awb-spacing-left-medium:10px;--awb-width-small:100%;--awb-order-small:0;--awb-spacing-right-small:10px;--awb-spacing-left-small:10px;\"><span class=\"fusion-column-inner-bg hover-type-none\"><a class=\"fusion-column-anchor\" href=\"https:\/\/medium.com\/artefact-engineering-and-data-science\/data-ml-challenges-for-2022-a066a4c9e88e\" target=\"_blank\" rel=\"noopener\"><span class=\"fusion-column-inner-bg-image lazyload\" data-bg=\"https:\/\/www.artefact.com\/\/wp-content\/uploads\/2021\/03\/background.jpg\"><\/span><\/a><\/span><div class=\"fusion-column-wrapper fusion-column-has-shadow fusion-flex-justify-content-center fusion-content-layout-column fusion-column-has-bg-image\" data-bg-url=\"https:\/\/www.artefact.com\/\/wp-content\/uploads\/2021\/03\/background.jpg\"><div class=\"fusion-image-element\" style=\"text-align:center;--awb-margin-right:20px;--awb-margin-left:20px;--awb-max-width:150px;--awb-caption-title-font-family:var(--h2_typography-font-family);--awb-caption-title-font-weight:var(--h2_typography-font-weight);--awb-caption-title-font-style:var(--h2_typography-font-style);--awb-caption-title-size:var(--h2_typography-font-size);--awb-caption-title-transform:var(--h2_typography-text-transform);--awb-caption-title-line-height:var(--h2_typography-line-height);--awb-caption-title-letter-spacing:var(--h2_typography-letter-spacing);\"><span class=\"fusion-imageframe imageframe-none imageframe-2 hover-type-none\"><img decoding=\"async\" width=\"72\" height=\"41\" title=\"middelgrote\" src=\"data:image\/svg+xml,%3Csvg%20xmlns%3D%27http%3A%2F%2Fwww.w3.org%2F2000%2Fsvg%27%20width%3D%2772%27%20height%3D%2741%27%20viewBox%3D%270%200%2072%2041%27%3E%3Crect%20width%3D%2772%27%20height%3D%2741%27%20fill-opacity%3D%220%22%2F%3E%3C%2Fsvg%3E\" data-orig-src=\"https:\/\/www.artefact.com\/\/wp-content\/uploads\/2021\/03\/medium.png\" alt class=\"lazyload img-responsive wp-image-60927\"\/><\/span><\/div><div class=\"fusion-title title fusion-title-7 fusion-sep-none fusion-title-center fusion-title-text fusion-title-size-three\" style=\"--awb-margin-top:20px;--awb-margin-bottom:0px;--awb-margin-bottom-small:8px;\"><h3 class=\"fusion-title-heading title-heading-center fusion-responsive-typography-calculated\" style=\"margin:0;--fontSize:20;line-height:1.2;\">Medium Blog bij Artefact.<\/h3><\/div><div class=\"fusion-text fusion-text-19\" style=\"--awb-content-alignment:center;\"><p>Dit artikel werd oorspronkelijk gepubliceerd op <strong>Medium.com<\/strong>.<br \/>\nVolg ons op ons medium Blog !<\/p>\n<\/div><div style=\"text-align:center;\"><a class=\"fusion-button button-flat button-medium button-default fusion-button-default button-1 fusion-button-default-span fusion-button-default-type\" target=\"_blank\" rel=\"noopener noreferrer\" href=\"https:\/\/medium.com\/artefact-engineering-and-data-science\/data-ml-challenges-for-2022-a066a4c9e88e\"><span class=\"fusion-button-text awb-button__text awb-button__text--default\">Lees ons artikel<\/span><\/a><\/div><\/div><\/div><\/div><\/div><\/p>","protected":false},"excerpt":{"rendered":"<p>Belangrijkste data &amp; ML trends voor 2021... en wat ze betekenen voor 2022<\/p>","protected":false},"featured_media":68685,"parent":0,"template":"","meta":{"_acf_changed":false,"ep_exclude_from_search":false},"blog-category":[21939],"blog-language":[2991],"class_list":["post-65852","blog","type-blog","status-publish","has-post-thumbnail","hentry","blog-category-medium","blog-language-en"],"acf":[],"_links":{"self":[{"href":"https:\/\/www.artefact.com\/nl\/wp-json\/wp\/v2\/blog\/65852","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/www.artefact.com\/nl\/wp-json\/wp\/v2\/blog"}],"about":[{"href":"https:\/\/www.artefact.com\/nl\/wp-json\/wp\/v2\/types\/blog"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/www.artefact.com\/nl\/wp-json\/wp\/v2\/media\/68685"}],"wp:attachment":[{"href":"https:\/\/www.artefact.com\/nl\/wp-json\/wp\/v2\/media?parent=65852"}],"wp:term":[{"taxonomy":"blog-category","embeddable":true,"href":"https:\/\/www.artefact.com\/nl\/wp-json\/wp\/v2\/blog-category?post=65852"},{"taxonomy":"blog-language","embeddable":true,"href":"https:\/\/www.artefact.com\/nl\/wp-json\/wp\/v2\/blog-language?post=65852"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}