Data & ML challenges for 2022

Auteur

Bruce Delattre

Data Wetenschapsmanager bij Artefact

Lees ons artikel over

Belangrijkste data & ML trends voor 2021... en wat ze betekenen voor 2022

Het jaar 2021 is behoorlijk rijk geweest aan data & AI-gerelateerd nieuws. En wat komt hierna? In dit artikel hebben we een paar verhalen en blogberichten geselecteerd die we inzichtelijk vonden, een stapje terug gedaan en geprobeerd af te leiden wat we kunnen verwachten van deze vroege “tekenen” voor 2022.

Dit artikel is mogelijk gemaakt dankzij de bijdragen van Arthur Derennes, Robin Doumerc, Amale El Hamri, Benoît Goujon, Vincent Luciani en Hanania Ouazan.

1 - Het onfatsoen van foundationmodellen temmen

2021 had zijn aandeel in nieuwe grote modellen. Na GPT-3 (Brown et al., 2020) het jaar daarvoor, heeft u misschien gehoord over CLIP of, recenter, Gopher. Deze “funderingsmodellen”, zoals Bommasani et al. (2021) noemen (omdat hun architectuur vaak hergebruikt wordt, lichtjes gewijzigd om ze aan te passen voor een specifieke Machine Learning taak, of omdat ze ook vaak verder verfijnd worden via transfer learning), hun reis en vooruitgang voortzetten omdat er geen limiet lijkt te zijn aan het aantal parameters dat geoptimaliseerd of data gebruikt wordt om ze te trainen. Interessant is dat deze modellen grote productiviteitswinsten met zich meebrengen, gebruik te maken, zoals Bommasani en co-auteurs opmerken, van de combinatie van opkomst en homogenisatie.

Laten we beginnen met homogenisatie: niet alleen zijn de meeste modellen die u in de literatuur ziet, aangepast aan deze generieke architecturen (denk aan BERT, dat tegenwoordig alomtegenwoordig is); maar vaak veranderen beoefenaars ook de architectuur niet, Ze stemmen gewoon een beschikbaar “groot” model af op een downstream taak met behulp van transfer learning. Deze architectuur “invariantie” betekent dat nieuwe verbeteringen aan één funderingsmodel kunnen gemakkelijk worden doorgevoerd in alle kindmodellen.

De opkomst komt vervolgens van de manier waarop ze omgaan met het trainen van data. Getraind onder zelftoezicht, vertrouwend op onbewerkt data dat niet op een specifieke manier gelabeld is, beginnen ze te laten zien dat ze kunnen voldoen aan behoeften waarvoor ze in eerste instantie niet ontworpen waren (een “zero-shot” mogelijkheid). Complexe machineleertaken die lijden onder een zeer slechte beschikbaarheid van data kunnen beter worden opgelost door gebruik te maken van de “kennis” die deze modellen uit grote stukken data halen.. We zijn nog in het beginstadium en de resultaten zijn vaak meer verontrustend dan succesvol, maar GPT-3 leert bijvoorbeeld direct een taak op te lossen vanaf een prompt die het tijdens de training niet heeft gezien (althans, theoretisch niet had moeten zien...). Deze opkomst van niet-geplande capaciteiten betekent dat we mogelijk naar meer geschikt en voor algemeen gebruik machinaal leren.

Deze voordelen komen niet zonder structurele veranderingen. Omdat ze van nature groot zijn, is de lijst van organisaties en bedrijven die dergelijke modellen kunnen creëren beperkt. Dit zou zeker het gebruik van machine learning moeten stimuleren via eigen AI API's of snelle interfaces, waarbij de training en het onderhoud van basismodellen wordt geabstraheerd naar ingenieurs.. Aan de andere kant, als meer modellen afhankelijk zullen zijn van één enkele ouder, kunnen we meer regelgeving, ethisch en sociaal onderzoek naar deze modellen verwachten (aangezien kinderen de vooringenomenheid van hun stichtingsmodel erven). Het zal zeker steeds waardevoller worden om met talenten te werken die de mogelijkheden, beperkingen en vooroordelen kennen die op de een of andere manier achter deze interfaces schuilgaan... te beginnen met hun CO2-voetafdruk.

2 - AI duurzaam maken

Het is geen verrassing dat deze nieuwe vormen van AI hoge kosten met zich meebrengen in termen van koolstofemissies.: Strubell et al. schatten dat een enkele training van BERT op GPU's ongeveer gelijk is aan een NY naar SF vlucht, terwijl Taddeo et al. evalueren dat één GPT-3-training evenveel CO2 uitstoot als 49 auto's gedurende een jaar.

AI werd voor het eerst gezien als een waardevol hulpmiddel om problemen met betrekking tot klimaatverandering op te lossen (zie de vele ideeën uit de NeurIPS “Tackling climate change with machine learning” 2019 workshop), maar veel experts wijzen ook op de koolstofvoetafdruk. “Duurzame AI”, zoals Aimee van Wynsberghe het stelt, moet niet alleen AI voor duurzaamheid omvatten, maar ook de duurzaamheid van AI. (die ook niet beperkt moeten blijven tot ecologische overwegingen).

Als Abhishek Gupta raadt aan, werken in Voorstander van duurzame AI betekent nieuwe manieren van werken verkennen. TinyML zou ons helpen de energiekosten van draadloze berekeningen te vermijden, terwijl koolstofbewustzijn zou ons moeten helpen om te begrijpen op welke geografische locatie we onze modellen voor machinaal leren het beste kunnen trainen en inzetten. Een verstandiger gebruik van de bestaande hardware en diensten zou ook gewoon ieders zorg moeten zijn.

Welke oplossingen ook worden gebruikt om duurzame AI te omarmen, wij verwachten dat besluitvormers eerder twee keer zullen nadenken voordat ze AI-projecten lanceren.. Dit werpt de uitdaging op van meten machine learning milieu-impact.

De ontwikkeling van machinaal leren zou in 2022 gepaard moeten gaan met een meer systematische rapportage van CO2e naast de prestatiecijfers (zie bijvoorbeeld codecarbon), meer transparantie van cloud leveranciers (zie GCP koolstofvoetafdruk dashboard) en vooral een diepere reflectie over de voordelen en kosten van het gebruik van AI. De meest overtuigende projecten zijn die met een holistische aanpak: niet alleen de koolstofvoetafdruk van berekeningen kwantificeren, maar deze ook afwegen tegen de efficiëntie die deze nieuwe producten opleveren., en vergeet niet om rekening te houden met een potentiële rebound-effect. Het meten van de koolstofvoetafdruk van deze grote modellen is niet genoeg: we moeten rekening houden met de hele end-to-end pijplijn: training, inzet, controle en ook de impact op de manier van werken van mensen.

3 - Een vleugje Zen toevoegen aan uw MLOP's

Dit is belangrijk omdat de productiekant van Machine Learning steeds ingewikkelder en geavanceerder wordt.. Vooral MLOP's bleven het dit jaar goed doen en hadden hun deel aan innovaties of gonzende concepten zoals Matt Turck legt uit. Denk eenvoudigweg aan functies winkels, streaming mogelijkheden en alle DataOps initiatieven die we hieronder zullen behandelen.

Terwijl 2021 opnieuw een bloeiend jaar was voor MLOP's, zijn we ook begonnen met getuige zijn van doordachte kritiek op zijn eigen buzz. En de argumenten zijn eerlijk: het MLOP-landschap is nauwelijks leesbaar, omvat honderden concepten en hulpmiddelen, misschien vaak overkilling het, en men redelijkerwijs zou kunnen stellen dat een gemiddeld project zal ze niet noodzakelijk allemaal nodig hebben. De meerderheid van “redelijke schaal” bedrijven die niet FAANG (D.w.z. geen enorme technische teams, geen oneindige ROI gegenereerd door AI, redelijke data volumes) moet het eenvoudig houden.

Het blijft moeilijk om te voorspellen hoe dit landschap zich zal ontwikkelenZonder enige twijfel moeten we verwachten dat er meer startups zullen verschijnen, terwijl er ook enige homogenisatie & consolidatie achter grote spelers zal plaatsvinden. No- of low-code tools zullen zeker blijven groeien en deze functies voor iedereen beschikbaar maken. De dingen kunnen echter nog veranderen, wij geloven ook echt in de opkomst in de komende jaren van open standaarden en een “canonieke ML-stack”.” zoals de AI-infrastructuuralliantie van plan is om bouwen (disclaimer: Artefact maakt deel uit van de Alliance).

Dus we willen dat u een vleugje Zen naar uw MLOP's in 2022. Het betekent eerst een stap terug doen en uw stapel beperken tot wat echt belangrijk is: de efficiëntie van uw modellen voor machinaal leren en de productiviteit van uw data wetenschappers, bijvoorbeeld met een “agressief behulpzaam” mentaliteit zoals het team van het Stitch Fix-platform heeft aangenomen. Dan, zoals de meeste van de antipatronen van een Machine Learning project lijken van de data kant te komen, om te werken aan de consolidatie van de fundamenten van uw project: hoe u de data zelf inkoopt en verwerkt. Zoals Ciro Greco het zegt, moet data inderdaad een “eersteklas burger” van uw productiestapel.

4 - Van data meer een product maken dan een eenvoudige invoer

“It has always been about data” zou 2021 moeten verklaren, met zijn hernieuwde belangstelling ervoor, zoals natuurlijk blijkt uit de Data-Centrische AI beweging gelanceerd door Andrew Ng. Niet alleen data is de brandstof voor de prestaties van uw model voor machinaal leren, maar ook waar de problemen komen, aangezien ongebalanceerde, bevooroordeelde of slecht gelabelde data zeker een nadelig effect zal hebben op downstream algoritmen.. Voor een gegeven en vast model zouden we dus in staat moeten zijn om kwaliteit te winnen door alleen maar te werken aan de input, de data.

Wat interessant is, is dat deze beweging iedereen langs de waardeketen met elkaar zou moeten verzoenen, van de data engineering-kant en zijn recente oproepen om te koesteren DataOps praktijken (en wijzelf hebben dit jaar met veel plezier hulpmiddelen zoals Grote verwachtingen in al onze projecten) aan de data wetenschappers & analisten die geen gebrek zullen hebben aan geavanceerde methodologieën om de huidige data te verfijnen (augmentatie, labeling, biascorrectie, bemonstering...). Natuurlijk denken we dat dit niet mogelijk zal zijn zonder een duidelijke investering van het hoger management en de toepassing van expliciete processen van data governance om eerst de verschillende domeinen en hun eigenaren binnen de organisatie te identificeren en vervolgens te structureren.

Dit, gecombineerd met het feit dat data steeds gemakkelijker te verplaatsen zal zijn dankzij initiatieven zoals Airbyte's en de voortdurende verbetering van data delen technologieën in onze moderne data stack zou het mogelijk maken om bedrijven natuurlijk om nieuwe perspectieven van de data zelf, parallel aan wat AI al brengt in termen van automatisering en inzichten.

***

Dat is het! In deze periode van nieuwjaarsvoornemens wensen wij u dus toe om het onfatsoen van foundationmodellen te temmen, AI duurzaam te maken, een vleugje Zen aan uw MLOP's toe te voegen en tenslotte uw data als product te koesteren in plaats van het simpelweg als een input te beschouwen. En u? Wat heeft u vorig jaar het meest verrast? Wat verwacht u dat er dit jaar zal gebeuren?

Medium Blog bij Artefact.

Dit artikel werd oorspronkelijk gepubliceerd op Medium.com.
Volg ons op ons medium Blog !

Lees ons artikel

Neem contact met ons op

Data & ML uitdagingen voor 2022