Data & ML challenges for 2022

Autor

Bruce Delattre

Data Wissenschaftlicher Leiter bei Artefact

Lesen Sie unseren Artikel über

Die wichtigsten Trends für 2021 data & ML... und was sie für 2022 bedeuten

Das Jahr 2021 war ziemlich reich an data- und KI-bezogenen Nachrichten. Und was kommt als nächstes? In diesem Artikel haben wir einige Geschichten und Blogbeiträge ausgewählt, die wir aufschlussreich fanden. Wir haben einen Schritt zurück gemacht und versucht, aus diesen ersten “Zeichen” für 2022 zu schließen, was zu erwarten ist.

Dieser Artikel wurde durch die Beiträge von Arthur Derennes, Robin Doumerc, Amale El Hamri, Benoît Goujon, Vincent Luciani und Hanania Ouazan ermöglicht.

1 - Zähmung der Unanständigkeit von Stiftungsmodellen

Das Jahr 2021 hatte seinen Anteil an neuen großen Modellen. Nach GPT-3 (Brown et al., 2020) im Jahr zuvor, haben Sie vielleicht schon von CLIP oder, in jüngerer Zeit, Gopher. Diese “Gründungsmodelle”, wie Bommasani et al. (2021) nennen (da ihre Architektur oft wiederverwendet und leicht verändert wird, um sie an eine bestimmte Machine Learning-Aufgabe anzupassen, oder da sie auch oft durch Transfer-Lernen weiter verfeinert werden), setzen ihre Reise und ihren Fortschritt fort, da es keine Begrenzung für die Anzahl der Parameter zu geben scheint, die für ihr Training optimiert oder data genutzt werden. Interessant ist, dass diese Modelle große Produktivitätsgewinne mit sich bringen, Wie Bommasani und seine Mitautoren anmerken, nutzen sie die Kombination von Auftauchen und Homogenisierung.

Lassen Sie uns mit der Homogenisierung beginnen: nicht nur, dass die meisten Modelle, die Sie in der Literatur finden, von diesen generischen Architekturen abgeleitet sind (denken Sie an BERT, das heutzutage allgegenwärtig ist); aber oft ändern auch Praktiker die Architektur nicht, Sie passen ein vorhandenes “großes” Modell mit Hilfe von Transfer-Lernen an eine nachgelagerte Aufgabe an. Diese “Invarianz” der Architektur bedeutet, dass neue Verbesserungen an einem Basismodell können problemlos in alle seine Untermodelle einfließen.

Die nächste Entwicklung ergibt sich aus der Art und Weise, wie sie mit dem Training von data umgehen. Sie werden unter Selbstkontrolle geschult und stützen sich auf rohes data, das nicht speziell gekennzeichnet wurde. Sie beginnen zu zeigen, dass sie Bedürfnisse erfüllen können, für die sie zunächst nicht konzipiert wurden (eine “Zero-Shot”-Fähigkeit). Komplexe Aufgaben des maschinellen Lernens, die unter der schlechten Verfügbarkeit von data leiden, können besser gelöst werden, indem man das “Wissen” nutzt, das diese Modelle aus großen Teilen von data gewinnen.. Wir befinden uns noch im Anfangsstadium und die Ergebnisse sind oft eher beunruhigend als erfolgreich, aber GPT-3 lernt zum Beispiel direkt, eine Aufgabe anhand einer Aufforderung zu lösen, die es während des Trainings nicht gesehen hat (zumindest theoretisch nicht gesehen haben sollte...). Dieses Aufkommen ungeplanter Fähigkeiten bedeutet, dass wir uns möglicherweise zu mehr fähig und universell einsetzbar Maschinelles Lernen.

Diese Vorteile sind nicht ohne strukturelle Veränderungen zu haben. Da sie von Natur aus groß sind, ist die Liste der Organisationen und Unternehmen, die solche Modelle schaffen können, begrenzt. Dies dürfte die Nutzung des maschinellen Lernens durch proprietäre KI-APIs oder prompte Schnittstellen, die das Training und die Wartung von Basismodellen für Ingenieure abstrahieren, definitiv fördern.. Da andererseits mehr Modelle von einem einzigen Elternteil abhängen werden, können wir mehr Regulierung, ethische und soziale Untersuchungen dieser Modelle erwarten (da Kinder die Voreingenommenheit ihres Gründungsmodells erben). Es wird definitiv immer wertvoller werden, mit Talenten zu arbeiten, die die Fähigkeiten, Grenzen und Vorurteile kennen, die sich auf die eine oder andere Weise hinter diesen Schnittstellen verbergen... angefangen bei ihrem CO2-Fußabdruck.

2 - KI nachhaltig gestalten

Es überrascht nicht, dass diese neuen Formen der KI mit hohen Kosten in Form von Kohlenstoffemissionen verbunden sind: Strubell et al. schätzen, dass ein einziges BERT-Training auf GPUs ungefähr einem Flug von NY nach SF entspricht, während Taddeo et al. ein einziges GPT-3 Training so viel CO2 ausstößt wie 49 Autos in einem Jahr.

KI wurde zunächst als wertvolles Werkzeug zur Lösung von Problemen im Zusammenhang mit dem Klimawandel angesehen (siehe die vielen Ideen aus der NeurIPS-Studie “Tackling climate change with machine learning” 2019 Workshop), aber viele Experten verweisen auch auf seine CO2-Bilanz. “Nachhaltige KI”, wie Aimee van Wynsberghe es ausdrückt, sollte nicht nur KI für Nachhaltigkeit, sondern auch die Nachhaltigkeit von KI umfassen (die auch nicht auf ökologische Belange beschränkt sein sollten).

Als Abhishek Gupta empfiehlt, arbeiten in zugunsten einer nachhaltigen KI bedeutet, neue Arbeitsweisen zu erforschen. TinyML könnte helfen uns, die Energiekosten für drahtlose Berechnungen zu vermeiden, während Bewusstsein für Kohlenstoff sollte uns helfen zu verstehen, an welchem geografischen Ort wir unsere Modelle für maschinelles Lernen am besten trainieren und einsetzen können. Auch eine sinnvollere Nutzung der vorhandenen Hardware und Dienste sollte einfach jedermanns Sache sein.

Unabhängig davon, welche Lösungen für eine nachhaltige KI genutzt werden, erwarten wir, dass Entscheidungsträger eher zweimal nachdenken, bevor sie KI-Projekte starten.. Dies wirft die Herausforderung auf Messen maschinelles Lernen Auswirkungen auf die Umwelt.

Die Entwicklung des maschinellen Lernens im Jahr 2022 sollte mit einer systematischeren Berichterstattung über CO2e neben den Leistungskennzahlen einhergehen (siehe zum Beispiel codecarbon), mehr Transparenz von cloud-Anbietern (siehe GCP Carbon Footprint Dashboard) und vor allem eine tiefere Reflexion über die Vorteile und Kosten des Einsatzes von KI. Die überzeugendsten Projekte werden diejenigen sein, die einen ganzheitlichen Ansatz verfolgen: Sie quantifizieren nicht nur den Kohlenstoff-Fußabdruck der Computer, sondern stellen ihn der Effizienz gegenüber, die diese neuen Produkte bieten., und vergessen Sie nicht, eine mögliche Rebound-Effekt. Die Messung des CO2-Fußabdrucks dieser großen Modelle ist nicht genug: wir sollten die gesamte End-to-End-Pipeline berücksichtigen: Schulung, Einsatz, Überwachung und auch die Auswirkungen auf die Arbeitsweise der Menschen.

3 - Verleihen Sie Ihren MLOPs einen Hauch von Zen

Dies ist wichtig, da die Produktionsseite des maschinellen Lernens immer komplizierter und anspruchsvoller wird.. Die MLOPs haben in diesem Jahr besonders geboomt und hatten ihren Anteil an Neuerungen oder brisanten Konzepten wie Matt Turck erklärt. Denken Sie einfach an bietet Geschäfte, Streaming Fähigkeiten und alle DataOps-Initiativen, die wir weiter unten behandeln werden.

Während das Jahr 2021 erneut ein Boomjahr für MLOPs, haben wir auch begonnen, die Zeuge nachdenklicher Kritik an seiner eigenen Begeisterung. Und die Argumente sind fair: Die MLOPs-Landschaft ist kaum lesbar, die Hunderte von Konzepten und Tools umfasst, vielleicht oft overkilling es, und könnte man vernünftigerweise argumentieren, dass ein durchschnittliches Projekt werden nicht unbedingt alle benötigen. Die Mehrheit der “angemessener Umfang” Unternehmen, die nicht FAANG (d.h. keine riesigen technischen Teams, kein unendlicher ROI durch KI, vernünftige data-Volumen) sollte es einfach halten.

Es bleibt schwierig vorherzusagen, wie sich diese Landschaft weiterentwickeln wirdOhne Zweifel sollten wir erwarten, dass mehr Startups auf den Plan treten, aber auch eine gewisse Homogenisierung und Konsolidierung hinter den großen Playern. No- oder Low-Code-Tools werden sicherlich weiter wachsen und diese Funktionen für alle verfügbar machen. Wie auch immer die Dinge sich entwickeln werden, wir glauben auch fest daran, dass sich in den nächsten Jahren offene Standards und ein “kanonischer ML-Stack” herausbilden werden” wie die, die die AI Infrastructure Alliance beabsichtigt bauen (Haftungsausschluss: Artefact ist Teil der Allianz).

Deshalb möchten wir, dass Sie einen Hauch von Zen zu Ihren MLOPs im Jahr 2022. Es bedeutet erstens, einen Schritt zurückzutreten und Ihren Stapel auf das Wesentliche reduzieren: die Effizienz Ihrer maschinellen Lernmodelle und die Produktivität Ihrer data-Wissenschaftler, zum Beispiel mit einer “aggressiv hilfreich”Mentalität wie die, die das Stitch Fix Plattformteam übernommen hat. Dann, wie die meisten der Antipatterns eines Machine Learning-Projekts scheinen von der data-Seite zu kommen, an der Konsolidierung der Grundlagen Ihres Projekts zu arbeiten: wie Sie das data selbst beziehen und verarbeiten. Wie Ciro Greco es ausdrückt, sollte data in der Tat zu einem “Staatsbürger erster Klasse” Ihres Produktionsstapels.

4 - Das data ist mehr ein Produkt als eine einfache Eingabe

“Es ging schon immer um data” sollte das Jahr 2021 erklären, mit seinem erneuten Interesse daran, was natürlich auch durch die Tatsache belegt wird, dass Data-Zentrale KI Bewegung, die von Andrew Ng ins Leben gerufen wurde. data ist nicht nur der Treibstoff für die Leistung Ihres Modells für maschinelles Lernen, sondern auch der Punkt, an dem die Probleme auftreten, denn unausgewogenes, verzerrtes oder schlecht etikettiertes data wird sich definitiv nachteilig auf nachgeschaltete Algorithmen auswirken.. Für ein bestimmtes & festes Modell sollten wir also in der Lage sein, die Qualität zu verbessern, indem wir einfach an seinem Input, dem data, arbeiten.

Interessant ist, dass diese Bewegung alle entlang der Wertschöpfungskette in Einklang bringen sollte, von der data-Ingenieurseite und ihren jüngsten Aufrufen zur Pflege der DataOps Praktiken (und wir selbst haben in diesem Jahr mit großer Freude Tools wie Große Erwartungen in all unseren Projekten) an die data-Wissenschaftler und -Analysten, denen es nicht an anspruchsvollen Methodologien um das vorliegende data zu verfeinern (Vergrößerung, Kennzeichnung, Korrektur von Verzerrungen, Stichproben...). Natürlich sind wir der Meinung, dass dies nicht ohne eine klare Investition seitens des oberen Managements und die Anwendung von expliziten Prozesse von data governance, um die verschiedenen Bereiche und ihre Eigentümer innerhalb der Organisation zunächst zu identifizieren und dann zu strukturieren.

Dies und die Tatsache, dass das data dank Initiativen wie Airbyte's und die kontinuierliche Verbesserung der data teilen Technologien in unserem modernen data-Stack würde es ermöglichen Unternehmen offensichtlich, um neue Perspektiven vom data selbst, parallel zu dem, was KI bereits in Bezug auf Automatisierung und Erkenntnisse bringt.

***

Das war's! In dieser Zeit der Neujahrsvorsätze wünschen wir Ihnen also, dass Sie die Unanständigkeit der Basismodelle zähmen, die KI nachhaltig machen, Ihren MLOPs einen Hauch von Zen verleihen und schließlich Ihr data als Produkt pflegen, anstatt es nur als Input zu betrachten. Und Sie? Was hat Sie im letzten Jahr am meisten überrascht? Was erwarten Sie, was dieses Jahr passieren wird?

Mittel Blog von Artefact.

Dieser Artikel wurde ursprünglich veröffentlicht auf Medium.com.
Folgen Sie uns auf unserem Medium Blog !

Unseren Artikel lesen

Kontaktieren Sie uns

Data & ML Herausforderungen für 2022