Data & ML challenges for 2022

Auteur

Bruce Delattre

Data Responsable scientifique à Artefact

Lisez notre article sur

Principales tendances 2021 data & ML... et ce qu'elles signifient pour 2022

L'année 2021 a été très riche en actualités liées à data et à l'IA. Et que nous réserve l'avenir ? Dans cet article, nous avons sélectionné quelques histoires et articles de blog que nous avons trouvés perspicaces, pris du recul et essayé de déduire ce qu'il faut attendre de ces “signes” précoces pour 2022.

Cet article a été rendu possible grâce aux contributions d'Arthur Derennes, Robin Doumerc, Amale El Hamri, Benoît Goujon, Vincent Luciani et Hanania Ouazan.

1 - Apprivoiser l'indécence des modèles de fondation

2021 a eu son lot de nouveaux grands modèles. Après le GPT-3 (Brown et al, 2020) l'année précédente, vous avez peut-être entendu parler de la CLIP ou, plus récemment, Marmotte. Ces “modèles de base”, en tant que Bommasani et al (2021) (car leur architecture est souvent réutilisée, légèrement modifiée pour s'adapter à une tâche spécifique d'apprentissage automatique, ou parce qu'ils sont aussi souvent affinés par l'apprentissage par transfert), poursuivent leur voyage et leurs progrès, car il ne semble pas y avoir de limite au nombre de paramètres optimisés ou data exploités pour les entraîner. Ce qui est intéressant, c'est que ces modèles entraînent d'importants gains de productivité, En tirant parti, comme le remarquent Bommasani et ses coauteurs, de la combinaison des éléments suivants l'émergence et homogénéisation.

Commençons par l'homogénéisation : non seulement la plupart des modèles que vous voyez dans la littérature sont adaptés à partir de ces architectures génériques (pensez à BERT qui est omniprésent de nos jours) ; mais souvent aussi les praticiens ne changent pas l'architecture, Ils se contentent d'adapter un “grand” modèle disponible à une tâche en aval à l'aide de l'apprentissage par transfert. Cette “invariance” de l'architecture signifie que les nouvelles améliorations apportées à un modèle de fondation peuvent facilement être transférées à tous ses modèles enfants.

L'émergence, ensuite, vient de la façon dont ils gèrent la formation de data. Formés en auto-supervision, à partir de data brutes qui n'ont pas été étiquetées de manière spécifique, ils commencent à montrer qu'ils peuvent répondre à des besoins pour lesquels ils n'ont pas été conçus à l'origine (une capacité “zero-shot”). Les tâches complexes d'apprentissage automatique qui souffrent d'une très faible disponibilité de data peuvent être mieux résolues en tirant parti de la “connaissance” que ces modèles extraient de gros morceaux de data.. Nous n'en sommes qu'aux premiers stades et les résultats sont souvent plus troublants que fructueux, mais le GPT-3, par exemple, apprend directement à résoudre une tâche à partir d'une invite qu'il n'a pas vue pendant la formation (du moins, théoriquement, n'aurait pas dû voir...). Cette émergence de capacités non planifiées signifie que nous pourrions évoluer vers plus d'efficacité et d'efficience. capable et polyvalent l'apprentissage automatique.

Ces avantages ne vont pas sans changements structurels. Comme il s'agit de modèles de grande taille par nature, la liste des organisations et des entreprises capables de les créer est restreinte. Cela devrait certainement stimuler l'utilisation de l'apprentissage automatique par le biais d'API d'IA propriétaires ou d'interfaces rapides, en confiant aux ingénieurs la formation et la maintenance des modèles de base.. D'autre part, comme de plus en plus de modèles dépendront d'un seul parent, on peut s'attendre à ce qu'il y ait davantage de réglementation, d'enquêtes éthiques et sociales sur ces modèles (car les enfants héritent du biais de leur modèle de base). Il y aura certainement de plus en plus de valeur à travailler avec des talents connaissant les capacités, les limites et les biais cachés derrière ces interfaces, d'une manière ou d'une autre... à commencer par leur empreinte carbone.

2 - Rendre l'IA durable

Il n'est pas surprenant que ces nouvelles formes d'IA aient un coût élevé en termes d'émissions de carbone: Strubell et al. estime qu'un seul entraînement de l'ORET sur les GPU est à peu près équivalent à un vol NY-SF, tandis que l'entraînement de l'ORET sur les GPU est à peu près équivalent à un vol NY-SF. Taddeo et al. évaluer qu'une seule formation GPT-3 émet autant de CO2 que 49 voitures au cours d'une année.

L'IA a d'abord été considérée comme un outil précieux pour résoudre les problèmes liés au changement climatique (voir les nombreuses idées de la conférence NeurIPS “Tackling climate change with machine learning” 2019). atelier), mais de nombreux experts pointent également du doigt son empreinte carbone. “IA durable”Selon Aimee van Wynsberghe, la notion de "durabilité" devrait englober non seulement l'IA pour la durabilité, mais aussi la durabilité de l'IA. (qui ne doit pas non plus se limiter aux préoccupations écologiques).

Comme Abhishek Gupta recommande, travaillant en pour favoriser une IA durable, il faut explorer de nouvelles méthodes de travail. TinyML pourrait nous aider à éviter le coût énergétique des calculs sans fil, pendant que sensibilisation au carbone devrait nous aider à comprendre dans quelle zone géographique nous pourrions le mieux former et déployer nos modèles d'apprentissage automatique. Une utilisation plus judicieuse du matériel et des services existants devrait également être l'affaire de tous.

Quelles que soient les solutions utilisées pour adopter une IA durable, nous nous attendons à ce que les décideurs soient plus enclins à réfléchir à deux fois avant de lancer des projets d'IA.. Cela soulève la question de savoir mesure l'apprentissage automatique de l'impact sur l'environnement.

Le développement de l'apprentissage automatique, en 2022, devrait être accompagné d'un rapport plus systématique sur les émissions de CO2e à côté des mesures de performance (voir par exemple codecarbone), une plus grande transparence de la part des fournisseurs de cloud (voir l'empreinte carbone des BPC). tableau de bord) et, surtout, une réflexion plus approfondie sur les avantages et les coûts de l'utilisation de l'IA. Les projets les plus convaincants seront ceux qui adopteront une approche holistique : il ne s'agit pas seulement de quantifier l'empreinte carbone de l'informatique, mais de la mettre en regard de l'efficacité apportée par ces nouveaux produits., sans oublier de tenir compte d'une éventuelle effet de rebond. Il ne suffit pas de mesurer l'empreinte carbone de ces grands modèles : nous devrions prendre en compte l'ensemble du processus de bout en bout : formation, déploiement, suivi, ainsi que son impact sur les méthodes de travail des personnes.

3 - Ajouter une touche de zen à vos MLOPs

Ceci est important car la production de l'apprentissage automatique devient de plus en plus complexe et sophistiquée.. Les MLOPs ont particulièrement continué leur essor cette année et ont eu leur part d'innovations ou de concepts à la mode, comme Matt Turck explique. Pensez simplement à caractéristiques des magasins, streaming et toutes les initiatives DataOps que nous aborderons juste en dessous.

Si l'année 2021 a été une fois de plus une année faste pour les MLOPs, Nous avons également commencé à de la critique réfléchie à l'encontre de son propre buzz. Et les arguments sont justes : le paysage des MLOPs est à peine lisible, englobant des centaines de concepts et d'outils, peut-être souvent surmortalité et on pourrait raisonnablement affirmer qu'un projet moyen n'aura pas nécessairement besoin de tous les éléments. La majorité des “échelle raisonnable”Les entreprises qui ne sont pas FAANG (c'est-à-dire. pas d'énormes équipes techniques, pas de ROI infini généré par l'IA, des volumes raisonnables de data) devrait rester simple.

Il reste difficile de prédire comment ce paysage évolueraLes outils sans code ou à faible code continueront certainement à se développer et à mettre ces fonctionnalités à la disposition de tous. Les outils sans code ou à faible code continueront certainement à se développer et à mettre ces fonctionnalités à la disposition de tous. Cependant, les choses peuvent changer, nous croyons également à l'émergence, dans les prochaines années, de normes ouvertes et d'une “pile ML canonique” comme celui que l'Alliance pour l'infrastructure de l'IA a l'intention de mettre en place. construire (avis de non-responsabilité : Artefact fait partie de l'Alliance).

Nous vous souhaitons donc d'ajouter une touche de Zen à vos MLOP en 2022. Cela signifie, tout d'abord, prendre du recul et élaguer votre pile pour ne garder que ce qui est vraiment important: l'efficacité de vos modèles d'apprentissage automatique et la productivité de vos scientifiques data, par exemple avec un outil “agressivement utile”L'équipe de la plateforme Stitch Fix a adopté la même mentalité. Ensuite, comme la plupart des anti-modèles d'un projet d'apprentissage automatique semblent provenir du côté du data, de travailler à la consolidation des fondements de votre projet : comment vous approvisionnez et traitez le data lui-même. Comme le dit Ciro Greco, le data devrait en effet devenir un “.“citoyen de première classe” de votre pile de production.

4 - Faire du data plus un produit qu'un simple intrant

“Il a toujours été question de data” devrait déclarer 2021, avec le regain d'intérêt qu'il suscite, comme en témoigne, bien sûr, le projet de loi sur la protection de l'environnement. Data-AI centrée lancé par Andrew Ng. Le data n'est pas seulement le carburant de la performance de votre modèle d'apprentissage automatique, c'est aussi là que les problèmes se posent, car un data déséquilibré, biaisé ou mal étiqueté aura certainement un impact négatif sur les algorithmes en aval.. Pour un modèle donné et fixe, nous devrions donc être en mesure de gagner en qualité simplement en travaillant sur son entrée, le data.

Ce qui est intéressant, c'est que ce mouvement devrait réconcilier tous les acteurs de la chaîne de valeur, qu'il s'agisse de l'ingénierie data et de ses récents appels à l'amélioration de la qualité des produits. DataOps (et nous avons nous-mêmes pris un réel plaisir cette année à inclure des outils tels que Les grandes espérances dans tous nos projets) aux scientifiques et analystes de data qui ne manqueront pas d'outils sophistiqués pour les aider dans leur travail. les méthodologies pour affiner la data disponible (augmentation, étiquetage, correction des biais, échantillonnage...). Bien entendu, nous pensons que cela ne sera pas possible sans un investissement clair de la part de la direction générale et l'application de règles explicites. processus de data governance pour identifier, puis structurer les différents domaines et leurs propriétaires au sein de l'organisation.

Ceci, combiné au fait que data sera de plus en plus facile à déplacer grâce à des initiatives telles que Airbyte's et l'amélioration continue des data partage technologies de notre pile data moderne permettraient à la les entreprises doivent manifestement trouver de nouvelles perspectives du data lui-même, Parallèlement à ce que l'IA apporte déjà en termes d'automatisation et de connaissances.

***

Voilà, c'est fait ! En cette période de résolutions pour la nouvelle année, nous vous souhaitons donc de dompter l'indécence des modèles de fondation, de rendre l'IA durable, d'ajouter une touche de zen à vos MLOP et enfin d'entretenir votre data comme un produit plutôt que de le considérer comme un simple intrant. Et vous ? Qu'est-ce qui vous a le plus surpris l'année dernière ? Que pensez-vous qu'il se passera cette année ?

Moyen Blog par Artefact.

Cet article a été initialement publié sur Medium.com.
Suivez-nous sur notre Medium Blog !

Lire notre article

Contactez-nous

Data & ML défis pour 2022