Quatre équipes de Data Scientists et d'ingénieurs logiciels d'Artefact, experts en technologie MLOps, ont concouru contre leurs pairs du monde entier et ont remporté ce hackathon international de deux semaines, dont l'objectif était de développer des solutions de recherche vectorielle en utilisant le jeu de données arXiv scholarly papers.

Le tout premier hackathon du Vector Search Engineering Lab s'est tenu du 24 octobre au 4 novembre 2022. Le hackathon a été organisé conjointement par la communauté MLOps, Redis, NVIDIA Inception et Saturn Cloud et s'est concentré sur la recherche vectorielle en utilisant le jeu de données arXiv scholarly papers. La recherche vectorielle est une méthode d'indexation et de recherche dans de grands volumes de vecteurs intégrés pour trouver les voisins les plus proches d'une requête donnée (vectorisée).

Bien que 88 participants répartis en 20 équipes aient pris part à la compétition, seules 12 équipes ont réussi à soumettre leur projet. Les gagnants ne se sont pas contentés d'être glorieux : ils ont également remporté des prix en espèces, des produits NVIDIA, des articles de blog et des cadeaux de sponsors. Vous trouverez un compte-rendu complet de la compétition sur le blog de mlops.community.

La première place a été attribuée à l'équipe Hackunamadata, composée des Artefactors Ali Bellamlih Mamou, Pol de Font-Réaulx, Benoit Bazouin et Hadrien DAURES. Leur proposition gagnante était "arXiv Copilot", un assistant de recherche pour les étudiants ou les auteurs d'articles ou de revues scientifiques. Extension Chrome pour Google Docs, afXiv Copilot recommande en temps réel des liens vers des articles publiés en rapport avec ce que l'utilisateur tape. Les options de recherche comprennent le nombre de mots, la profondeur d'envoi du texte et la collection de textes par année et par catégorie. Les liens suggérés par le moteur peuvent être sauvegardés et consultés ultérieurement, ce qui est utile pour les étudiants qui prennent des notes pendant les cours, par exemple. Vous pouvez regarder leur démo pour en savoir plus sur leur idée gagnante.

La deuxième place a été attribuée à l 'équipe AreYouRedis, composée d'Ariel Eddie Guidi, Armand Kouyoumdjian, Robin Doumerc et Youssef Moutaouakil Oudghiri. Leur "Darwinian Paper Explorer" est une application de recherche qui permet de trouver des articles sur un sujet donné non seulement par thème mais aussi par évolution d'une année sur l'autre (d'où le nom), et même de prédire les tendances futures en fonction du nombre d'articles publiés ; l'application recommande également des listes de lecture basées sur l'ordre de similarité des sujets. Regardez leur vidéo ici.

Deux autres équipes d'Artefact ont été récompensées :

  • L'équipe THM, composée de Henrique Brito, Tom Darmon, Michel Hua et Corentin Roineau, a remporté le 4e prix pour son concept THM CLI, qui permet aux chercheurs de trouver des articles directement depuis leur terminal au lieu d'aller sur un site web. Lisez leur blog jour par jour ;
  • L'équipe RedisPlayerOne (Hugo Vasselin, Amale El Hamri, Karim Si Larbi et Sacha Lasry) a remporté le 6ème prix pour son moteur de recherche "AskYves". Regardez leur démo.
"Je suis très fier de nos collaborateurs talentueux qui ont remporté les premières places lors d'un hackathon international MLOps où seuls les meilleurs data scientists et ingénieurs logiciels se sont affrontés dans cette discipline très exigeante",
Vincent Luciani, cofondateur et directeur général d'Artefact.

Le défi pour chaque équipe était d'utiliser les jeux de données des articles arXiv et Redis comme base de données vectorielles en mémoire pour créer un moteur de recherche vectoriel innovant et fonctionnel capable de créer une réelle valeur ajoutée pour l'entreprise. "Notre expertise MLOps nous a définitivement donné un avantage pour combiner ces éléments transversaux", a noté Robin Doumerc, Staff ML Engineer chez Artefact "Nous mettons ce même type d'innovation en pratique tous les jours lorsque nous travaillons".

Les soumissions ont été jugées sur une combinaison d'aptitudes techniques, le facteur WOW (créativité + unicité), l'utilisation des technologies requises (Redis Cloud, Saturn Cloud...), et la qualité et la clarté de la documentation. Les équipes devaient être en mesure d'utiliser des outils et des techniques tels que :

  • Recherche de similarité vectorielle

  • NLP

  • Exploration de texte

  • Graphes de connaissances

  • Recherche de documents

  • Identification du sujet

  • Questions et réponses

  • Systèmes de recommandation

  • Visualisation des Data .

Il existe à Paris une communauté MLOps en plein essor qui permet aux experts en ML du monde entier de partager les meilleures pratiques en matière d'opérations d'apprentissage automatique sur le terrain. L'un des sujets les plus importants concerne les questions liées à la mise en production des modèles d'apprentissage automatique et à leur maintien en bonne santé au fil du temps.

En juin 2022, Amale El Hamri, Manager ML Engineer chez Artefact, est intervenu en collaboration avec Decathlon lors de l'événement MLOps World à Toronto sur l'utilisation des principes MLOps pour mieux piloter leur activité grâce aux prédictions de chiffre d'affaires.

En tant qu'expert en data et en IA, Artefact se concentre de plus en plus sur les MLOps et l'ingénierie ML. Dans ce cadre, Artefact joue un rôle plus important dans la communauté MLOps en collaborant avec la communauté MLOps Paris Meetup lors de Meetups qui apporteront de la visibilité aux experts locaux dans le domaine, et renforceront notre image d'entreprise experte dans l'industrialisation de projets ML.