Victor Coimbra a été reconnu dans la liste Forbes Under 30 Brazil pour ses contributions exceptionnelles à l'innovation dans le domaine de l'IA. Il a cofondé les opérations latino-américaines de Artefact, qui constituent aujourd'hui un pôle technologique mondial comptant 200 employés. Il apporte une expertise approfondie dans la mise à l'échelle des solutions d'IA et la création d'équipes technologiques performantes sur les marchés internationaux.
En mars 2025, un organisme de recherche appelé METR a publié une étude qui n’a pas reçu toute l’attention qu’elle méritait. Ses chercheurs avaient mesuré un aspect souvent négligé : la durée pendant laquelle les systèmes AI pouvaient accomplir des tâches avant de tomber en panne. Il ne s’agissait pas de déterminer ce qu’ils pouvaient faire en une seule interaction. METR souhaitait savoir combien de temps ils pouvaient maintenir un effort cohérent et utile.
Leur méthodologie était rigoureuse : 170 tâches dans les domaines du logiciel, de la recherche et de la résolution de problèmes. Des données de référence humaines provenant de 236 exécutions effectuées par des experts du domaine. Modélisation statistique pour prédire la probabilité de réussite en fonction de la durée de la tâche.
La principale conclusion : les capacités d'exécution des tâches ont doublé tous les sept mois pendant six ans d'affilée.
À la mi-2024, les principaux systèmes d'IA pouvaient accomplir de manière fiable des tâches qui prendraient environ dix-neuf minutes à un expert humain. Au début de l'année 2025, ce temps s'élevait à près d'une heure. Les systèmes les plus récents atteignent plus de deux heures. La courbe s'accélère.
Mais derrière ce titre se cache une histoire plus complexe.
Le fossé entre les démonstrations et les réalisations
En août 2025, le METR a publié un suivi qui aurait dû faire réfléchir tout le monde. Ils ont testé l'IA sur dix-huit tâches réelles - le genre de travail qui compte vraiment dans les organisations.
Voici quelques résultats :
- Taux de réussite au test automatisé : 38%.
- Prêt à l'emploi sans nettoyage humain : 0%.
Zéro. Aucun des travaux produits par l'IA n'était prêt à être utilisé sans intervention humaine. Même lorsque les contrôles automatisés étaient réussis, chaque résultat présentait des lacunes : documentation manquante, vérification incomplète, problèmes de qualité qui n'auraient jamais survécu à un examen dans une organisation réelle.
Durée moyenne du nettoyage : 26 minutes, soit environ un tiers de la durée initiale de la tâche.
Cet écart entre les critères de référence automatisés et la facilité d'utilisation dans le monde réel est le premier problème dont personne ne parle. Les systèmes d'IA s'améliorent dans les domaines restreints que mesurent les critères de référence. Ils s'améliorent beaucoup plus lentement en ce qui concerne l'ensemble de ce que signifie “accomplir une tâche” dans la pratique.
Cette distinction est importante pour quiconque planifie des investissements. Un système qui réussit un test mais produit un résultat inutilisable n'est pas un système qui peut fonctionner de manière autonome. C'est un système qui nécessite que quelqu'un fasse le ménage derrière lui.
Le paradoxe de la productivité
Voici le deuxième problème. En juillet 2025, le METR a mené une étude contrôlée auprès de seize professionnels expérimentés. La question : l'IA rend-elle réellement les gens plus rapides ?
Résultat attendu avant l'étude : accélération de 24%.
Résultat réel : ralentissement de 19%.
Les personnes utilisant l'IA ont mis plus de temps à accomplir les tâches que les personnes travaillant sans assistance. Et voici la partie la plus troublante : après l'étude, les participants pensaient toujours avoir obtenu une accélération de 20%. Leur perception était complètement inversée par rapport à la réalité.
Cinq facteurs expliquent ce ralentissement :
- Frais généraux de débogage. Gain de temps générant du travail perdu à corriger des erreurs.
- Coûts de changement de contexte. Le passage entre les suggestions de l'IA et le travail réel a créé une charge cognitive.
- Courbe d'apprentissage. Même les professionnels expérimentés passent du temps à comprendre comment utiliser l'IA de manière efficace.
- Exigences de qualité cachées. Les résultats de l'IA nécessitaient une documentation, une vérification et un formatage que les systèmes ne fournissaient pas.
- Normes du monde réel. Les organisations matures ont des critères de qualité que les travaux générés par l'IA ne respectent pas systématiquement.
Il ne s'agit pas d'une histoire sur l'inutilité de l'IA. Il s'agit plutôt de l'écart entre les démonstrations des fournisseurs et la réalité organisationnelle. Le paradoxe de la productivité suggère que pour les professionnels expérimentés travaillant sur des processus matures, l'assistance actuelle de l'IA peut créer plus de travail qu'elle n'en économise.
Pourquoi les systèmes d'IA se dégradent-ils avec le temps ?
Pourquoi les systèmes d'intelligence artificielle ont-ils du mal à accomplir des tâches plus longues ? La réponse est architecturale, mais les implications sont stratégiques.
Imaginez que l'IA dispose d'une mémoire de travail, c'est-à-dire d'une capacité limitée de stockage des informations relatives à la tâche en cours. Au fur et à mesure que cette capacité se remplit, les performances se dégradent. Le système perd la trace des décisions antérieures. Il se contredit. Il oublie ce qu'il essayait d'accomplir.
Quiconque a utilisé un assistant d'intelligence artificielle pendant plus de trente minutes en sait quelque chose. Le système démarre sur les chapeaux de roue. Une heure plus tard, il a oublié les décisions prises il y a vingt minutes. Il introduit des erreurs qu'il aurait pu détecter plus tôt. Il perd le fil.
La recherche a quantifié ce phénomène. À mesure que la quantité d'informations que l'IA doit suivre augmente, la précision peut chuter de 20 à 30 points de pourcentage. Dans les tâches de raisonnement complexes, une étude a montré que la précision passait de 82% à 22% à mesure que la complexité de la tâche augmentait.
Les mathématiques ne pardonnent pas. Les petites erreurs s'accumulent. S'il y a ne serait-ce que 1% de chances de perdre un détail essentiel chaque fois que le système traite de nouvelles informations, après 100 interactions, les chances de conserver ce détail tombent à 37%.
Il ne s'agit pas d'un bogue dans un produit particulier. Il s'agit d'une limitation inhérente au fonctionnement des systèmes d'intelligence artificielle actuels. Et cela crée un plafond rigide sur ce qu'ils peuvent posséder par rapport à ce qu'ils peuvent seulement aider.
Toutes les tâches ne sont pas égales
Les recherches du METR ont révélé une autre complication : Les capacités de l'IA varient considérablement d'un domaine à l'autre.
Tâches analytiques et structurées comme l'analyse data et la génération de rapports montrent une forte capacité - les systèmes peuvent effectuer un travail qui prendrait une à trois heures à un être humain.
Tâches nécessitant une interaction avec des systèmes externes-La navigation, la coordination entre les plates-formes, le traitement des informations visuelles montrent des capacités 40 à 100 fois inférieures. Ils ont environ deux ans de retard en termes de maturité.
Applications dans le monde physique comme les véhicules autonomes, s'améliorent beaucoup plus lentement que les tâches numériques.
L'implication : “L'IA peut travailler pendant des heures” est spécifique à un domaine. Un système qui gère une tâche analytique de deux heures peut avoir des difficultés avec une tâche de coordination de vingt minutes. La courbe de capacité n'est pas uniforme.
Pour les organisations, cela signifie qu'il faut soigneusement adapter le déploiement de l'IA aux caractéristiques des tâches. Le cycle du battage médiatique traite l'IA comme une solution polyvalente. La réalité est très spécifique.
La signification de la tendance
Le METR a décrit ses résultats comme étant potentiellement “l'une des tendances les plus importantes de l'histoire de l'humanité”. C'est peut-être un peu exagéré. Mais la tendance se maintient depuis six ans et la direction est claire.
L'IA actuelle réussit presque parfaitement les tâches qui prennent moins de quatre minutes aux humains. Elle obtient des résultats inférieurs à 10% pour les tâches qui prennent plus de quatre heures. La zone intéressante - et celle qui importe pour les décisions organisationnelles - se situe quelque part entre les deux.
Voici mon évaluation honnête : nous disposons d'une IA capable de soutenir l'effort pendant une à deux heures sur des tâches bien définies dans des domaines spécifiques. Ces systèmes ne peuvent pas le faire de manière fiable. Ils ne peuvent pas le faire sans surveillance humaine. Ils ne peuvent pas le faire d'une manière qui réponde aux normes de qualité organisationnelles réelles sans nettoyage.
Mais la trajectoire suggère que ces limitations pourraient ne pas être permanentes. Toutes les grandes entreprises d'IA optimisent leur fonctionnement pour qu'il soit durable. Chaque adopteur sérieux met en place des solutions de contournement pour les limites actuelles. Chaque plateforme d'entreprise ajoute une infrastructure pour les travaux d'IA à plus long terme.
La question n'est pas de savoir si l'IA finira par fonctionner pendant des heures. La question est de savoir quand, et si la génération actuelle de solutions y parviendra, ou si nous attendons toujours une percée qui n'a pas encore eu lieu.
En Partie 2, Dans le cadre de ce projet, nous examinerons les trois approches qui ont émergé pour prolonger la durée de travail de l'IA : le cyclisme de redémarrage, la mémoire sélective et la coordination basée sur le travail d'équipe.
Références
Documents de recherche
- Construire une IA prête pour la production avec une mémoire à long terme évolutive arxiv.org/abs/2504.19413
- Architecture de mémoire basée sur des graphes multiples pour l'IA arxiv.org/abs/2601.03236
- Mesurer l'IA dans la production - arxiv.org/abs/2512.04123
Rapports sur l'industrie et livres blancs
- Modes de défaillance des systèmes d'intelligence artificielle - Microsoft
- Les leçons de 2025 sur l'IA et la confiance - Google Cloud
- État de l'ingénierie de l'IA - LangChain
- Évaluation de référence par rapport à l'évaluation en situation réelle - METR
Documentation technique
- Comment nous avons construit notre système de recherche multi-agents - Anthropic
- Spécification du protocole de contexte de modèle - modelcontextprotocol.io
- Documentation sur le cyclisme nouveau départ (“Ralph Wiggum”) - Geoffrey Huntley (ghuntley.com/ralph/)

BLOG






