Les agents IA à long terme, 1re partie : Le problème dont personne ne parle

Victor Coimbra figure dans la liste Forbes « Under 30 Brazil » pour sa contribution exceptionnelle à l'innovation dans le domaine de l'IA. Il a cofondé la branche latino-américaine Artefact, qui est aujourd'hui un pôle technologique mondial comptant 200 employés. Il apporte une expertise approfondie dans le développement à grande échelle de solutions d'IA et la constitution d'équipes technologiques hautement performantes sur les marchés internationaux.

En mars 2025, un organisme de recherche appelé METR a publié une étude qui n’a pas reçu toute l’attention qu’elle méritait. Ses chercheurs avaient mesuré un aspect souvent négligé : la durée pendant laquelle les systèmes d’IA pouvaient accomplir des tâches avant de tomber en panne. Il ne s’agissait pas de savoir ce qu’ils pouvaient faire lors d’une seule interaction. METR souhaitait déterminer combien de temps ils pouvaient maintenir un effort cohérent et utile.

Leur méthodologie était rigoureuse : 170 tâches dans les domaines du logiciel, de la recherche et de la résolution de problèmes. Des références humaines issues de 236 essais réalisés par des experts du domaine. Une modélisation statistique pour prédire la probabilité de réussite en fonction de la durée de la tâche.

Principale conclusion : les capacités d'exécution des tâches ont doublé tous les sept mois pendant six années consécutives.

À la mi-2024, les principaux systèmes d'IA étaient capables d'accomplir de manière fiable des tâches qui auraient pris environ dix-neuf minutes à un expert humain. Début 2025, ce délai était passé à près d'une heure. Les systèmes les plus récents dépassent les deux heures. La courbe s'accélérait.

Mais derrière ce titre se cache une réalité plus complexe.

Le fossé entre les démonstrations et la mise en œuvre

En août 2025, METR a publié une étude de suivi qui aurait dû donner à réfléchir à tout le monde. Ils ont testé l'IA sur dix-huit tâches concrètes, c'est-à-dire le genre de travail qui compte vraiment dans les entreprises.

Voici quelques résultats :

Taux de réussite des tests automatisés : 38 %.
Prêt à l'emploi sans intervention humaine : 0 %.

Zéro. Aucun des travaux produits par l'IA n'était prêt à l'emploi sans intervention humaine. Même lorsque les contrôles automatisés donnaient des résultats positifs, chaque résultat présentait des lacunes : documentation manquante, vérification incomplète, problèmes de qualité qui n'auraient jamais résisté à un examen minutieux dans une véritable entreprise.

Durée moyenne du nettoyage : 26 minutes, soit environ un tiers de la durée initiale de la tâche.

Cet écart entre les tests de performance automatisés et l'ergonomie dans la vie réelle est le premier problème dont personne ne parle. Les systèmes d'IA s'améliorent dans les domaines spécifiques évalués par ces tests. En revanche, ils progressent beaucoup plus lentement lorsqu'il s'agit de saisir toute la portée de ce que signifie réellement « accomplir une tâche » dans la pratique.

Cette distinction est importante pour quiconque envisage d'investir. Un système qui réussit un test mais produit des résultats inutilisables n'est pas un système capable de fonctionner de manière autonome. C'est un système qui nécessite qu'on vienne réparer ses erreurs.

Le paradoxe de la productivité

Voici le deuxième problème. En juillet 2025, METR a mené une étude contrôlée auprès de seize professionnels expérimentés. La question était la suivante : l'IA permet-elle réellement aux gens d'être plus rapides ?

Résultat attendu avant l'étude : gain de vitesse de 24 %.
Résultat réel : ralentissement de 19 %.

Les personnes utilisant l'IA ont mis plus de temps à accomplir leurs tâches que celles qui travaillaient sans assistance. Et voici le plus troublant : à l'issue de l'étude, les participants continuaient de croire qu'ils avaient gagné 20 % en rapidité. Leur perception était complètement à l'opposé de la réalité.

Cinq facteurs expliquaient ce ralentissement :

La charge de travail liée au débogage. Le temps gagné lors de la création du travail a été perdu à corriger les erreurs.
Coûts liés au changement de contexte. Le fait de passer des suggestions de l'IA au travail proprement dit a généré une charge cognitive.
Courbe d'apprentissage. Même les professionnels expérimentés ont besoin de temps pour comprendre comment utiliser efficacement l'IA.
Exigences de qualité cachées. Les résultats générés par l'IA nécessitaient une documentation, une vérification et une mise en forme que les systèmes ne fournissaient pas.
Des normes concrètes. Les organisations bien établies ont des critères de qualité que les travaux générés par l'IA n'ont systématiquement pas réussi à satisfaire.

Il ne s'agit pas ici de dire que l'IA est inutile. Il s'agit plutôt du fossé qui sépare les démonstrations des fournisseurs de la réalité au sein des entreprises. Le paradoxe de la productivité suggère que, pour les professionnels expérimentés travaillant selon des processus bien rodés, l'assistance offerte actuellement par l'IA peut générer plus de travail qu'elle n'en fait gagner.

Pourquoi les systèmes d'IA perdent en performance avec le temps

Pourquoi les systèmes d'IA ont-ils du mal à traiter les tâches plus longues ? La réponse tient à leur architecture, mais les implications sont d'ordre stratégique.

Considérez l'IA comme dotée d'une mémoire de travail, c'est-à-dire d'une capacité limitée à conserver des informations relatives à la tâche en cours. À mesure que cette capacité se remplit, les performances diminuent. Le système perd de vue les décisions antérieures. Il se contredit. Il oublie ce qu'il essayait d'accomplir.

Quiconque a utilisé un assistant IA pendant plus de trente minutes le sait par expérience. Au début, le système fonctionne à merveille. Au bout d'une heure, il a déjà oublié les décisions prises vingt minutes plus tôt. Il commet des erreurs qu'il aurait détectées auparavant. Il perd le fil.

Des études ont permis de quantifier ce phénomène. À mesure que la quantité d'informations que l'IA doit traiter augmente, la précision peut baisser de 20 à 30 points de pourcentage. Pour les tâches de raisonnement complexes, une étude a montré que la précision passait de 82 % à 22 % à mesure que la complexité de la tâche augmentait.

Les mathématiques sont implacables. Les petites erreurs s'accumulent. S'il existe ne serait-ce qu'une chance sur cent de perdre un détail essentiel à chaque fois que le système traite de nouvelles informations, après 100 interactions, la probabilité de conserver ce détail tombe à 37 %.

Il ne s'agit pas d'un bug propre à un produit en particulier. C'est une limite inhérente au fonctionnement des systèmes d'IA actuels. Et cela impose une limite stricte entre ce qu'ils peuvent faire de manière autonome et ce pour quoi ils ne peuvent apporter qu'une aide.

Toutes les tâches ne se valent pas

Les recherches menées par METR ont mis en évidence une autre difficulté : les capacités de l'IA varient considérablement d'un domaine à l'autre.

Les tâches analytiques et structurées, telles que data et la production de rapports, démontrent une grande efficacité : les systèmes sont capables de traiter des tâches qui prendraient entre une et trois heures à un être humain.

Les tâches nécessitant une interaction avec des systèmes externes— navigation, coordination entre plateformes, traitement des informations visuelles — affichent des capacités 40 à 100 fois inférieures. Leur niveau de maturité accuse un retard d'environ deux ans.

Les applications du monde physique, comme les véhicules autonomes, évoluent beaucoup plus lentement que les tâches numériques.

Ce que cela signifie : l'affirmation selon laquelle « l'IA peut fonctionner pendant des heures » dépend du domaine concerné. Un système capable d'effectuer une tâche analytique de deux heures peut rencontrer des difficultés face à une tâche de coordination de vingt minutes. La courbe des capacités n'est pas uniforme.

Pour les organisations, cela implique d'adapter soigneusement le déploiement de l'IA aux caractéristiques des tâches. Le cycle de hype présente l'IA comme une solution polyvalente. La réalité est bien plus spécifique.

Ce que cette tendance signifie réellement

Le METR a qualifié ses conclusions de « l'une des tendances les plus importantes de l'histoire de l'humanité ». C'est peut-être un peu exagéré. Mais cette tendance se maintient depuis six ans, et son orientation est claire.

L'IA actuelle affiche un taux de réussite quasi parfait pour les tâches qui prennent moins de quatre minutes à un être humain. Elle affiche un taux de réussite inférieur à 10 % pour les tâches qui prennent plus de quatre heures. La zone intéressante — et celle qui importe pour les décisions organisationnelles — se situe quelque part entre les deux.

Voici mon avis en toute franchise : nous disposons aujourd’hui d’une IA capable de travailler de manière continue pendant une à deux heures sur des tâches bien définies dans des domaines spécifiques. Ces systèmes ne peuvent toutefois pas le faire de manière fiable. Ils ne peuvent pas le faire sans supervision humaine. Ils ne peuvent pas le faire d’une manière qui réponde aux véritables normes de qualité organisationnelles sans qu’un travail de correction soit nécessaire.

Mais cette évolution laisse penser que ces limites ne sont peut-être pas définitives. Toutes les grandes entreprises spécialisées dans l'IA optimisent leurs systèmes pour un fonctionnement continu. Tous les utilisateurs sérieux mettent en place des solutions de contournement pour pallier les limites actuelles. Toutes les plateformes d'entreprise renforcent leur infrastructure pour permettre des tâches d'IA de plus longue durée.

La question n'est pas de savoir si l'IA finira par fonctionner pendant des heures. La question est de savoir quand — et si la génération actuelle de solutions y parviendra, ou si nous attendons toujours une avancée décisive qui ne s'est pas encore produite.

Dans la deuxième partie, nous examinerons les trois approches qui ont été proposées pour prolonger la durée de fonctionnement de l'IA : le cycle de redémarrage, la mémoire sélective et la coordination en équipe.

Références

Articles de recherche

Développer une IA prête à l'emploi grâce à une mémoire à long terme évolutive — arxiv.org/abs/2504.19413
Architecture mémoire basée sur des graphes multiples pour l'IA — arxiv.org/abs/2601.03236
Évaluation de l'IA en production — arxiv.org/abs/2512.04123

Rapports sectoriels et livres blancs

Modes de défaillance dans les systèmes d'IA — Microsoft
Leçons tirées de 2025 sur l'IA et la confiance — Google Cloud
État des lieux de l'ingénierie de l'IA — LangChain
Évaluation par rapport aux tests de performance standard vs évaluation en conditions réelles — METR

Documentation technique

Comment nous avons développé notre système de recherche multi-agents — Anthropic
Spécification du protocole Model Context — modelcontextprotocol.io
Documentation Fresh-Start Cycling (« Ralph Wiggum ») — Geoffrey Huntley (ghuntley.com/ralph/)

Contactez-nous

Les agents d'IA à long terme, 1re partie : le problème dont personne ne parle

Auteur