{"id":1083983,"date":"2026-02-06T10:28:09","date_gmt":"2026-02-06T10:28:09","guid":{"rendered":"https:\/\/www.artefact.com\/?post_type=blog&#038;p=1083983"},"modified":"2026-02-10T16:18:03","modified_gmt":"2026-02-10T16:18:03","slug":"long-run-ai-agents-part-1-the-problem-nobody-talks-about","status":"publish","type":"blog","link":"https:\/\/www.artefact.com\/fr\/blog\/long-run-ai-agents-part-1-the-problem-nobody-talks-about\/","title":{"rendered":"Les agents AI \u00e0 long terme, 1re partie : le probl\u00e8me dont personne ne parle"},"content":{"rendered":"<p><em><a href=\"https:\/\/www.linkedin.com\/in\/victor-coimbra-999a02a0\/\" target=\"_blank\" rel=\"noopener\">Victor Coimbra<\/a> a \u00e9t\u00e9 reconnu dans la liste Forbes Under 30 Brazil pour ses contributions exceptionnelles \u00e0 l'innovation dans le domaine de l'IA. Il a cofond\u00e9 les op\u00e9rations latino-am\u00e9ricaines de Artefact, qui constituent aujourd'hui un p\u00f4le technologique mondial comptant 200 employ\u00e9s. Il apporte une expertise approfondie dans la mise \u00e0 l'\u00e9chelle des solutions d'IA et la cr\u00e9ation d'\u00e9quipes technologiques performantes sur les march\u00e9s internationaux.<\/em><\/p>\n<p>En mars 2025, un organisme de recherche appel\u00e9 METR a publi\u00e9 une \u00e9tude qui n\u2019a pas re\u00e7u toute l\u2019attention qu\u2019elle m\u00e9ritait. Ses chercheurs avaient mesur\u00e9 un aspect souvent n\u00e9glig\u00e9 : la dur\u00e9e pendant laquelle les syst\u00e8mes AI pouvaient accomplir des t\u00e2ches avant de tomber en panne. Il ne s\u2019agissait pas de d\u00e9terminer ce qu\u2019ils pouvaient faire en une seule interaction. METR souhaitait savoir combien de temps ils pouvaient maintenir un effort coh\u00e9rent et utile.<\/p>\n<p>Leur m\u00e9thodologie \u00e9tait rigoureuse : 170 t\u00e2ches dans les domaines du logiciel, de la recherche et de la r\u00e9solution de probl\u00e8mes. Des donn\u00e9es de r\u00e9f\u00e9rence humaines provenant de 236 ex\u00e9cutions effectu\u00e9es par des experts du domaine. Mod\u00e9lisation statistique pour pr\u00e9dire la probabilit\u00e9 de r\u00e9ussite en fonction de la dur\u00e9e de la t\u00e2che.<\/p>\n<p>La principale conclusion : les capacit\u00e9s d'ex\u00e9cution des t\u00e2ches ont doubl\u00e9 tous les sept mois pendant six ans d'affil\u00e9e.<\/p>\n<p>\u00c0 la mi-2024, les principaux syst\u00e8mes d'IA pouvaient accomplir de mani\u00e8re fiable des t\u00e2ches qui prendraient environ dix-neuf minutes \u00e0 un expert humain. Au d\u00e9but de l'ann\u00e9e 2025, ce temps s'\u00e9levait \u00e0 pr\u00e8s d'une heure. Les syst\u00e8mes les plus r\u00e9cents atteignent plus de deux heures. La courbe s'acc\u00e9l\u00e8re.<\/p>\n<p>Mais derri\u00e8re ce titre se cache une histoire plus complexe.<\/p>\n<h2>Le foss\u00e9 entre les d\u00e9monstrations et les r\u00e9alisations<\/h2>\n<p>En ao\u00fbt 2025, le METR a publi\u00e9 un suivi qui aurait d\u00fb faire r\u00e9fl\u00e9chir tout le monde. Ils ont test\u00e9 l'IA sur dix-huit t\u00e2ches r\u00e9elles - le genre de travail qui compte vraiment dans les organisations.<\/p>\n<p>Voici quelques r\u00e9sultats :<\/p>\n<ul>\n<li>Taux de r\u00e9ussite au test automatis\u00e9 : 38%.<\/li>\n<li>Pr\u00eat \u00e0 l'emploi sans nettoyage humain : 0%.<\/li>\n<\/ul>\n<p>Z\u00e9ro. Aucun des travaux produits par l'IA n'\u00e9tait pr\u00eat \u00e0 \u00eatre utilis\u00e9 sans intervention humaine. M\u00eame lorsque les contr\u00f4les automatis\u00e9s \u00e9taient r\u00e9ussis, chaque r\u00e9sultat pr\u00e9sentait des lacunes : documentation manquante, v\u00e9rification incompl\u00e8te, probl\u00e8mes de qualit\u00e9 qui n'auraient jamais surv\u00e9cu \u00e0 un examen dans une organisation r\u00e9elle.<\/p>\n<p>Dur\u00e9e moyenne du nettoyage : 26 minutes, soit environ un tiers de la dur\u00e9e initiale de la t\u00e2che.<\/p>\n<p>Cet \u00e9cart entre les crit\u00e8res de r\u00e9f\u00e9rence automatis\u00e9s et la facilit\u00e9 d'utilisation dans le monde r\u00e9el est le premier probl\u00e8me dont personne ne parle. Les syst\u00e8mes d'IA s'am\u00e9liorent dans les domaines restreints que mesurent les crit\u00e8res de r\u00e9f\u00e9rence. Ils s'am\u00e9liorent beaucoup plus lentement en ce qui concerne l'ensemble de ce que signifie \u201caccomplir une t\u00e2che\u201d dans la pratique.<\/p>\n<p>Cette distinction est importante pour quiconque planifie des investissements. Un syst\u00e8me qui r\u00e9ussit un test mais produit un r\u00e9sultat inutilisable n'est pas un syst\u00e8me qui peut fonctionner de mani\u00e8re autonome. C'est un syst\u00e8me qui n\u00e9cessite que quelqu'un fasse le m\u00e9nage derri\u00e8re lui.<\/p>\n<h2>Le paradoxe de la productivit\u00e9<\/h2>\n<p>Voici le deuxi\u00e8me probl\u00e8me. En juillet 2025, le METR a men\u00e9 une \u00e9tude contr\u00f4l\u00e9e aupr\u00e8s de seize professionnels exp\u00e9riment\u00e9s. La question : l'IA rend-elle r\u00e9ellement les gens plus rapides ?<\/p>\n<p><strong>R\u00e9sultat attendu avant l'\u00e9tude : acc\u00e9l\u00e9ration de 24%.<\/strong><br \/>\n<strong>R\u00e9sultat r\u00e9el : ralentissement de 19%.<\/strong><\/p>\n<p>Les personnes utilisant l'IA ont mis plus de temps \u00e0 accomplir les t\u00e2ches que les personnes travaillant sans assistance. Et voici la partie la plus troublante : apr\u00e8s l'\u00e9tude, les participants pensaient toujours avoir obtenu une acc\u00e9l\u00e9ration de 20%. Leur perception \u00e9tait compl\u00e8tement invers\u00e9e par rapport \u00e0 la r\u00e9alit\u00e9.<\/p>\n<p>Cinq facteurs expliquent ce ralentissement :<\/p>\n<ol>\n<li><strong>Frais g\u00e9n\u00e9raux de d\u00e9bogage.<\/strong> Gain de temps g\u00e9n\u00e9rant du travail perdu \u00e0 corriger des erreurs.<\/li>\n<li><strong>Co\u00fbts de changement de contexte.<\/strong> Le passage entre les suggestions de l'IA et le travail r\u00e9el a cr\u00e9\u00e9 une charge cognitive.<\/li>\n<li><strong>Courbe d'apprentissage.<\/strong> M\u00eame les professionnels exp\u00e9riment\u00e9s passent du temps \u00e0 comprendre comment utiliser l'IA de mani\u00e8re efficace.<\/li>\n<li><strong>Exigences de qualit\u00e9 cach\u00e9es.<\/strong> Les r\u00e9sultats de l'IA n\u00e9cessitaient une documentation, une v\u00e9rification et un formatage que les syst\u00e8mes ne fournissaient pas.<\/li>\n<li><strong>Normes du monde r\u00e9el.<\/strong> Les organisations matures ont des crit\u00e8res de qualit\u00e9 que les travaux g\u00e9n\u00e9r\u00e9s par l'IA ne respectent pas syst\u00e9matiquement.<\/li>\n<\/ol>\n<p>Il ne s'agit pas d'une histoire sur l'inutilit\u00e9 de l'IA. Il s'agit plut\u00f4t de l'\u00e9cart entre les d\u00e9monstrations des fournisseurs et la r\u00e9alit\u00e9 organisationnelle. Le paradoxe de la productivit\u00e9 sugg\u00e8re que pour les professionnels exp\u00e9riment\u00e9s travaillant sur des processus matures, l'assistance actuelle de l'IA peut cr\u00e9er plus de travail qu'elle n'en \u00e9conomise.<\/p>\n<h2>Pourquoi les syst\u00e8mes d'IA se d\u00e9gradent-ils avec le temps ?<\/h2>\n<p>Pourquoi les syst\u00e8mes d'intelligence artificielle ont-ils du mal \u00e0 accomplir des t\u00e2ches plus longues ? La r\u00e9ponse est architecturale, mais les implications sont strat\u00e9giques.<\/p>\n<p>Imaginez que l'IA dispose d'une m\u00e9moire de travail, c'est-\u00e0-dire d'une capacit\u00e9 limit\u00e9e de stockage des informations relatives \u00e0 la t\u00e2che en cours. Au fur et \u00e0 mesure que cette capacit\u00e9 se remplit, les performances se d\u00e9gradent. Le syst\u00e8me perd la trace des d\u00e9cisions ant\u00e9rieures. Il se contredit. Il oublie ce qu'il essayait d'accomplir.<\/p>\n<p>Quiconque a utilis\u00e9 un assistant d'intelligence artificielle pendant plus de trente minutes en sait quelque chose. Le syst\u00e8me d\u00e9marre sur les chapeaux de roue. Une heure plus tard, il a oubli\u00e9 les d\u00e9cisions prises il y a vingt minutes. Il introduit des erreurs qu'il aurait pu d\u00e9tecter plus t\u00f4t. Il perd le fil.<\/p>\n<p>La recherche a quantifi\u00e9 ce ph\u00e9nom\u00e8ne. \u00c0 mesure que la quantit\u00e9 d'informations que l'IA doit suivre augmente, la pr\u00e9cision peut chuter de 20 \u00e0 30 points de pourcentage. Dans les t\u00e2ches de raisonnement complexes, une \u00e9tude a montr\u00e9 que la pr\u00e9cision passait de 82% \u00e0 22% \u00e0 mesure que la complexit\u00e9 de la t\u00e2che augmentait.<\/p>\n<p>Les math\u00e9matiques ne pardonnent pas. Les petites erreurs s'accumulent. S'il y a ne serait-ce que 1% de chances de perdre un d\u00e9tail essentiel chaque fois que le syst\u00e8me traite de nouvelles informations, apr\u00e8s 100 interactions, les chances de conserver ce d\u00e9tail tombent \u00e0 37%.<\/p>\n<p>Il ne s'agit pas d'un bogue dans un produit particulier. Il s'agit d'une limitation inh\u00e9rente au fonctionnement des syst\u00e8mes d'intelligence artificielle actuels. Et cela cr\u00e9e un plafond rigide sur ce qu'ils peuvent poss\u00e9der par rapport \u00e0 ce qu'ils peuvent seulement aider.<\/p>\n<h2>Toutes les t\u00e2ches ne sont pas \u00e9gales<\/h2>\n<p>Les recherches du METR ont r\u00e9v\u00e9l\u00e9 une autre complication : Les capacit\u00e9s de l'IA varient consid\u00e9rablement d'un domaine \u00e0 l'autre.<\/p>\n<p><strong>T\u00e2ches analytiques et structur\u00e9es<\/strong> comme l'analyse data et la g\u00e9n\u00e9ration de rapports montrent une forte capacit\u00e9 - les syst\u00e8mes peuvent effectuer un travail qui prendrait une \u00e0 trois heures \u00e0 un \u00eatre humain.<\/p>\n<p><strong>T\u00e2ches n\u00e9cessitant une interaction avec des syst\u00e8mes externes<\/strong>-La navigation, la coordination entre les plates-formes, le traitement des informations visuelles montrent des capacit\u00e9s 40 \u00e0 100 fois inf\u00e9rieures. Ils ont environ deux ans de retard en termes de maturit\u00e9.<\/p>\n<p><strong>Applications dans le monde physique<\/strong> comme les v\u00e9hicules autonomes, s'am\u00e9liorent beaucoup plus lentement que les t\u00e2ches num\u00e9riques.<\/p>\n<p>L'implication : \u201cL'IA peut travailler pendant des heures\u201d est sp\u00e9cifique \u00e0 un domaine. Un syst\u00e8me qui g\u00e8re une t\u00e2che analytique de deux heures peut avoir des difficult\u00e9s avec une t\u00e2che de coordination de vingt minutes. La courbe de capacit\u00e9 n'est pas uniforme.<\/p>\n<p>Pour les organisations, cela signifie qu'il faut soigneusement adapter le d\u00e9ploiement de l'IA aux caract\u00e9ristiques des t\u00e2ches. Le cycle du battage m\u00e9diatique traite l'IA comme une solution polyvalente. La r\u00e9alit\u00e9 est tr\u00e8s sp\u00e9cifique.<\/p>\n<h2>La signification de la tendance<\/h2>\n<p>Le METR a d\u00e9crit ses r\u00e9sultats comme \u00e9tant potentiellement \u201cl'une des tendances les plus importantes de l'histoire de l'humanit\u00e9\u201d. C'est peut-\u00eatre un peu exag\u00e9r\u00e9. Mais la tendance se maintient depuis six ans et la direction est claire.<\/p>\n<p>L'IA actuelle r\u00e9ussit presque parfaitement les t\u00e2ches qui prennent moins de quatre minutes aux humains. Elle obtient des r\u00e9sultats inf\u00e9rieurs \u00e0 10% pour les t\u00e2ches qui prennent plus de quatre heures. La zone int\u00e9ressante - et celle qui importe pour les d\u00e9cisions organisationnelles - se situe quelque part entre les deux.<\/p>\n<p>Voici mon \u00e9valuation honn\u00eate : nous disposons d'une IA capable de soutenir l'effort pendant une \u00e0 deux heures sur des t\u00e2ches bien d\u00e9finies dans des domaines sp\u00e9cifiques. Ces syst\u00e8mes ne peuvent pas le faire de mani\u00e8re fiable. Ils ne peuvent pas le faire sans surveillance humaine. Ils ne peuvent pas le faire d'une mani\u00e8re qui r\u00e9ponde aux normes de qualit\u00e9 organisationnelles r\u00e9elles sans nettoyage.<\/p>\n<p>Mais la trajectoire sugg\u00e8re que ces limitations pourraient ne pas \u00eatre permanentes. Toutes les grandes entreprises d'IA optimisent leur fonctionnement pour qu'il soit durable. Chaque adopteur s\u00e9rieux met en place des solutions de contournement pour les limites actuelles. Chaque plateforme d'entreprise ajoute une infrastructure pour les travaux d'IA \u00e0 plus long terme.<\/p>\n<p>La question n'est pas de savoir si l'IA finira par fonctionner pendant des heures. La question est de savoir quand, et si la g\u00e9n\u00e9ration actuelle de solutions y parviendra, ou si nous attendons toujours une perc\u00e9e qui n'a pas encore eu lieu.<\/p>\n<p><em>En <a href=\"https:\/\/www.artefact.com\/fr\/blog\/long-run-ai-agents-part-2-three-approaches-that-actually-work\/\">Partie 2<\/a>, Dans le cadre de ce projet, nous examinerons les trois approches qui ont \u00e9merg\u00e9 pour prolonger la dur\u00e9e de travail de l'IA : le cyclisme de red\u00e9marrage, la m\u00e9moire s\u00e9lective et la coordination bas\u00e9e sur le travail d'\u00e9quipe.<\/em><\/p>\n<p>&nbsp;<\/p>\n<h3>R\u00e9f\u00e9rences<\/h3>\n<p><span style=\"text-decoration: underline;\">Documents de recherche<\/span><\/p>\n<ul>\n<li>Construire une IA pr\u00eate pour la production avec une m\u00e9moire \u00e0 long terme \u00e9volutive <a href=\"https:\/\/arxiv.org\/abs\/2504.19413\" target=\"_blank\" rel=\"noopener\">arxiv.org\/abs\/2504.19413<\/a><\/li>\n<li>Architecture de m\u00e9moire bas\u00e9e sur des graphes multiples pour l'IA <a href=\"http:\/\/arxiv.org\/abs\/2601.03236\" target=\"_blank\" rel=\"noopener\">arxiv.org\/abs\/2601.03236<\/a><\/li>\n<li>Mesurer l'IA dans la production - <a href=\"http:\/\/arxiv.org\/abs\/2512.04123\" target=\"_blank\" rel=\"noopener\">arxiv.org\/abs\/2512.04123<\/a><\/li>\n<\/ul>\n<p><span style=\"text-decoration: underline;\">Rapports sur l'industrie et livres blancs<\/span><\/p>\n<ul>\n<li>Modes de d\u00e9faillance des syst\u00e8mes d'intelligence artificielle - Microsoft<\/li>\n<li>Les le\u00e7ons de 2025 sur l'IA et la confiance - Google Cloud<\/li>\n<li>\u00c9tat de l'ing\u00e9nierie de l'IA - LangChain<\/li>\n<li>\u00c9valuation de r\u00e9f\u00e9rence par rapport \u00e0 l'\u00e9valuation en situation r\u00e9elle - METR<\/li>\n<\/ul>\n<p><span style=\"text-decoration: underline;\">Documentation technique<\/span><\/p>\n<ul>\n<li>Comment nous avons construit notre syst\u00e8me de recherche multi-agents - Anthropic<\/li>\n<li>Sp\u00e9cification du protocole de contexte de mod\u00e8le - modelcontextprotocol.io<\/li>\n<li>Documentation sur le cyclisme nouveau d\u00e9part (\u201cRalph Wiggum\u201d) - Geoffrey Huntley (<a href=\"http:\/\/ghuntley.com\/ralph\/\" target=\"_blank\" rel=\"noopener\">ghuntley.com\/ralph\/<\/a>)<\/li>\n<\/ul>","protected":false},"excerpt":{"rendered":"<p>En mars 2025, un organisme de recherche appel\u00e9 METR a publi\u00e9 une \u00e9tude qui n\u2019a pas re\u00e7u toute l\u2019attention qu\u2019elle m\u00e9ritait. Ses chercheurs avaient mesur\u00e9 un aspect souvent n\u00e9glig\u00e9 : la dur\u00e9e pendant laquelle les syst\u00e8mes AI pouvaient accomplir des t\u00e2ches avant de tomber en panne. Il ne s\u2019agissait pas de d\u00e9terminer ce qu\u2019ils pouvaient faire en une seule interaction. METR souhaitait savoir combien de temps ils pouvaient maintenir un effort coh\u00e9rent et utile.<\/p>","protected":false},"featured_media":1086605,"parent":0,"template":"","meta":{"_acf_changed":false,"ep_exclude_from_search":false},"blog-category":[2995],"blog-language":[2991],"class_list":["post-1083983","blog","type-blog","status-publish","has-post-thumbnail","hentry","blog-category-ai-technology","blog-language-en"],"acf":[],"_links":{"self":[{"href":"https:\/\/www.artefact.com\/fr\/wp-json\/wp\/v2\/blog\/1083983","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/www.artefact.com\/fr\/wp-json\/wp\/v2\/blog"}],"about":[{"href":"https:\/\/www.artefact.com\/fr\/wp-json\/wp\/v2\/types\/blog"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/www.artefact.com\/fr\/wp-json\/wp\/v2\/media\/1086605"}],"wp:attachment":[{"href":"https:\/\/www.artefact.com\/fr\/wp-json\/wp\/v2\/media?parent=1083983"}],"wp:term":[{"taxonomy":"blog-category","embeddable":true,"href":"https:\/\/www.artefact.com\/fr\/wp-json\/wp\/v2\/blog-category?post=1083983"},{"taxonomy":"blog-language","embeddable":true,"href":"https:\/\/www.artefact.com\/fr\/wp-json\/wp\/v2\/blog-language?post=1083983"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}