Agents IA à long terme, 3e partie : ce que cela signifie concrètement pour les organisations

Victor Coimbra figure dans la liste Forbes « Under 30 Brazil » pour sa contribution exceptionnelle à l'innovation dans le domaine de l'IA. Il a cofondé la branche latino-américaine Artefact, qui est aujourd'hui un pôle technologique mondial comptant 200 employés. Il apporte une expertise approfondie dans le développement à grande échelle de solutions d'IA et la constitution d'équipes technologiques hautement performantes sur les marchés internationaux.

Nous avons abordé le problème (1re partie) et les approches possibles (2e partie). Passons maintenant à la question la plus difficile : qu'est-ce que tout cela signifie concrètement pour le fonctionnement des organisations ?

Voici mon avis en toute franchise. La technologie est bien réelle, mais elle n'est pas encore au point. La direction à suivre est claire, mais le calendrier l'est moins. La plupart des entreprises qui mettront en œuvre des systèmes d'IA à long terme en 2026 en tireront des leçons coûteuses. Seules quelques-unes en tireront de réels avantages.

Tout se jouera sur trois points : où ils déploient leurs solutions, comment ils les gèrent, et s'ils comprennent ce que signifie réellement le terme « autonome » dans la pratique.

Le passage du statut d'assistant à celui de salarié

C'est là le changement fondamental. Cela fait des années que nous disposons d'assistants IA, c'est-à-dire de systèmes qui aident les humains à travailler plus rapidement. L'IA autonome représente quant à elle quelque chose de différent : des systèmes capables d'accomplir des tâches de manière indépendante.

Cette distinction est importante pour la conception organisationnelle.

Les tâches qui prennent moins de quinze minutes relèvent d'un domaine bien maîtrisé. Ébauches, suggestions, recherches rapides. Autant de tâches que les assistants IA maîtrisent parfaitement depuis 2023. La supervision humaine va de soi, car les humains sont présents tout au long du processus.

La fourchette intéressante se situe entre une et huit heures. Des livrables complets. Des implémentations intégrales. Des tâches qui, auparavant, nécessitaient qu’une personne y consacre une matinée ou un après-midi. Selon les estimations actuelles, la fiabilité dans cette fourchette se situe entre 50 et 70 %. C’est suffisant pour être utile, mais pas assez pour s’y fier aveuglément.

Au-delà de 24 heures, on entre en terrain inconnu. L'autonomie au niveau du projet. La recherche à long terme. Des travaux qui s'étendent sur plusieurs jours. Cette frontière est peut-être en passe d'apparaître, mais elle n'est pas encore là. Quiconque prétend le contraire cherche à vous vendre quelque chose.

Cinquante-sept pour cent des entreprises interrogées ont désormais mis en place des systèmes d'IA en production. Ce chiffre semble impressionnant, jusqu'à ce que l'on examine ce qu'ils font réellement : 68 % d'entre eux nécessitent une intervention humaine au bout de dix étapes. La plupart des « IA en production » ne sont en réalité qu'une assistance améliorée, dotée d'une marge de manœuvre légèrement plus grande.

Votre interface devient une interface de délégation

Si l'IA à exécution longue fonctionne, la manière dont les gens interagissent avec elle changera radicalement.

Une interface assistée repose sur une collaboration en temps réel. Vous posez une question, elle répond ; vous affinez votre demande, elle s'adapte. L'humain est présent tout au long du processus. Cela fonctionne bien pour les tâches courtes.

Une interface de délégation repose sur un transfert asynchrone. Vous définissez un objectif, vérifiez régulièrement l'avancement des travaux et recevez les livrables. L'intervention humaine est absente pendant l'exécution.

Réfléchissez à ce que cela implique pour la gestion du travail :

Le suivi des progrès remplace la conversation. Les utilisateurs ont besoin de tableaux de bord indiquant ce que l'IA a fait, ce qu'elle est en train de faire et ce qu'elle prévoit de faire ensuite. Le résultat n'est pas une conversation, mais un rapport d'état.
Les points de contrôle remplacent les allers-retours. Au lieu de procéder à des ajustements itératifs, les utilisateurs approuvent ou rejettent le projet à des étapes prédéfinies. « Vérifiez le plan avant de commencer le travail. » « Validez l'approche avant de passer à l'exécution. »
Les pistes d'audit deviennent obligatoires. Si un problème survient six heures après le début d'une session autonome, vous devez pouvoir reconstituer ce qui s'est passé. Tout consigner n'est pas de la paranoïa, c'est une nécessité opérationnelle.
La reprise après défaillance devient une fonctionnalité. L'IA connaîtra des défaillances. La question est de savoir si elle échoue de manière contrôlée, si elle consigne ce qui n'a pas fonctionné et si elle permet aux humains de reprendre le système à partir d'un état cohérent.

La plupart des produits d'IA actuels ne sont pas conçus pour cela. Ils partent du principe que des humains les surveillent. Une IA fonctionnant en continu nécessite des produits qui partent du principe que ce n'est pas le cas.

La gouvernance n'est pas facultative

Une IA qui fonctionne pendant des heures peut aussi commettre des erreurs pendant des heures. Les erreurs s’accumulent avant que la vérification humaine ne les détecte. Une société de services financiers a perdu 2 millions de dollars à cause de traitements en double, en raison d’une mauvaise gestion des états lors du déploiement de son IA. Ce n’est pas une hypothèse : cela s’est produit en 2025.

Le cadre qui se dessine est celui de l'autonomie encadrée : des limites opérationnelles claires, des pistes d'audit et des points de décision qui déclenchent l'intervention humaine.

Les aspects pratiques

Définition du périmètre des autorisations. L'IA ne doit pas disposer d'un accès allant au-delà de ce qu'exige la tâche. Une IA chargée d'étudier la concurrence ne doit pas avoir la possibilité de modifier les dossiers clients. Cela semble évident. Dans la pratique, les entreprises ont tendance à accorder des accès trop larges, car c'est plus simple que de déterminer le périmètre minimal nécessaire.

Enregistrement des décisions. Pas seulement les résultats, mais aussi le raisonnement suivi. Lorsque l'IA prend une mauvaise décision, il faut en comprendre les raisons. Se contenter de dire « elle a fait une erreur » ne constitue pas une analyse des causes profondes.

Critères de basculement. Définissez à l'avance les situations qui nécessitent une validation humaine. Dépenses dépassant un certain seuil. Modification data clients. Communication vers l'extérieur. Ces critères doivent être clairement définis et ne pas être laissés à l'appréciation de l'IA.

Suivi des modifications. Chaque modification est traçable et réversible. Le contrôle de version est indispensable pour une IA qui apporte des changements. Il faut pouvoir annuler ce qui n'a pas fonctionné.

Data est plus importante que vous ne le pensez

L'IA a besoin de données d'entrée claires pour produire des résultats clairs. Les organisations qui ne disposent pas d'informations structurées et de haute qualité ont du mal à tirer parti des systèmes autonomes.

C'est la partie la moins glamour. Avant de déployer une IA à long terme, vous devez disposer : de formats d'informations propres et cohérents ; de connexions entre les systèmes clairement documentées ; d'une responsabilité clairement définie en matière de data ; et de processus de gestion des erreurs.

Si les données d'entrée sont erronées, les résultats le seront aussi — mais à grande échelle, pendant des heures, avec des erreurs qui s'accumulent. Les problèmes Data , qui étaient déjà gênants avec les tableaux de bord, deviennent catastrophiques avec l'IA autonome.

Les types de pannes que vous rencontrerez

Une analyse sectorielle réalisée en 2025 a mis en évidence 14 types de défaillances spécifiques aux systèmes d'IA. Voici ceux qui prennent les entreprises au dépourvu :

Erreurs en chaîne. L'IA part d'une hypothèse erronée. Elle agit sur la base de cette hypothèse. L'étape suivante s'appuie sur un travail défectueux. L'étape d'après aggrave l'erreur. Au moment où un humain s'en rend compte, l'ensemble du processus fonctionne sur des prémisses erronées. Ce n'est pas une hypothèse. C'est monnaie courante.

Une conception défaillante des relais. C'est lors des transitions entre les systèmes d'IA, ou entre l'IA et les humains, que les problèmes surviennent. Une entreprise de commerce électronique a enregistré un taux d'abandon de 40 % chez ses clients, car les utilisateurs étaient désorientés lorsqu'un système d'IA passait le relais à un autre en cours d'interaction. Le relais fonctionnait. L'expérience, elle, ne fonctionnait pas.

Corruption institutionnelle. Les systèmes en place depuis longtemps accumulent les problèmes. D'anciennes décisions persistent alors qu'elles auraient dû être invalidées. Les opérations simultanées créent des conflits. L'IA perd de vue ce qu'elle cherchait à accomplir.

Des vulnérabilités communes. Si toutes vos IA utilisent les mêmes capacités sous-jacentes, elles partagent les mêmes faiblesses. Elles échoueront dans les mêmes cas limites. Elles présenteront les mêmes angles morts. La diversification ne concerne pas seulement les capacités, mais aussi la résilience.

Le point commun : il ne s'agit pas de défaillances ponctuelles, mais de défaillances systémiques. On ne peut pas les détecter en testant chaque composant séparément. Il faut tester l'ensemble du processus dans des conditions réalistes et sur des durées réalistes.

Où se trouvent les opportunités réalistes

Compte tenu de toutes ces réserves, où les entreprises devraient-elles réellement déployer des systèmes d'IA à exécution longue en 2026 ?

Commencez par la tranche de temps comprise entre une et huit heures. Des tâches suffisamment longues pour tirer parti de l'autonomie, mais suffisamment courtes pour limiter les risques. Des projets de mise en œuvre avec un cahier des charges clair. La synthèse de recherches issues de sources bien définies. La documentation de processus à partir de documents existants. La génération de rapports à partir de données structurées.

Recherchez des tâches dont l'achèvement est mesurable. Si vous ne pouvez pas définir clairement ce qu'est la réussite, l'IA ne pourra pas y parvenir de manière fiable. Les tâches qui nécessitent un jugement humain pour être évaluées ne se prêtent pas au travail autonome.

Concentrez-vous sur les tâches que l'on a tendance à éviter parce qu'elles exigent une concentration soutenue. C'est là que se trouvent les véritables opportunités. Les tâches que l'on repousse parce qu'elles nécessitent quatre heures d'affilée sans interruption. Les améliorations de processus qui ne voient jamais le jour. La documentation est toujours obsolète. L'analyse est toujours incomplète.

Prévoyez des points de contrôle à intervalles réguliers. Quatre heures de travail autonome ne doivent pas signifier quatre heures sans surveillance humaine. Intégrez des étapes de vérification. Non pas parce que vous vous méfiez de l'IA, mais parce que les erreurs s'accumulent et qu'une détection précoce permet de limiter les dégâts.

Mesurez les taux de réussite réels, et non les performances en mode démo. C'est important. Les performances de référence ne permettent pas de prédire les performances réelles. METR a constaté que 0 % des travaux générés par l'IA étaient utilisables sans retouche, même lorsque les contrôles automatisés donnaient des résultats positifs. Vos mesures internes doivent refléter les normes de qualité réelles, et non des conditions idéalisées.

Le parallèle historique, revisité

La machine à vapeur a été inventée plusieurs décennies avant que les usines ne soient repensées pour s'y adapter. Les propriétaires d'usines savaient comment faire fonctionner des usines alimentées par l'eau. Ils disposaient de processus de travail, d'un savoir-faire et de modèles économiques entiers fondés sur l'ancienne approche. Cette nouvelle technologie exigeait de nouvelles structures, de nouveaux processus de travail et une nouvelle façon d'envisager où le travail s'effectuait et comment il s'organisait.

J'ai utilisé cette analogie dans la version originale de cet article, en précisant toutefois que la machine à vapeur fonctionnait de manière fiable. Ce n'est pas le cas des IA actuelles qui fonctionnent en continu — pas encore, du moins pas de manière constante.

Cette mise en garde reste valable. Mais la tendance en matière d'investissement est indéniable. Toutes les grandes entreprises spécialisées dans l'IA optimisent leurs systèmes pour un fonctionnement continu. Tous les utilisateurs sérieux mettent en place des solutions de contournement pour pallier les limites actuelles. Toutes les plateformes d'entreprise renforcent leur infrastructure pour permettre des tâches d'IA de plus longue durée.

Pour les organisations, la question n'est pas de savoir s'il faut s'engager dans cette transition. Il s'agit plutôt de savoir comment s'y prendre de manière responsable : en mettant en place une gouvernance avant de développer les capacités, en évaluant la réalité plutôt que les démonstrations, et en commençant modestement avant de passer à l'échelle supérieure.

Les entreprises qui attendent que la technologie arrive à maturité risquent de se retrouver à la traîne lorsqu'elle sera enfin au point. Celles qui la déploient trop tôt en tireront des leçons coûteuses. La voie à suivre consiste à mener une expérimentation réfléchie, encadrée par des garde-fous appropriés.

Trois questions pour votre organisation

Quelles sont les tâches qui exigent une concentration soutenue dans votre domaine ? Recherchez les tâches qui nécessitent un effort soutenu pendant des heures, et non pas quelques minutes. Les tâches que les gens repoussent parce qu’elles exigent une concentration soutenue : ce sont celles-là qui se prêtent le mieux à des programmes pilotes.

Peut-on évaluer de manière fiable la réussite du travail autonome ? Non pas en se demandant « a-t-il produit des résultats ? », mais « a-t-il produit des résultats qui répondent à vos critères réels ? ». Si vous ne pouvez pas définir et mesurer la réussite, vous ne pouvez pas évaluer si l'IA fonctionne.

Votre infrastructure de gouvernance est-elle prête à gérer les opérations qui se déroulent en dehors de tout contrôle ? Journalisation. Contrôles d'autorisation. Déclencheurs d'escalade. Mécanismes de récupération. Pistes d'audit. L'infrastructure nécessaire à la délégation doit être en place avant que celle-ci n'ait un sens.
2026 ne sera probablement pas l'année où l'IA deviendra fiable pour les tâches de longue durée. Un taux de réussite de 50 % sur des tâches de deux heures signifie toujours un échec dans la moitié des cas.

Mais il se pourrait bien que l'IA, qui existe depuis une année, devienne viable sur le plan opérationnel pour certains cas d'utilisation spécifiques — suffisamment fiable pour être déployée en production, à condition d'être soumise à une surveillance adéquate et de disposer d'une tolérance suffisante aux défaillances.

Pour être honnête, personne ne sait exactement quand ces systèmes arriveront à maturité. Les signes indiquent qu'il vaut la peine de le découvrir.

Références

Articles de recherche

Développer une IA prête à l'emploi grâce à une mémoire à long terme évolutive — arxiv.org/abs/2504.19413
Architecture mémoire basée sur des graphes multiples pour l'IA — arxiv.org/abs/2601.03236
Évaluation de l'IA en production — arxiv.org/abs/2512.04123

Rapports sectoriels et livres blancs

Modes de défaillance dans les systèmes d'IA — Microsoft
Leçons tirées de 2025 sur l'IA et la confiance — Google Cloud
État des lieux de l'ingénierie de l'IA — LangChain
Évaluation par rapport aux tests de performance standard vs évaluation en conditions réelles — METR

Documentation technique

Comment nous avons développé notre système de recherche multi-agents — Anthropic
Spécification du protocole Model Context — modelcontextprotocol.io
Documentation Fresh-Start Cycling (« Ralph Wiggum ») — Geoffrey Huntley (ghuntley.com/ralph/)

Contactez-nous

Les agents IA à long terme, 3e partie : ce que cela signifie concrètement pour les organisations

Auteur