Victor Coimbra a été reconnu dans la liste Forbes Under 30 Brazil pour ses contributions exceptionnelles à l'innovation dans le domaine de l'IA. Il a cofondé les opérations latino-américaines de Artefact, qui constituent aujourd'hui un pôle technologique mondial comptant 200 employés. Il apporte une expertise approfondie dans la mise à l'échelle des solutions d'IA et la création d'équipes technologiques performantes sur les marchés internationaux.

Nous avons abordé le problème (Première partie) et les approches (Partie 2). Passons maintenant à la question la plus difficile : qu'est-ce que tout cela signifie pour le fonctionnement réel des organisations ?

Voici ma lecture honnête. La technologie est réelle mais immature. La trajectoire est claire, mais le calendrier ne l'est pas. La plupart des organisations qui déploieront l'IA à long terme en 2026 tireront des leçons coûteuses. Quelques-unes en tireront de réels avantages.

La différence se fera sur trois points : où ils se déploient, comment ils gouvernent et s'ils comprennent ce que le terme “autonome” signifie réellement dans la pratique.

Le passage du statut d'assistant à celui de travailleur

Il s'agit là d'une transition fondamentale. Nous disposons depuis des années d'assistants IA, des systèmes qui aident les humains à travailler plus rapidement. L'IA à long terme représente quelque chose de différent : des systèmes qui accomplissent un travail de manière indépendante.

La distinction est importante pour la conception des organisations.

Les tâches de moins de quinze minutes sont du domaine de la maturité. Projets, suggestions, recherches rapides. Les choses que les assistants d'IA font bien depuis 2023. La supervision humaine est implicite parce que les humains sont présents tout au long du processus.

La zone intéressante est de une à huit heures. Livrables complets. Des mises en œuvre complètes. Des travaux qui nécessitaient auparavant qu'un être humain s'assoie pendant une matinée ou un après-midi. Les estimations actuelles situent la fiabilité dans cette fourchette entre 50 et 70%. Suffisamment bonne pour être utile. Pas assez pour faire confiance aveuglément.

Au-delà de 24 heures, nous sommes en territoire expérimental. Autonomie au niveau du projet. Recherche soutenue. Un travail qui s'étend sur plusieurs jours. Cette frontière est peut-être à venir, mais elle n'est pas encore là. Quiconque prétend le contraire vend quelque chose.

Cinquante-sept pour cent des entreprises interrogées utilisent aujourd'hui l'IA en production. Ce chiffre semble impressionnant jusqu'à ce que vous regardiez ce qu'elles font réellement : 68% nécessitent une intervention humaine en moins de dix étapes. La plupart des “IA de production” sont une assistance glorifiée avec des laisses légèrement plus longues.

Votre interface devient une interface de délégation

Si l'IA à long terme fonctionne, la façon dont les gens interagissent avec elle change fondamentalement.

L'interface d'un assistant suppose une collaboration en temps réel. Vous demandez, il répond, vous affinez, il édite. L'humain est présent tout au long du processus. Cela fonctionne bien pour les tâches courtes.

Une interface de délégation suppose un transfert asynchrone. Vous spécifiez un objectif, examinez périodiquement les progrès accomplis et recevez des produits à livrer. L'homme est absent pendant l'exécution.

Réfléchissez à ce que cela signifie pour la gestion du travail :

  • Le suivi des progrès remplace la conversation. Les utilisateurs ont besoin de tableaux de bord montrant ce que l'IA a fait, ce qu'elle fait et ce qu'elle prévoit de faire ensuite. Le résultat n'est pas le chat, c'est un rapport d'état.
  • Les points de contrôle remplacent les allers-retours. Au lieu de procéder à un affinage itératif, les utilisateurs approuvent ou rejettent le projet à des points de contrôle définis. “Examinez le plan avant de commencer le travail”. “Signer l'approche avant l'exécution.”
  • Les pistes d'audit deviennent obligatoires. Lorsque quelque chose ne va pas six heures après le début d'une session autonome, vous devez reconstruire ce qui s'est passé. Tout enregistrer n'est pas de la paranoïa, c'est une nécessité opérationnelle.
  • La reprise sur panne devient une fonctionnalité. L'IA échouera. La question est de savoir si elle échoue avec élégance, si elle documente ce qui a mal tourné et si elle permet aux humains de reprendre le cours de leur vie à partir d'un état raisonnable.

La plupart des produits d'IA actuels ne sont pas conçus pour cela. Ils partent du principe que les humains regardent. L'IA à long terme nécessite des produits qui partent du principe que les humains ne le sont pas.

La gouvernance n'est pas facultative

L'IA qui travaille pendant des heures peut aussi faire des erreurs pendant des heures. Les erreurs s'accumulent avant qu'un contrôle humain ne les détecte. Une entreprise de services financiers a perdu $2M en traitement en double en raison d'une mauvaise gestion des états dans son déploiement de l'IA. Il ne s'agit pas d'une hypothèse : cela s'est produit en 2025.

Le cadre émergent est celui de l'autonomie limitée : des limites opérationnelles claires, des pistes d'audit et des points de décision qui déclenchent l'intervention humaine.

Les éléments pratiques

Détermination du champ d'application de l'autorisation. L'IA ne doit pas avoir un accès supérieur à ce que la tâche exige. Une IA qui effectue des recherches sur les concurrents ne doit pas avoir accès à la modification des dossiers des clients. Cela semble évident. Dans la pratique, les organisations surprovisionnent l'accès parce que c'est plus facile que de déterminer le champ d'application minimal nécessaire.

Enregistrement des décisions. Pas seulement les résultats, mais aussi le cheminement du raisonnement. Lorsque l'IA prend une mauvaise décision, vous devez comprendre pourquoi. “Dire qu'elle a fait une erreur n'est pas une analyse des causes profondes.

Déclencheurs d'escalade. Définissez à l'avance ce qui doit faire l'objet d'une approbation humaine. Dépenses supérieures à un seuil. Modifier le client data. Communication avec l'extérieur. Ces déclencheurs doivent être explicites et non laissés à l'appréciation de l'IA.

Suivi des changements. Chaque modification est traçable et réversible. Le contrôle des versions n'est pas facultatif pour l'intelligence artificielle qui modifie les choses. Vous devez être en mesure d'annuler ce qui n'a pas fonctionné.

Data La qualité est plus importante que vous ne le pensez

L'IA a besoin d'entrées claires pour produire des résultats clairs. Les organisations qui ne disposent pas d'informations structurées et de qualité ont du mal à tirer parti des systèmes autonomes.

C'est la partie la moins délicate. Avant de déployer une IA à long terme, vous devez disposer de formats d'information propres et cohérents, de connexions bien documentées entre les systèmes, d'une appropriation claire de la qualité data et de processus de traitement des erreurs.

Les déchets entrent et sortent, mais à grande échelle, pendant des heures, avec des erreurs qui s'accumulent. Les problèmes de qualité Data qui étaient gênants avec les tableaux de bord deviennent catastrophiques avec l'IA autonome.

Modes d'échec que vous rencontrerez

Une analyse de l'industrie de 2025 a identifié 14 modèles d'échec uniques dans les systèmes d'IA. Voici ceux qui prennent les organisations au dépourvu :

Erreurs en cascade. L'IA fait une mauvaise supposition. Elle agit sur la base de cette hypothèse. L'étape suivante s'appuie sur un travail défectueux. L'étape suivante aggrave l'erreur. Lorsqu'un être humain s'en aperçoit, l'ensemble du flux de travail repose sur des prémisses erronées. Cette situation n'est pas hypothétique. C'est un phénomène courant.

Mauvaise conception du transfert. Les transitions entre les systèmes d'IA ou entre l'IA et les humains sont le point de rupture. Une entreprise de commerce électronique a enregistré 40% d'abandons de clients parce que les utilisateurs étaient désorientés lorsqu'un système d'IA passait à un autre au milieu de l'interaction. Le transfert a fonctionné. L'expérience n'a pas fonctionné.

Corruption de l'État. Les systèmes de longue durée accumulent les problèmes. D'anciennes décisions persistent alors qu'elles auraient dû être invalidées. Les opérations simultanées créent des conflits. L'IA perd la trace de ce qu'elle essayait d'accomplir.

Vulnérabilités partagées. Si toutes vos IA utilisent les mêmes capacités sous-jacentes, elles partagent les mêmes faiblesses. Elle échouera dans les mêmes cas limites. Elle aura les mêmes angles morts. La diversification n'est pas seulement une question de capacités, c'est aussi une question de résilience.

Le point commun : il ne s'agit pas de défaillances individuelles. Il s'agit de défaillances du système. Vous ne pouvez pas les détecter en testant des composants individuels de manière isolée. Vous devez tester l'ensemble du flux de travail dans des conditions et des délais réalistes.

Où se trouvent les opportunités réalistes

Compte tenu de toutes ces mises en garde, où les organisations devraient-elles déployer l'IA à long terme en 2026 ?

Commencez par la zone de une à huit heures. Tâches suffisamment longues pour bénéficier de l'autonomie, suffisamment courtes pour limiter les dégâts. Projets de mise en œuvre avec des spécifications claires. Synthèse de recherche à partir de sources définies. Documentation de processus à partir de matériaux existants. Production de rapports à partir de données structurées.

Recherchez des travaux dont l'achèvement est mesurable. Si vous ne pouvez pas définir clairement le succès, l'IA ne peut pas l'atteindre de manière fiable. Les tâches dont l'évaluation nécessite un jugement humain sont de mauvais candidats pour le travail autonome.

Ciblez le travail qui est évité parce qu'il nécessite une concentration soutenue. Ce sont là les véritables opportunités. Les tâches que les gens remettent à plus tard parce qu'ils ont besoin de quatre heures ininterrompues. Les améliorations de processus qui ne se produisent jamais. La documentation est toujours obsolète. L'analyse est toujours incomplète.

Exiger des points de contrôle à des intervalles appropriés. Quatre heures de travail autonome ne doivent pas signifier quatre heures sans conscience humaine. Prévoyez des points de contrôle. Non pas parce que vous vous méfiez de l'IA, mais parce que les erreurs s'accumulent et qu'une détection précoce limite les dégâts.

Mesurez les taux de réussite réels, et non les performances de démonstration. C'est important. Les performances des benchmarks ne permettent pas de prédire les performances dans le monde réel. Le METR a constaté que 0 % du travail généré par l'IA était utilisable sans nettoyage, même lorsque les contrôles automatisés étaient réussis. Vos mesures internes doivent refléter des normes de qualité réelles, et non des conditions idéales.

Le parallèle historique, revisité

La machine à vapeur a été inventée des décennies avant que les usines ne soient réaménagées en fonction d'elle. Les propriétaires de moulins savaient comment faire fonctionner les moulins alimentés par l'eau. Ils disposaient de flux de travail, d'une expertise et de modèles d'entreprise entiers fondés sur l'ancienne approche. La nouvelle technologie exigeait de nouvelles structures, de nouveaux flux de travail, de nouvelles façons de penser le lieu et le déroulement du travail.

J'ai utilisé cette analogie dans la version originale de cet article, avec une mise en garde : la machine à vapeur fonctionnait de manière fiable. L'IA actuelle à long terme ne le fait pas - pas encore, pas de manière cohérente.

Cette mise en garde est toujours d'actualité. Mais l'orientation de l'investissement est sans équivoque. Toutes les grandes entreprises d'IA optimisent leur fonctionnement de manière durable. Chaque adopteur sérieux élabore des solutions de contournement pour les limites actuelles. Chaque plateforme d'entreprise ajoute une infrastructure pour les travaux d'IA à plus long terme.

La question pour les organisations n'est pas de savoir si elles doivent s'engager dans ce changement. Il s'agit de savoir comment s'engager de manière responsable : construire la gouvernance avant les capacités, mesurer la réalité plutôt que les démonstrations, et commencer à petite échelle avant de passer à l'échelle supérieure.

Les organisations qui attendent que la technologie arrive à maturité risquent de se retrouver à la traîne lorsqu'elle arrivera à maturité. Les organisations qui se déploient prématurément tireront des leçons coûteuses. Le chemin le plus étroit est celui de l'expérimentation délibérée avec des garde-fous appropriés.

Trois questions pour votre organisation

Quelles tâches exigeant une attention soutenue existent dans votre domaine ? Recherchez les tâches qui exigent un effort concentré pendant des heures, et non des minutes. Les tâches que les gens remettent à plus tard parce qu'elles exigent une concentration soutenue sont les candidates pour les programmes pilotes.

Pouvez-vous mesurer de manière fiable le succès d'un travail autonome ? Non pas “a-t-il produit des résultats”, mais “a-t-il produit des résultats qui répondent à vos normes réelles”. Si vous ne pouvez pas définir et mesurer le succès, vous ne pouvez pas évaluer si l'IA fonctionne.

Votre infrastructure de gouvernance est-elle prête pour les travaux qui se déroulent sans que personne ne s'en aperçoive ? Journalisation. Contrôles des permissions. Déclencheurs d'escalade. Mécanismes de récupération. Pistes d'audit. L'infrastructure de délégation doit exister avant que la délégation n'ait un sens.
2026 ne sera probablement pas l'année où l'IA deviendra fiable pour les tâches de longue durée. Cinquante pour cent de réussite sur des tâches de deux heures signifie encore un échec la moitié du temps.

Mais il se peut que l'IA qui fonctionne depuis un an devienne viable sur le plan opérationnel pour des cas d'utilisation spécifiques, c'est-à-dire qu'elle soit suffisamment bonne pour être déployée en production avec une supervision et une tolérance à l'échec appropriées.

La réponse est simple : personne ne sait exactement quand ces systèmes arriveront à maturité. Les signaux suggèrent qu'il vaut la peine de le découvrir.

 

Références

Documents de recherche

Rapports sur l'industrie et livres blancs

  • Modes de défaillance des systèmes d'intelligence artificielle - Microsoft
  • Les leçons de 2025 sur l'IA et la confiance - Google Cloud
  • État de l'ingénierie de l'IA - LangChain
  • Évaluation de référence par rapport à l'évaluation en situation réelle - METR

Documentation technique

  • Comment nous avons construit notre système de recherche multi-agents - Anthropic
  • Spécification du protocole de contexte de modèle - modelcontextprotocol.io
  • Documentation sur le cyclisme nouveau départ (“Ralph Wiggum”) - Geoffrey Huntley (ghuntley.com/ralph/)