Un jour où l'IA se tiendra-t-elle au tribunal devient-il une réalité ? "Les avocats sont en sécurité", une affirmation ébranlée en seulement quelques semaines — Les raisons de l'augmentation des performances des agents IA

Un jour où l'IA se tiendra-t-elle au tribunal devient-il une réalité ? "Les avocats sont en sécurité", une affirmation ébranlée en seulement quelques semaines — Les raisons de l'augmentation des performances des agents IA

« Le jour où l'IA deviendra avocat n'arrivera jamais » — jusqu'à récemment, cette certitude semblait inébranlable. La raison était simple : lorsque l'on confiait à l'IA des tâches proches de la « pratique » des professions spécialisées, elle ne réussissait pas aussi bien qu'on l'aurait espéré. Cependant, cette certitude a vacillé en l'espace de quelques semaines.


TechCrunch a mis en lumière les fluctuations du classement « APEX-Agents » de Mercor, qui évalue les agents IA. Le mois dernier, les performances des principaux laboratoires étaient généralement inférieures à 25 %, ce qui laissait penser que « du moins pour le moment, les avocats étaient en sécurité ». Mais cette semaine, l'Opus 4.6 d'Anthropic a bouleversé le classement, atteignant près de 30 % en un seul essai, et environ 45 % en moyenne avec des essais répétés. Bien que ces chiffres ne soient pas encore « satisfaisants », leur progression est impressionnante. Brendan Foody, PDG de Mercor, a qualifié cette montée en flèche de « phénoménale ».



Que mesure « APEX-Agents » ?

Ce qui rend APEX-Agents intéressant, c'est qu'il ne s'agit pas d'un simple test de connaissances, mais d'une évaluation de la capacité des agents à accomplir des tâches dans un environnement simulant des « pratiques à haute valeur ajoutée » telles que l'analyse en banque d'investissement, le conseil ou le droit des affaires. Selon Mercor, cela nécessite l'utilisation de plusieurs applications, des plans à long terme, des connaissances spécialisées et du raisonnement, avec 480 tâches et critères d'évaluation répartis dans 33 « mondes ». De plus, le système d'évaluation et de données (Archipelago) est également rendu public. En d'autres termes, il ne s'agit pas de créer des « problèmes ressemblants », mais des « environnements ressemblants » pour évaluer la performance.


Cette philosophie de conception s'accorde bien avec le domaine juridique. Le travail juridique consiste en une série d'opérations visant à relier des éléments disparates tels que les lois, les précédents, les politiques internes, les termes contractuels et les circonstances des parties, pour en tirer des conclusions et des documents cohérents. De plus, les documents ne sont pas homogènes. Les documents internes, les e-mails, les chats et les lois ou directives externes sont tous pertinents simultanément. Comme l'a rapporté TechCrunch dans un article du mois dernier, les modèles trébuchent souvent sur « l'exploration et l'intégration d'informations à travers plusieurs domaines ».



Pourquoi le score de l'Opus 4.6 a-t-il bondi ?

La clé de cette progression rapide réside dans l'introduction par Anthropic des « équipes d'agents » avec l'Opus 4.6. Au lieu qu'un seul agent effectue les tâches séquentiellement, plusieurs agents se partagent les responsabilités et avancent en parallèle, imitant ainsi le travail d'équipe humain. Selon TechCrunch, cette fonctionnalité est proposée en aperçu de recherche pour les utilisateurs de l'API/abonnés, avec des améliorations telles que l'extension de la longueur du contexte (1 million de tokens) et l'intégration dans les panneaux latéraux de PowerPoint, ce qui rapproche l'outil des besoins des travailleurs du savoir.


Pour des tâches comme celles d'APEX-Agents, qui avancent en plusieurs étapes, nécessitent des ajustements en cours de route et l'organisation des résultats, la division du travail, la réitération et l'auto-vérification sont plus efficaces que l'intelligence ponctuelle. TechCrunch évoque également la possibilité que les « fonctionnalités agentiques » de l'Opus 4.6 aient aidé à résoudre des problèmes en plusieurs étapes.


Cependant, il est important de comprendre ce que signifie le chiffre « 30 % ». Il est loin des 100 %. Ce n'est pas demain que les avocats perdront leur emploi. TechCrunch souligne également ce point. Mais en même temps, les raisons de se sentir « en sécurité » s'affaiblissent. Le remplacement des professions ne se fait pas d'un coup. Cela commence par les tâches qui peuvent être automatisées.



Ce qui se produira avant le remplacement : la « décomposition » du travail juridique

En décomposant le travail juridique, on peut voir où l'IA peut s'insérer efficacement.

  • Brouillons initiaux : Modèles de contrats, propositions de clauses, identification des risques

  • Assistance à la recherche : Structuration des points de discussion, identification des lois, précédents et directives pertinents

  • Comparaison et résumé : Explication des différences dans les modifications de l'autre partie, liste des points de négociation

  • Réponses standardisées : Propositions de réponses aux questions fréquentes, création de modèles conformes aux règles internes


Même si ces tâches nécessitent une « responsabilité finale » ou un « jugement », la majeure partie du travail consiste en recherche, organisation et rédaction. Si les agents peuvent accomplir ces tâches rapidement et à moindre coût, la structure des coûts des cabinets d'avocats et des services juridiques d'entreprise pourrait changer.


D'un autre côté, le traitement des témoignages et des émotions, la relation de confiance avec les parties, les conflits de valeurs sont des aspects qui ne peuvent pas être facilement remplacés par la simple génération de texte. En d'autres termes, il est plus réaliste que le travail juridique « change de forme » plutôt que de « disparaître complètement ».



Réactions sur les réseaux sociaux : attentes et scepticisme simultanés

Les réactions des réseaux sociaux (forums et communautés) à ce sujet se divisent en trois grandes catégories.


1) « Comme outil d'assistance, c'est déjà utile. Mais sans supervision, c'est dangereux »

Dans la communauté juridique de Reddit, un utilisateur se présentant comme avocat en exercice a déclaré que « certaines tâches sont facilitées, mais il y a des hallucinations et un manque de compréhension conceptuelle, nécessitant la supervision d'un expert », et a évoqué l'idée d'un futur « Westlaw de nouvelle génération » comme positionnement. Bien qu'il soit sceptique quant à un remplacement entièrement autonome, l'idée de l'outil comme une aide est déjà acceptée.


2) « Impossible pour les tribunaux ou le pénal. La société ne l'acceptera pas »

Dans un autre fil de discussion de la communauté juridique, dans le contexte de la défense pénale, on peut lire des réactions telles que « il est difficile d'imaginer l'IA prenant des décisions subtiles de procédure au cas par cas » et « l'IA décidant de la culpabilité ou de la peine serait dystopique ». Ici, au-delà des capacités, se posent des questions de légitimité, de transparence et d'acceptation humaine.


3) « Qui sera responsable ? Les contrats et la gouvernance seront des obstacles »

Sur Hacker News, la discussion s'anime autour de la question de savoir qui, parmi le vendeur de l'agent IA, le fournisseur du modèle de base ou le client, portera la responsabilité, abordant les questions de « délimitation des responsabilités contractuelles ». Qui a vendu le produit défectueux ? Comment gérer l'incertitude du SaaS dans les contrats ? Plus la performance s'améliore, plus le besoin de juristes pour « l'utilisation de l'IA » augmente, ce qui crée une situation paradoxale.


De plus, l'entreprise d'IA juridique Harvey a présenté l'Opus 4.6 comme ayant obtenu un score élevé dans son évaluation interne (BigLaw Bench), soulignant sa force dans les tâches pratiques (litiges et transactions). Cela montre une réaction qui illustre la « chaleur du terrain de production » plutôt que de simples « scores de recherche ».



La véritable raison pour laquelle « 30 % » est effrayant

Alors, pourquoi un score d'environ 30 % peut-il être perçu comme une « menace » ? Il y a deux raisons.


La première est que les domaines où des points peuvent être marqués sont biaisés. Dans le travail juridique, certaines tâches consistent en des traitements standardisés plutôt qu'en des jugements complexes. Même si seule cette partie est automatisée, cela peut bouleverser la structure de recrutement et de formation de l'industrie (les juniors n'ayant plus l'occasion d'acquérir de l'expérience).


La deuxième est que la réitération et la division du travail rapprochent de l'utilité. Dans APEX-Agents, on constate que la moyenne augmente avec des essais répétés par rapport à un seul essai. En d'autres termes, plus la capacité à « échouer d'abord mais réussir en réessayant » se développe, plus le coût de révision humaine peut être réduit.


À ce stade, le débat ne porte plus sur « la disparition des avocats ».
Il se déplace vers « quels travaux deviendront moins chers en premier », et « qui supervisera et qui portera la responsabilité ».



La réalité probable à venir : la « présupposition de l'IA » dans le droit

Le futur réaliste ressemblera probablement à ceci.

  • Les services juridiques d'entreprise prétraiteront les revues de contrats et les premières consultations internes avec l'IA, tandis que les avocats se concentreront sur les exceptions et les négociations

  • Les cabinets d'avocats augmenteront le débit des recherches et des brouillons, révisant leur structure tarifaire (coûts fixes → résultats et valeur)

  • Le contrôle de « l'utilisation de l'IA » elle-même (journaux, explications, audits, réévaluation lors des mises à jour des modèles) deviendra un nouveau domaine de conformité

  • Et la rédaction des délimitations de responsabilité, des exonérations et des garanties s'affinera, enrichissant la « pratique contractuelle à l'ère de l'IA »


Plutôt que de savoir si l'IA deviendra avocat, les avocats réorganiseront leur travail en supposant l'IA. La hausse des scores d'APEX-Agents a été un événement qui a anticipé cette réalité.



Sources