Les théoriciens du complot se révèlent-ils plus par "comment ils parlent" que par "ce qu'ils disent" ? Les traces linguistiques révélées par 500 millions de publications sur Reddit

Les théoriciens du complot se révèlent-ils plus par "comment ils parlent" que par "ce qu'ils disent" ? Les traces linguistiques révélées par 500 millions de publications sur Reddit

Les théories du complot résident-elles dans le "style" plutôt que dans le "sujet" ? — Une analyse par IA de 500 millions de publications Reddit

Les personnes qui parlent de théories du complot utilisent-elles un langage caractéristique même lorsqu'elles ne parlent pas de théories du complot ?

Une équipe de recherche, principalement de l'Université polytechnique de Milan, a abordé cette question par une analyse de données à grande échelle. L'objet de l'étude était plus de 500 millions de commentaires publiés sur Reddit, un gigantesque forum de discussion en ligne originaire des États-Unis. Les chercheurs ont examiné comment les utilisateurs participant à "r/conspiracy", une communauté représentative des théories du complot, s'expriment dans des communautés générales telles que celles dédiées aux actualités, à la science, au cinéma, à la musique, à la cuisine, au bricolage, ou aux photos d'animaux.

Les conclusions de l'étude sont stimulantes. Les utilisateurs participant à la communauté des théories du complot montraient des caractéristiques linguistiques spécifiques même dans des contextes où ils ne parlaient pas directement de théories du complot. De plus, ces caractéristiques pouvaient être identifiées avec une grande précision par un modèle d'IA.

Cependant, cette étude ne présente pas une simple "liste de mots de conspirationnistes". Ce qui est important, c'est que la tendance conspirationniste ne se manifeste pas de la même manière dans tous les sujets, mais change en fonction de la culture et des règles de conversation de la communauté à laquelle on participe.

En d'autres termes, le langage autour des théories du complot apparaît comme un "style" qui change en fonction du contexte, plutôt qu'une étiquette fixe.


Les "anomalies" des conversations neutres révélées par 500 millions de publications

L'équipe de recherche a analysé les commentaires publiés sur plus de 20 communautés principales de Reddit sur une période de 10 ans. La comparaison a été faite entre les utilisateurs ayant participé à r/conspiracy et les utilisateurs généraux qui ne l'ont pas fait.

Il est important de noter que les chercheurs n'ont pas examiné les publications directement liées aux théories du complot. L'analyse s'est concentrée sur les déclarations faites dans les communautés principales, comme les critiques de films, les discussions culinaires, les préférences musicales, les réactions aux nouvelles scientifiques, et les petites conversations quotidiennes. Ces contextes ne semblaient pas politiques ou conspirationnistes en surface.

En conséquence, le modèle d'apprentissage automatique a pu identifier les participants aux communautés de théories du complot avec une précision moyenne de 87 % au sein de chaque communauté. Ce chiffre est difficile à expliquer par une simple coïncidence ou un biais vers un sujet particulier.

Les expressions de colère ou d'anxiété, les mots marqués par le conflit ou l'agressivité, et le vocabulaire lié aux maladies ou à la mort étaient particulièrement remarquables. L'équipe de recherche a extrait des caractéristiques psycholinguistiques et les a agrégées au niveau des utilisateurs pour former le modèle. Cela signifie que l'évaluation ne s'est pas faite sur un seul mot, mais sur les tendances émotionnelles et cognitives contenues dans l'ensemble des déclarations.

Par exemple, même dans une discussion sur la "cuisine", une personne peut parler calmement des recettes et des astuces de goût, tandis qu'une autre peut mélanger colère, méfiance et expressions agressives. Ce que la recherche a capturé, c'est précisément cette différence de ton dans les conversations et la manière dont la vision du monde transparaît.


Il n'existe pas de "langage des conspirationnistes"

Ce qui rend cette étude intéressante, c'est qu'elle a trouvé des caractéristiques communes aux participants des communautés de théories du complot, tout en montrant que le "modèle de détection universel" ne fonctionne pas bien.

Selon l'équipe de recherche, tenter de regrouper toutes les communautés dans un seul grand modèle de détection a donné des performances inférieures à celles des modèles individuels créés pour chaque communauté. La différence a atteint jusqu'à 17 points.

Cela est important.

Car le langage sur les réseaux sociaux n'est pas déterminé uniquement par l'intériorité de l'auteur. Dans les communautés d'actualités, les mots explicatifs sont plus fréquents, dans les communautés humoristiques, l'ironie et les blagues augmentent, et dans les communautés de loisirs, le vocabulaire est plus serein. Chaque lieu a sa propre "atmosphère".

Les utilisateurs des communautés de théories du complot adaptent également leur expression à cette atmosphère. L'équipe de recherche insiste sur le fait qu'il est nécessaire d'analyser en fonction du contexte de chaque communauté, plutôt que de chercher un simple "langage conspirationniste".

Cela a des implications importantes pour la modération des réseaux sociaux et la détection des risques. Une approche basée sur des mots-clés interdits ou une détection par IA uniforme utilisant les mêmes critères partout pourrait mal interpréter la réalité. Une expression naturelle dans une communauté peut devenir un signal fort de détection dans une autre.


Les signes étaient-ils présents avant la participation ?

Un autre point notable est l'affirmation selon laquelle ces caractéristiques linguistiques ont été observées avant même que les utilisateurs ne participent aux communautés de théories du complot.

L'étude a également analysé les déclarations faites dans les communautés principales avant que les utilisateurs ne participent explicitement à r/conspiracy. Les résultats suggèrent que les motifs utilisés pour l'identification existaient de manière relativement stable, plutôt que de surgir soudainement juste avant la participation.

Cela est difficile à expliquer par une simple relation causale du type "le langage a changé parce qu'ils ont été exposés à la communauté des théories du complot". Il est plutôt possible que des utilisateurs ayant déjà une certaine tendance à la méfiance ou à l'expression émotionnelle soient attirés par la suite vers les communautés de théories du complot, ce qui reflète un aspect de choix personnel.

Bien sûr, cela ne permet pas de conclure sur la psychologie individuelle ou le comportement futur. Les publications sur les réseaux sociaux sont influencées par de nombreux facteurs, tels que la personnalité, l'âge, la culture, les opinions politiques, l'environnement de vie, l'humeur du jour, et l'atmosphère de la plateforme. L'équipe de recherche adopte également une position prudente quant à la généralisation sans tenir compte du contexte.

Néanmoins, en montrant que l'accumulation de mots apparemment anodins peut être liée à la participation à des communautés en ligne et à des changements dans l'environnement informationnel, cette étude est très suggestive.


Réactions sur les réseaux sociaux : diffusion limitée, mais enjeux importants

 

L'article de Phys.org présentant cette étude n'a pas provoqué de grand scandale ou de débat massif immédiatement après sa publication. Le nombre de partages sur la page de l'article est limité, et il n'y avait pas beaucoup de commentaires au moment de la vérification.

Sur X, un compte d'information scientifique en japonais a présenté l'article avec l'idée de "la nature conspirationniste qui transparaît dans les mots", mais le nombre de réactions est encore faible dans la mesure où l'on peut le vérifier par recherche. Des bots de publication automatique d'arXiv sur Mastodon et des sites de collecte de nouvelles ont également diffusé le titre de l'article, et il semble que nous soyons au stade de la diffusion initiale par les chercheurs, les lecteurs de nouvelles scientifiques et les flux automatiques, plutôt qu'à un "grand débat public".

Sur LinkedIn, Francesco Pierri et Francesco Corso, les auteurs, ont mentionné cet article dans le cadre de son acceptation à l'ACL 2026 et de recherches connexes. Cela donne également l'impression d'un partage au sein des communautés de recherche en sciences sociales computationnelles, en traitement du langage naturel et en sécurité en ligne, plutôt que d'un scandale populaire.

Cependant, si cette étude est largement lue à l'avenir, plusieurs réactions peuvent être prévues sur les réseaux sociaux.

L'une d'elles est le soutien au renforcement de la modération. Les théories du complot, la radicalisation, les fausses informations médicales et les fausses informations électorales peuvent avoir un impact sur la société réelle. Il est significatif pour les plateformes de comprendre la formation de communautés à risque à un stade précoce et de prendre des mesures contextuelles.

D'un autre côté, des préoccupations concernant la liberté d'expression et la vie privée pourraient également émerger. L'idée de prédire la participation future à une communauté à partir de "publications qui ne parlent pas de théories du complot" peut sembler intrusive à certaines personnes. Même à des fins de recherche, si cette technologie est utilisée en pratique, les problèmes de fausses détections et d'étiquetage sont inévitables.

En particulier, les mots liés à la "colère", à "l'anxiété" ou à la "mort" sont naturellement utilisés par des personnes sans lien avec les théories du complot. Les personnes qui parlent de leur expérience de la maladie, partagent leur tristesse, expriment leur mécontentement politique ou s'indignent des problèmes sociaux ne doivent pas être traitées de manière suspecte.

Ce que cette étude devrait montrer, c'est non pas un outil pour déterminer "cette personne est un conspirationniste", mais plutôt un moyen de comprendre l'environnement linguistique et les changements de risque au niveau de la communauté dans son ensemble.


La détection par IA n'est pas infaillible

Le chiffre de 87 % en moyenne est frappant, mais en contrepartie, il reste des fausses détections. De plus, une fausse détection sur les réseaux sociaux n'est pas simplement une erreur statistique. Elle peut affecter les opportunités d'expression des utilisateurs sous forme de restrictions de compte, de suppression de publications, de diminution de la visibilité ou d'exclusion de la communauté.

En outre, la haute précision obtenue dans l'étude est le résultat d'une expérience comparative conçue dans des conditions spécifiques. Dans l'exploitation réelle des réseaux sociaux, des slangs nouveaux, de l'ironie, des mèmes, des différences culturelles, des différences linguistiques, des bots, des trolls et des campagnes politiques se mêlent. Une caractéristique efficace à une certaine période peut ne plus l'être à une autre.

De plus, les utilisateurs changent leur langage s'ils sont conscients d'être détectés. Si la surveillance par IA se généralise, les expressions flagrantes pourraient diminuer, tandis que les formulations cryptées et les jargons internes pourraient augmenter. C'est un problème récurrent dans les communautés extrémistes et la lutte contre le spam.

C'est pourquoi l'"intervention contextuelle" soulignée par l'équipe de recherche est cruciale. Il est nécessaire de comprendre les normes de chaque communauté et de mettre en place des réponses dotées de transparence, d'explicabilité et de mécanismes de contestation, plutôt qu'une simple détection.


Les lieux neutres sont-ils vraiment neutres ?

Une autre question soulevée par cette étude est celle de la définition d'une "communauté neutre".

Nous avons tendance à percevoir les communautés politiques ou les forums de théories du complot comme des lieux spéciaux. Là-bas, des discours extrêmes circulent, les émotions s'exacerbent et les conflits émergent. En revanche, les communautés consacrées à la cuisine, à la musique, au cinéma, au bricolage ou aux photos d'animaux sont considérées comme des lieux plus calmes et neutres.

Cependant, la recherche montre que ce n'est pas si simple. Les utilisateurs n'existent pas dans une seule communauté. Dans un endroit, ils commentent des photos de chiens, dans un autre, ils s'indignent des nouvelles, et ailleurs, ils sympathisent avec des interprétations conspirationnistes. La personnalité en ligne se forme en se déplaçant à travers plusieurs espaces.

En d'autres termes, la vision du monde conspirationniste n'est pas confinée uniquement aux lieux dédiés aux théories du complot. Dans les conversations quotidiennes, les discussions sur les loisirs, et les brèves réactions aux nouvelles, les habitudes émotionnelles et les structures de méfiance peuvent également transparaître.

Ce n'est pas une question de suspecter les individus. C'est plutôt une question de comprendre à quel point l'espace en ligne est interconnecté. Sur les réseaux sociaux, les loisirs, la politique, la santé, les nouvelles, le divertissement, la colère, l'anxiété et les blagues se mélangent au sein d'un même compte. Comment gérer ce mélange sera un défi pour la conception future des plateformes.


La recherche ne vise pas à "chasser les personnes dangereuses"

Ce type de recherche peut prendre une direction dangereuse si elle est mal interprétée. L'idée de discerner la "nature conspirationniste" à partir des publications peut facilement être perçue comme une technologie de surveillance ou de profilage.

Cependant, ce que cette recherche montre réellement, c'est une méthode pour comprendre la structure linguistique des communautés en ligne, et non une méthode pour condamner les individus. L'important est de savoir comment les théories du complot se propagent en lien avec certaines émotions, vocabulaires et cultures communautaires.

Les chercheurs soulignent la nécessité d'une analyse et d'une intervention sensibles au contexte, plutôt qu'un détecteur universel. C'est un point de vue important pour les opérateurs de plateformes, les médias et les utilisateurs.

Car les théories du complot ne sont pas simplement des "informations erronées". Elles impliquent colère, anxiété, sentiment d'exclusion, méfiance et sentiment d'appartenance à une communauté. Supprimer les fausses informations ne révèle pas pourquoi les gens sont attirés par elles.


Les mots annoncent le changement avant l'appartenance

Les mots sur les réseaux sociaux ne sont pas de simples transmissions d'informations. Ils révèlent en qui on a confiance, ce que l'on craint, et dans quelle communauté on se sent en sécurité.

Cette étude a montré que la participation à une communauté de théories du complot pourrait être liée à des tendances linguistiques et psychologiques préexistantes, plutôt qu'à une chute soudaine. Bien sûr, ce n'est pas une fatalité. Utiliser un certain mot ne signifie pas que l'on se dirigera vers les théories du complot.

Cependant, à travers les énormes données des réseaux sociaux, des motifs invisibles dans les publications individuelles apparaissent. Les mots chargés de colère ou d'anxiété, les références à la maladie ou à la mort, le discours conflictuel. Pris individuellement, ce sont des expressions quotidiennes, mais leur accumulation peut être statistiquement liée à une certaine participation communautaire.

Le défi à venir est de savoir comment utiliser ces connaissances. Utilisées pour la surveillance ou l'exclusion, les réseaux sociaux pourraient approfondir la méfiance. Mais si elles sont utilisées pour comprendre le contexte de chaque communauté, détecter précocement la radicalisation ou l'isolement, et concevoir un dialogue plus sain, elles