18/08/2025

Les grands modèles linguistiques sont des technologies culturelles. Qu’est-ce que cela signifie ?

Quatre perspectives différentes

HENRY FARRELL
18 AOÛT 2025

Traduction de Large language models are cultural technologies. What might that mean?

Cela fait cinq mois qu’Alison Gopnik, Cosma Shalizi, James Evans et moi-même avons écrit pour affirmer que nous ne devrions pas considérer les grands modèles linguistiques (LLM) comme des « agents intelligents et autonomes » ouvrant la voie à l’intelligence artificielle générale (AGI), mais plutôt comme des technologies culturelles et sociales. Entre-temps, ces modèles se sont indéniablement améliorés à divers égards. Cependant, même Sam Altman a commencé à modérer son discours sur l’AGI. Je le répète. Même Sam Altman.

Alors, que signifie affirmer que les LLM sont des technologies culturelles (et sociales) ? Cette perspective met de côté la pensée singulariste, afin de placer les changements culturels et sociaux au centre. Mais cela reste évidemment trop vague pour être particulièrement utile. Nous avons besoin de modes de réflexion plus spécifiques – et de désaccords constructifs – sur les conséquences que pourraient avoir les LLM.

Cet article est une première tentative pour décrire différentes façons dont les gens pourraient utilement réfléchir aux LLM en tant que technologies culturelles. Quelques réserves évidentes. Il identifie quatre perspectives différentes ; je suis sûr qu’il en existe d’autres que je ne connais pas, et il y en aura certainement d’autres à l’avenir. Je suis beaucoup plus proche de l’une de ces perspectives que des autres, donc tenez compte de mon parti pris. De plus, je peux me tromper sur ce que pensent les autres, et j’exagère certainement certaines différences entre les perspectives. Considérez cet article moins comme une description définitive de l’état du débat que comme un échange de points de vue destiné à révéler les interprétations erronées et à clarifier les choses afin qu’un débat approprié puisse peut-être s’engager. Enfin, je m’abstiens délibérément de déterminer laquelle de ces approches est la bonne. Au contraire, en exposant aussi clairement que possible les idées qui les motivent, j’espère susciter un débat différent sur l’utilité de chacune d’entre elles, à quel moment et pour quel type de questions.

Le gopnikisme

Je commence par celle-ci car, pour des raisons évidentes, c’est celle que je connais le mieux. L’exposé original est celui d’Eunice Yiu, Eliza Kosoy et Alison, qui cherche à rapprocher la psychologie cognitive et la théorie de l’évolution. Plus précisément, ils suggèrent que les LLM sont confrontés à des limites strictes dans leur capacité à innover de manière utile, car ils n’ont pas de contact direct avec le monde réel. Par conséquent, nous ne devrions pas les traiter comme des intelligences agissantes, mais comme « de nouvelles technologies culturelles puissantes, analogues aux technologies antérieures telles que l’écriture, l’imprimerie, les bibliothèques, la recherche sur Internet et même le langage lui-même ».

Derrière le « gopnikisme » se cache l’observation banale que les LLM sont des technologies puissantes permettant de manipuler des chaînes de lettres tokenisées. Ils nagent dans l’océan des textes produits par l’homme, plutôt que dans le monde dont ces textes s’inspirent. Il en va de même pour les technologies apparentées aux LLM qui manipulent les images, le son et la vidéo. C’est pourquoi elles sont toutes mal adaptées pour traiter le « problème inverse » qui consiste à reconstruire « la structure d’un monde extérieur, changeant et nouveau à partir des données que nous recevons de ce monde ». Comme l’affirment Yiu, Kosoy et Gopnik, la manière dont les LLM modernes « apprennent » (à travers des entraînements massifs et coûteux) est fondamentalement différente de celle des enfants humains. Les connaissances auxquelles les LLM peuvent accéder reposent sur des compressions statistiques statiques de modèles présents dans les informations culturelles générées par les humains.

Les gopnikistes sont généralement très sceptiques quant à l’idée que l’on puisse parvenir à une IA véritablement agentique en augmentant la puissance de calcul et le volume de données. Ils suggèrent plutôt de comprendre les LLM en termes de conséquences pour la culture humaine. Tout comme le langage écrit, les bibliothèques et autres ont façonné la culture dans le passé, les LLM, leurs cousins et leurs descendants façonnent la culture aujourd’hui. L’accent est ici mis sur la culture en tant qu’information utile sur le monde. La culture est le système collectif de connaissances à travers lequel les êtres humains recueillent et transmettent des informations sur les aspects de leur environnement (y compris les autres êtres humains) qui ont une incidence sur leurs objectifs, leur survie et leur capacité à se reproduire. D’autres animaux ont également une culture, mais les êtres humains sont particulièrement sophistiqués dans leur capacité à transmettre et à manipuler les connaissances culturelles, ce qui leur confère divers avantages. Les êtres humains, en particulier les jeunes, explorent le monde et découvrent des informations utiles et intéressantes qu’ils peuvent transmettre à d’autres. Nous pouvons considérer le changement culturel comme un processus d’évolution darwinien dans lequel certains types de connaissances se propagent avec succès (elles sont copiées et reproduites avec un certain degré d’exactitude), tandis que d’autres disparaissent. Il n’y a aucune raison nécessaire de croire que toutes les connaissances qui survivent seront de « bonnes » connaissances (des erreurs peuvent certainement persister), mais nous pouvons supposer qu’en moyenne, elles sont susceptibles d’être quelque peu utiles.

Tout cela conduit à mettre l’accent sur les limites des LLM. Comme les LLM n’ont pas de retour direct entre le contact avec la réalité physique et la mise à jour, ils ne sont pas facilement capables du type d’apprentissage expérimental qui est la source la plus cruciale d’innovations utiles. Les enfants sont plus doués que les LLM pour découvrir de « nouvelles relations causales » dans le monde. Par conséquent, le gopnikisme considère les LLM moins comme des découvreurs que comme des mécanismes de transmission culturelle, influençant la manière dont les connaissances culturelles sont transmises d’un être humain à un autre. Ils sont potentiellement utiles car ils « codifient, résument et organisent ces informations de manière à permettre et faciliter leur transmission ». De même, ils peuvent déformer les informations qu’ils transmettent, de manière arbitraire ou systématique.

L’accent mis sur le fait que la culture est un réservoir d’informations précieuses sur les relations de cause à effet dans le monde réel, qui ont été en grande partie générées par des êtres humains réels à travers leurs expériences, ne nie en aucun cas que la culture puisse avoir d’autres aspects, mais ceux-ci sont moins pertinents pour les questions qu’elle soulève.

Comme Alison et nous-mêmes le suggérons dans l’article publié dans Science, les LLM ne sont pas seulement des canaux de transmission. Cosma et moi-même soulignons qu’ils sont à la fois des « technologies sociales » et des « technologies culturelles ». Nous nous référons ici aux travaux d’Herbert Simon et de ses collègues sur les systèmes artificiels de « traitement d’informations complexes », tels que les marchés et les bureaucraties, qui impliquent généralement la création de simplifications approximatives d’ensembles complexes et incompréhensibles. De ce point de vue, la culture humaine peut être considérée comme un vaste trésor de « formules, modèles, conventions, et même tropes et stéréotypes », et les LLMs comme de puissants mécanismes permettant de les résumer, d’y accéder, de les manipuler et de les combiner. James Evans et ses collaborateurs explorent comment ces technologies rendent visibles et tangibles des aspects de la culture auparavant inaccessibles, ouvrant la voie à de nouvelles formes d’exploration et de découverte culturelle.

Cela implique fortement que ces technologies auront des conséquences importantes et pourraient s’avérer très utiles, mais d’une manière qui dépendra de la culture humaine et continuera de dépendre de celle-ci. La manipulation à grande échelle des modèles et des conventions culturels peut apporter une grande valeur ajoutée. Comme Simon l’a souligné à plusieurs reprises, les êtres humains ont des capacités de résolution de problèmes très limitées, c’est pourquoi, dans la pratique, ils externalisent une grande partie de l’action à des systèmes sociaux plus vastes. Si les tropes et les stéréotypes font une grande partie de notre travail intellectuel à notre place, nous pourrions être capables d’en faire beaucoup plus si nous pouvions les combiner de nouvelles façons. De même, les tropes et les stéréotypes sont le produit culturel figé de l’expérimentation du monde, plutôt que des expérimentateurs volontaires à part entière. Même lorsque le gopnikisme affirme que les LLM peuvent faire plus que transmettre, il souligne les différences fondamentales entre l’intelligence humaine (et animale) qui est située dans le monde et l’information culturelle qui est située à au moins un niveau de distance de celui-ci.

Interactionnisme

Les descriptions interactionnistes des LLMs partent d’une conception similaire (mais pas identique) de la culture en tant que réservoir de connaissances collectives, mais d’une compréhension différente du changement. Le gopnikisme s’appuie sur des idées concernant la manière dont la culture évolue à travers des processus de transmission imparfaits mais relativement fidèles. L’interactionnisme met plutôt l’accent sur la manière dont les humains sont susceptibles d’interpréter et d’interagir avec les résultats des LLM, compte tenu de leur compréhension du monde. Il est important de noter que les objets culturels ont plus de chances de persister lorsqu’ils trouvent un écho dans les différents modules cognitifs spécialisés à travers lesquels l’intelligence humaine perçoit et interprète son environnement, et sont en effet susceptibles d’être remodelés pour mieux correspondre à ce que ces modules nous amènent à attendre.

Dans cette perspective, les conséquences culturelles des LLM dépendront donc de la manière dont les êtres humains interprètent leurs résultats, qui seront à leur tour façonnés par le fonctionnement du cerveau biologique. Le terme « interactionnisme » découle de l’accent plus large mis par cette approche sur la dynamique des groupes humains, mais par une heureuse coïncidence, sa contribution la plus immédiate au débat sur la technologie culturelle repose, à mon sens, sur les interactions à micro-niveau entre les êtres humains et les LLM.

L’idée est que les processus de transmission ne peuvent à eux seuls expliquer comment la culture humaine évolue. Comme l’a fait valoir Dan Sperber, peut-être la figure la plus importante de cette approche, dans les années 1990, la culture humaine est le produit d’un espace apparemment illimité de communications humaines. Il n’existe pas de processus darwinien de sélection dans lequel les « mèmes » ou d’autres unités culturelles se reproduisent ou disparaissent, mais il existe des points d’attraction au sein de ce chaos apparent. Certaines constructions culturelles semblent plus susceptibles de perdurer et d’être reproduites que d’autres, soit parce qu’elles correspondent aux caractéristiques générales de la société dans laquelle la culture subsiste, soit parce qu’elles correspondent aux modules mentaux à travers lesquels nous donnons un sens au monde. Toutes ces constructions sont façonnées par notre esprit : les histoires, par exemple, peuvent voir leurs aspects les plus maladroits s’estomper au fur et à mesure qu’elles passent d’une personne à l’autre, de sorte qu’elles ressemblent davantage à nos attentes et à nos archétypes.

Tout cela peut sembler désespérément abstrait : voici un exemple (que j’ai déjà évoqué) qui montre comment cela se traduit concrètement. Pourquoi tant de personnes, à différentes époques et dans différentes sociétés, croient-elles en un ou plusieurs dieux, des forces invisibles et puissantes qui façonnent le monde dans lequel nous vivons ? Dans In Gods We Trust, Scott Atran propose une explication interactionniste plausible pour expliquer pourquoi la croyance en des dieux est si répandue dans différentes cultures. Il soutient que ces croyances sont :

en partie, des sous-produits d’un mécanisme cognitif sélectionné naturellement pour détecter des agents — tels que des prédateurs, des protecteurs et des proies — et pour faire face rapidement et économiquement à des situations stimulantes impliquant des personnes et des animaux. Ce mécanisme de déclenchement inné est programmé pour attribuer une intention à pratiquement toute action qui imite les conditions stimulantes des agents naturels : les visages dans les nuages, les voix dans le vent, les ombres, les intentions des voitures ou des ordinateurs, etc.

En d’autres termes, notre cerveau est tellement programmé pour détecter une action consciente dans le monde que nous la voyons là où elle n’existe pas réellement. Nous postulons l’existence de dieux et d’autres agents surnaturels afin d’expliquer le fonctionnement complexe de phénomènes que nous aurions autrement du mal à expliquer. La foudre se produit lorsque le dieu du tonnerre est en colère. Et ainsi de suite. Bien sûr, la remarque sur les « intentions […] des ordinateurs » est devenue plus pertinente depuis qu’il l’a écrite.

Les dieux, les démons, les dryades, les wood-woses et autres créatures similaires apparaissent et persistent en tant que phénomènes culturels, en partie parce qu’ils correspondent aux modules cognitifs à travers lesquels notre cerveau interprète le monde. La forme spécifique qu’ils prennent sera influencée par une combinaison de hasard et de l’écologie culturelle spécifique dans laquelle ils apparaissent. Les mythes de l’Ulster préchrétien diffèrent à des égards essentiels de ceux de la région moderne de la baie de San Francisco. Mais il peut encore exister des points communs importants.
Cela aide donc à expliquer pourquoi les LLM remettent en question notre capacité à appréhender l’intelligence agentive et le monde non agentif de manière nouvelle. Comme le souligne Sperber, « dès la naissance, les êtres humains attendent que les sons de la parole aient un sens (une attente souvent déçue, mais rarement abandonnée) ». Cela est préprogrammé en nous, grâce à un environnement passé dans lequel, évidemment, il y avait peu de chances de rencontrer un discours ou une communication qui ne provenait pas en fin de compte d’un agent supposé conscient. Ce n’est pas le monde qui est en train de naître autour de nous.

Tout cela suggère qu’au-delà de la copie et de la transmission, nous devons également nous intéresser à la réception. Comment les êtres humains interpréteront-ils les résultats des LLM, compte tenu à la fois des modules cognitifs qu’ils utilisent pour interpréter le monde et des environnements culturels spécifiques dans lesquels ils évoluent ? Plus précisément, comment les humains interpréteront-ils les résultats d’une technologie qui déclenche nos capteurs cognitifs d’intelligence agentique sans qu’il y ait d’agent derrière ?

D’une part, des interactionnistes comme (Hugo) Mercier et Sperber soulignent que nous disposons de modules cognitifs qui semblent adaptés à la détection des mensonges des autres, de sorte que nous ne sommes pas facilement dupés par leurs affirmations. Nous sommes beaucoup plus aptes à détecter les failles dans les arguments des autres que dans les nôtres ; nous sommes même, selon certaines preuves expérimentales, plus aptes à détecter les failles dans nos propres arguments lorsqu’ils sont présentés comme provenant d’autres personnes. Felix Simon, Sacha Altay et Hugo Mercier voient donc des raisons d’être optimistes quant au fait que l’IA générative sera moins efficace que beaucoup ne le pensent pour produire des informations erronées convaincantes. Dans des travaux plus récents, Simon et Altay soulignent que nous n’avons pas encore assisté aux catastrophes démocratiques provoquées par l’IA que beaucoup avaient prédites.

Cependant, deux autres chercheurs suggèrent que les « hallucinations » des LLM pourraient facilement contourner le scepticisme inné des gens, car elles constituent la meilleure estimation du modèle (avec un peu de bruit ajouté) quant à la réponse la plus probable. Leurs erreurs peuvent parfois sembler plus plausibles aux humains que la vérité, qui peut être plus variée et plus inattendue que le discours banal et irréprochable de la machine.

Une conséquence sociale possible de cette analyse est donc ce que nous appelons l’hypothèse de la dérive modale : étant donné que nos mécanismes de vigilance ouverts ne sont pas en mesure de bien traiter les textes générés par de grands modèles linguistiques, qui n’ont pas l’intention explicite de nous tromper et qui produisent des déclarations qui passent notre contrôle de plausibilité, l’inclusion de modèles linguistiques en tant que contributeurs de masse à nos écosystèmes d’information pourrait perturber leur qualité, de sorte que l’écart entre les résultats de nos jugements intuitifs sur la véracité du texte et son exactitude réelle ne ferait que s’accroître.

Et tout cela devrait devenir encore plus étrange à mesure que les humains et les LLM interagissent de plus en plus. Nous assistons déjà à de tragiques folies à deux. Nous verrons probablement émerger de nouveaux points d’attraction culturelle issus de l’interaction entre l’intelligence humaine et les systèmes machiniques qui chevauchent l’organique et l’inorganique d’une manière sans précédent. Les cultes étranges et les religions maison sont un pari très sûr. Il en va de même pour les économies cognitives autonomes et étranges. Max Weber a fait valoir dans les premières décennies du XXe siècle que :

les valeurs ultimes et les plus sublimes se sont retirées de la vie publique pour se réfugier soit dans le domaine transcendant de la vie mystique, soit dans la fraternité des relations humaines directes et personnelles. Ce n’est pas un hasard si nos plus grandes œuvres d’art sont intimes et non monumentales, ni si aujourd’hui, ce n’est que dans les cercles les plus restreints et les plus intimes, dans des situations humaines personnelles, en pianissimo, que vibre quelque chose qui correspond au pneuma prophétique qui, autrefois, balayait les grandes communautés comme un feu de joie et les soudait entre elles.

Au cours des premières décennies du XXIe siècle, le pneuma prophétique est de retour. Que va-t-il se passer ensuite ?

La perspective interactionniste nous encourage largement à poser trois questions. À quoi ressemblera l’environnement culturel à mesure que les LLM et les technologies connexes deviendront des producteurs de culture de plus en plus importants ? Comment les êtres humains, avec leurs diverses particularités et bizarreries cognitives, sont-ils susceptibles d’interpréter et de réagir à ces productions ? Et quels types de boucles de rétroaction sommes-nous susceptibles de voir entre les premiers et les seconds ?

Structuralisme

J’ai récemment écrit un long article sur le dernier livre de Leif Weatherby, Language Machines, qui soutient que les théories structuralistes classiques du langage fournissent une théorie puissante des LLM. Cela articule une troisième approche des LLM en tant que technologies culturelles. Contrairement au gopnikisme, elle ne part pas du principe que la valeur de la culture découle de son lien avec le monde matériel et rejette l’idée selon laquelle nous devrions construire une « échelle de référence » à partir de la réalité. Elle rejette également l’accent mis par les interactionnistes sur les mécanismes cognitifs humains :

Il faut une théorie du sens du langage qui exclue d’une manière ou d’une autre la cognition, ou du moins ce que nous avons souvent considéré comme telle.

De plus :

Les approches cognitives passent à côté de ce qui est intéressant dans les LLM, à savoir leurs propriétés formelles et sémiotiques indépendantes de toute « intelligence ».

Au lieu de la mise en correspondance entre le monde et l’apprentissage, ou entre l’architecture des LLM et celle du cerveau humain, elle met l’accent sur les correspondances entre les systèmes à grande échelle. La plus importante est la correspondance entre le système linguistique et les systèmes statistiques capables de le saisir, mais elle s’intéresse également à d’autres systèmes, tels que la bureaucratie.

Les modèles linguistiques capturent le langage en tant que système culturel, et non en tant qu’intelligence. … La nouvelle IA est constituée et conditionnée par le langage, mais pas en tant que grammaire ou ensemble de règles. En absorbant de vastes pans du langage réel utilisé, ces algorithmes s’appuient sur le langage in extenso : la culture, en tant que machine.

L’idée est donc que le langage est un système dont les propriétés les plus importantes ne dépendent ni de sa relation avec le monde qu’il décrit, ni des intentions des humains qui l’utilisent. Weatherby suggère que l’avantage de la pensée structuraliste et (beaucoup) post-structuraliste est qu’elle permet d’examiner les LLM pour ce qu’ils sont, plutôt que par référence à autre chose, transformant ce que le gopnikisme considère comme un défaut en un aspect essentiel de quelque chose d’étrange et de nouveau.

Saussure divise le signe en deux, arguant que, dans le cas du langage, il est composé d’une « image sonore » et d’un « concept », qu’il restreint encore davantage avec les termes techniques « signifiant » et « signifié ». On a beaucoup parlé de cette séparation entre le langage et la référence directe au monde, mais, en plus d’être beaucoup plus plausible que toute théorie donnant la priorité à la référence, elle correspond au problème d’un système générateur de langage qui n’a aucun moyen de générer des mots par référence directe, comme un LLM.

Les LLM fonctionnent comme ils le font grâce à une correspondance remarquablement utile entre deux systèmes : le système du langage humain tel qu’il a été utilisé et développé, et le système de résumés statistiques générés par une architecture de type « transformateur », ce qui conduit à une « fusion de différents ordres structurels ». Bien que leurs productions culturelles soient différentes de celles des humains (il n’y a pas d’intentionnalité directe derrière elles), elles constituent, sans aucun doute, une forme de culture. Ce que nous considérons comme humain est en partie le résultat de systèmes tout aussi impersonnels et dépourvus d’intention que n’importe quel grand modèle linguistique. Il n’existe pas d’essence humaine originale qui ne soit pas contaminée par le système. Selon Herbert Simon, les LLM sont des systèmes artificiels, mais c’est aussi le cas de la plupart des sociétés humaines.

L’effet Eliza est un symptôme de la profondeur du langage dans notre appareil cognitif. Nous le considérons comme parasitaire par rapport à un original, mais nous n’avons aucun contenu pour remplir cette image originale. Faute de cela, nous nous contorsionnons conceptuellement pour nier à tout prix que l’IA ne fait que générer de la culture.

Et cela entraîne à son tour une grande transformation, s’appuyant sur des transformations précédentes, soudant les différents systèmes de la société d’une manière très différente de ce qui se faisait auparavant, et nous obligeant à prêter attention à des choses que nous avions écartées ou ignorées.

Les LLM nous obligent à affronter le problème du langage non pas en tant que référence ou moyen de communication, mais en tant qu’interface entre la forme et le sens, la culture et l’art, l’idéologie et la perception. Ils constituent la version la plus complète de la sémiologie computationnelle à ce jour, précisément parce qu’ils instancient le langage de manière très proche de sa forme numérique et culturelle. La datafication de tout est en passe de devenir qualitative, de former une charnière linguistique et informatique pour d’autres formes de traitement des données et l’interface multimédia étendue, axée sur le texte, de notre vie quotidienne et des processus sociaux mondiaux.

Cette perspective large n’implique pas de prise de position spécifique sur le fait que ces transformations seront bonnes ou mauvaises pour nous. Ailleurs, Weatherby s’inquiète que les LLM puissent transformer les bureaucraties de manière négative.

Nous pourrions appeler cela la culture du tableur en hyperdrive, un monde dans lequel toutes les données peuvent être traduites en langage synthétique et tout langage en données optimisées à partir d’une simple commande. Mais là où les tableurs avaient des fonctionnalités limitées, les LLMs agissent comme des traducteurs universels dans le même domaine. Ils ont de nombreux défauts, mais cette capacité fondamentale constitue un changement radical dans le monde banal de la bureaucratie moderne.  … La puissance, le danger et les limites de l’IA se trouvent tous dans ce monde banal fait de lignes et de colonnes. Il est facile de l’oublier, car nous avons passé les trois dernières décennies à transformer pratiquement le monde entier en une gigantesque feuille de calcul. Avec tout, depuis les variations quotidiennes de votre rythme cardiaque et vos tendances financières jusqu’à vos tics de langage et votre culture préformatés pour un modèle d’IA, la puissance de cet outil devient immense.

De même, Ted Underwood, qui part d’une compréhension globalement similaire de ces technologies, se montre prudemment enthousiaste quant à leurs possibilités.

L’écriture nous permet de prendre du recul par rapport au langage, de l’étudier, de l’affiner et de construire des structures complexes où un texte débat avec deux autres, chacun renvoyant à cinquante autres. Il serait difficile d’imaginer la science sans la capacité qu’offre l’écriture d’étudier le langage d’en haut et de l’utiliser comme matériau de construction.

L’IA générative représente une deuxième évolution dans notre capacité à cartographier et à modifier la culture. Nous pouvons désormais manipuler non seulement des textes et des images spécifiques, mais aussi les dispositions, les tropes, les genres, les habitudes de pensée et les modèles d’interaction qui les créent. Je ne pense pas que nous ayons encore pleinement saisi ce que cela pourrait signifier.

Plus généralement :

À mesure que nous développons des modèles entraînés sur différents genres, langues ou périodes historiques, ces modèles pourraient commencer à fonctionner comme des points de référence dans un espace plus large de possibilités culturelles qui représente les différences entre des cartes comme celle ci-dessus. Il devrait être possible de comparer différents modes de pensée, de les modifier et de créer de nouveaux adjectifs (comme des références de style) pour décrire les directions dans l’espace culturel.

Si nous pouvons cartographier l’espace culturel, pourrions-nous également découvrir des formes culturelles véritablement nouvelles et de nouvelles façons de penser ?… L’externalisation du langage et sa fixation sous forme écrite nous ont finalement permis de construire de nouveaux genres (l’article scientifique, le roman, l’index) qui exigeaient une attention plus soutenue ou une plus grande mobilité des références que ne pouvait le supporter la parole. Les modèles culturels devraient de la même manière nous permettre d’explorer un nouvel espace de possibilités humaines en stabilisant les points de référence qui le composent.

L’approche structuraliste examine donc comment les LLM produisent la culture sans intention volontaire. Les structuralistes ne font pas de distinction nette entre découverte et transmission culturelle, car ils s’intéressent moins à la manière dont la culture révèle des informations sur la réalité physique qu’à la manière dont les producteurs humains et non humains de culture s’imbriquent dans les mêmes systèmes. De même, ils sont moins enclins à extraire l’individu du système pour se concentrer sur ses particularités cognitives qu’à mettre l’accent sur les structures collectives d’où émerge le sens.

Jeu de rôle

Weatherby est frustré par la prédominance des sciences cognitives dans les discussions sur l’IA. La dernière perspective sur la technologie culturelle dont je vais parler soutient que les sciences cognitives ont beaucoup plus en commun avec Wittgenstein et Derrida que vous ne le pensez. L’article de Murray Shanahan, Kyle McDonell et Laria Reynolds publié dans Nature sur la relation entre les LLM et le « jeu de rôle » part des différences profondes entre nos hypothèses sur l’intelligence humaine et le fonctionnement des LLM. Dans des travaux ultérieurs, Shanahan emmène cette réflexion dans des directions assez inattendues.

J’ai trouvé cet article passionnant, même s’il confirmait mes idées préconçues. J’ai découvert les LLMs au début/milieu de l’année 2020 grâce à « AI Dungeon », une des premières applications du GPT-2, qui utilisait le moteur pour générer un jeu de rôle à itération infinie, commençant dans un décor fantastique ou de science-fiction classique. AI Dungeon ne fonctionnait pas très bien en tant que jeu, car il perdait constamment le fil de l’histoire sous-jacente. Je ne pouvais pas l’utiliser pour enseigner l’IA à mes étudiants comme je l’avais espéré, en raison de sa tendance persistante à dériver vers le porno. Mais il démontrait clairement la possibilité de quelque chose d’important, d’étrange et de nouveau.

Shanahan, McDonell et Reynolds expliquent pourquoi les LLM s’apparentent davantage à un immense « Choose Your Own Adventure » déroutant qu’à une intelligence cohérente et unilinéaire. C’est le meilleur article court que je connaisse sur le fonctionnement des LLM. Les auteurs expliquent pourquoi les implémentations des LLM sont des « superpositions de simulacres au sein d’un multivers de personnages possibles ». Le LLM s’appuie sur une version résumée de tous les personnages, de toutes les situations dans lesquelles ces personnages peuvent se trouver et de tous les raccourcis culturels que les humains ont inventés à propos de ces personnages dans de telles circonstances, le tout en superposition les uns avec les autres.

Shanahan, McDonell et Reynolds expliquent comment cela fonctionne à l’aide du jeu « 20 questions ». Lorsqu’un être humain joue à ce jeu, il commence par penser à un objet, puis répond à des questions à son sujet, qui peuvent ou non permettre à son interlocuteur de deviner correctement. Les LLM fonctionnent différemment.

Dans cette analogie, le LLM ne « décide » pas de l’objet au début du jeu de questions. Il commence plutôt par un très grand nombre d’objets possibles en superposition. Ce nombre se réduit au fur et à mesure que les questions avancent, de sorte qu’un groupe d’objets de plus en plus restreint répond aux critères, jusqu’à ce qu’il se fixe sur un objet possible lors du dernier tour, en fonction de la « température » et d’autres facteurs. Cela illustre comment, dans une conversation, le LLM dispose d’un ensemble massif de personnages, de situations ou d’approches en superposition sur lequel il peut s’appuyer, et qu’il est susceptible de réduire à un ensemble plus restreint de possibilités à mesure que le dialogue progresse dans la fenêtre contextuelle. Bon nombre de ces personnages, situations et approches sont des clichés, car les clichés sont, par définition, largement surreprésentés dans l’ensemble de données d’entraînement du LLM.

L’ensemble d’entraînement fournit au modèle linguistique un vaste répertoire d’archétypes et une riche mine de structures narratives sur lesquelles il peut s’appuyer pour « choisir » comment poursuivre une conversation, affinant le rôle qu’il joue au fur et à mesure, tout en restant dans le personnage. Le triangle amoureux est un trope familier, donc un agent de dialogue correctement guidé commencera à jouer le rôle de l’amant rejeté. De même, un trope familier dans la science-fiction est le système d’IA rebelle qui attaque les humains pour se protéger. Par conséquent, un agent de dialogue correctement guidé commencera à jouer le rôle d’un tel système d’IA.

Comme l’illustrent les défauts d’AI Dungeon, les LLM bruts et les formes connexes d’IA multimodale ont du mal à rester sur la bonne voie narrative, à s’en tenir à un seul personnage (par exemple, un « assistant utile ») plutôt que de dévier vers un ensemble d’attentes culturelles totalement différentes. Une grande partie du réglage fin et de l’apprentissage par renforcement, ainsi que de nombreuses instructions cachées, sont conçus pour mieux tracer la voie, mais ces corrections peuvent avoir des conséquences culturelles inattendues. Essayer de faire en sorte qu’un générateur d’images donne la priorité à la représentation d’une grande variété d’identités raciales et culturelles peut produire des stormtroopers nazis noirs. Essayer de rendre Grok moins « woke » peut donner naissance à MechaHitler. Contrairement à ce que beaucoup de commentaires populaires laissent entendre, ces résultats ne révèlent pas la véritable nature du LLM, car il n’y a pas de véritable nature à révéler.

Un modèle de base reflète inévitablement les biais présents dans les données d’entraînement[^ https://www.nature.com/articles/s41586-023-06647-8#ref-CR21], et ayant été entraîné sur un corpus englobant toute la gamme des comportements humains, bons et mauvais, il prendra en charge des simulacres aux caractéristiques désagréables. Mais c’est une erreur de penser que cela révèle une entité ayant son propre agenda. Le simulateur n’est pas une sorte d’entité machiavélique qui joue différents personnages pour servir ses propres intérêts, et il n’existe pas de voix authentique du modèle de base. Avec un agent de dialogue basé sur un LLM, tout n’est que jeu de rôle.

Un LLM n’est donc pas un personnage unique, mais un corpus culturel complet disponible pour un jeu de rôle, auquel la rétropropagation donne vie et animation. Cette explication partage de nombreux points communs avec les versions du gopnikisme qui soulignent l’importance des stéréotypes et des conventions, ainsi que la notion selon laquelle l’intelligence doit être incarnée. Cependant, elle semble moins soucieuse de réfuter les affirmations sur l’intelligence agentique que de rejeter les distinctions fondamentales sur lesquelles repose le débat plus large. Dans d’autres travaux, Shanahan refuse explicitement d’adopter une « position réductionniste », suggérant plutôt que nous devrions être moins dualistes dans la manière dont nous distinguons les agents des non-agents, les choses conscientes et intelligentes des choses qui ne le sont pas. La valeur des simulacres réside dans le fait qu’ils peuvent nous obliger, à long terme, à refondre les mots et les catégories culturelles dans lesquels nous classons différentes choses.

Derrière cette position se cache un mélange de sciences cognitives, de Wittgenstein, de Derrida et de philosophie bouddhiste que je ne vais même pas essayer de reconstituer. Je ne suis ni un spécialiste des sciences cognitives, ni un wittgensteinien, ni un derridien, ni un bouddhiste. Tout ce que je peux faire d’utile, c’est esquisser brièvement une version caricaturale de certaines implications.

Shanahan est sceptique quant à bon nombre de nos notions sur l’intelligence humaine, sans parler de l’intelligence artificielle, et impatient face aux analogies des philosophes analytiques sur les zombies sans conscience et autres concepts similaires. Il souhaite plutôt que nous abandonnions les jeux intellectuels dualistes et que nous trouvions un moyen de parler collectivement de « phénomènes exotiques conscients », c’est-à-dire des phénomènes que nous pourrions raisonnablement décider de qualifier de conscients, sur la base de nos expériences communes, mais qui pourraient reposer sur des mécanismes profondément différents de la conscience humaine.

Shanahan ne pense pas lui-même qu’il soit très utile à l’heure actuelle de parler des LLM comme ayant des croyances, et encore moins des désirs, sauf de manière quelque peu informelle et désinvolte. Mais nous pourrions à un moment donné être amenés à interagir avec des entités de type LLM dans le monde, qui semblent agir de manière intentionnelle. Ces entités pourraient, comme les LLM, s’appuyer en interne sur une multitude de simulacres en superposition, ou sur d’autres architectures encore plus étranges. À mesure que ces entités s’engageront plus directement dans le monde, la distinction entre jeu de rôle et authenticité deviendra de plus en plus floue.

Si nous commençons à considérer et à traiter ces entités comme des êtres conscients, nous pouvons raisonnablement commencer à les décrire de cette manière. S’appuyant sur Wittgenstein, Shanahan soutient que la conscience n’est pas un état intérieur inobservable, mais quelque chose que nous imputons en tant que membres d’une communauté linguistique, construisant ensemble un monde partagé (bien que contesté). La blague wittgensteinienne évidente, peut-être trop évidente, est que si un LLM pouvait parler, nous ne le comprendrions pas, mais la leçon pratique est que si un LLM nous semble, en tant que communauté réfléchie, être conscient, il doit être traité comme tel. Nous ne devons pas nous perdre dans des hypothèses sur des états cachés.

Dans l’argumentation de Shanahan :

Si un grand nombre d’utilisateurs en viennent à parler et à penser aux systèmes d’IA en termes de conscience, et si certains utilisateurs commencent à faire pression pour que ces systèmes aient une valeur morale, alors un débat à l’échelle de la société doit avoir lieu.

Il réserve toutefois sa position sur la question de savoir si ce monde serait meilleur ou pire que celui dans lequel nous vivons.

Dans un avenir de réalité mixte, nous pourrions voir apparaître toute une série de personnages – assistants, guides, amis, bouffons, animaux de compagnie, ancêtres, partenaires romantiques – accompagnant de plus en plus les gens dans leur vie quotidienne. D’un point de vue optimiste (et fantastique), cela pourrait être considéré comme un réenchantement de notre monde spirituellement dénudé, peuplé de nouvelles formes d’êtres « magiques ». De manière pessimiste (et peut-être plus réaliste), le résultat pourrait être un monde dans lequel les relations humaines authentiques seraient dégradées au point d’être méconnaissables, où les utilisateurs préféreraient la compagnie d’agents IA à celle d’autres humains. Ou peut-être que le monde trouvera un juste milieu et que, d’un point de vue existentiel, les choses continueront plus ou moins comme avant.

Cette approche met donc beaucoup plus l’accent que les trois autres sur la relation entre les aspects culturels et agentifs des LLM. Premièrement, elle explique comment les technologies basées sur les LLM peuvent animer des corpus culturels entiers à des fins agentives, même si cela s’accompagne d’étrangetés et de limites. Deuxièmement, elle suggère que nos catégories culturelles et nos façons de penser la conscience devraient changer (et changeront probablement), à mesure que de nouveaux personnages agentifs s’intègrent dans nos milieux culturels plus larges.

Je reviendrai probablement plus en détail sur les points de convergence et les arguments entre ces quatre perspectives différentes dans les mois à venir. Mais comme je l’ai indiqué, l’un de mes objectifs en écrivant cet article était d’exposer ma compréhension de ces perspectives, afin que d’autres puissent y réagir et, idéalement, corriger mes erreurs ! J’espère donc pouvoir en dire plus après cela…


Traduction de Large language models are cultural technologies. What might that mean?


Voir la LISTE ÉVOLUTIVE des traductions