Traduction de What Machines Don’t Know par Eryk Salvaggio, 12 octobre 2025
Imaginer le langage sans imagination
Il est important de reconnaître que les grands modèles linguistiques sont complexes. Il existe une dichotomie simpliste dans les discussions en ligne entre la caractérisation dédaigneuse des LLM comme « prédicteurs du mot suivant » par de nombreux opposants à l’IA, et les défenseurs de l’IA qui agissent comme si le modèle était une réplique parfaite du cerveau humain. À bien des égards, « prédicteurs du prochain token » est une simplification excessive : il serait plus juste de dire que les LLM sont des prédicteurs du prochain token incroyablement complexes.
Pour ceux qui ont la chance de ne pas comprendre ce que cela signifie, voici une brève explication. Un grand modèle linguistique fonctionne en tokenisant le langage : il convertit les mots en valeurs numériques, puis intègre diverses données numériques relatives à ces valeurs dans une série de listes.
chat => 75
Chaque mot des données d’entraînement dispose d’une telle liste, et les chiffres de la liste représentent une relation avec d’autres mots. Cela représente beaucoup d’informations, toutes exprimées sous forme de coordonnées dans un grand graphique. Les listes ne sont que des chiffres, décrivant les positions relatives de chaque mot dans un immense espace multidimensionnel.
chat => 75[1,2, 2,4, 0,0, 0,0, 4,5 …]
La prédiction du prochain token correspond à la manière dont le modèle « sélectionne » un mot. Votre invite fonctionne essentiellement en ajustant des cadrans jusqu’à ce qu’une série de mots s’alignent dans une séquence mathématiquement contrainte. Il ne s’agit pas d’une prédiction unique, mais d’un va-et-vient de ces positions jusqu’à ce qu’elles s’adaptent à un contour statistique satisfaisant, guidé par les valeurs associées aux mots de votre invite. Elles sont poussées jusqu’à leur position.
La plupart des débats les plus intenses sur l’IA se résument à « vous ne comprenez même pas la technologie ». Mais je soupçonne que la distinction la plus importante n’est pas de savoir si nous comprenons le fonctionnement d’un modèle, mais plutôt comment nous interprétons ce que fait la structure.
Police de la pensée
Beaucoup de gens attribuent diverses valeurs juridiques et sociales à la fonctionnalité des LLM en se basant sur leur capacité à « apprendre » les relations textuelles à partir de données d’entraînement et à produire des textes convaincants à partir de ce qu’ils ingèrent. Des affirmations plus audacieuses affirment la valeur des textes produits par l’IA en dégradant le processus de pensée qui motive le discours humain. Cette affirmation, généralement répandue en ligne, est que les humains ne sont aussi que des prédicteurs de tokens suivants, que le cerveau humain est une machine à trouver des modèles et que le discours en est le reflet.
Pour croire que cela est vrai, il faudrait imaginer que tout le langage humain est entièrement motivé par la grammaire. Je ne sais pas si cette croyance est erronée, je dis simplement qu’il faudrait y croire. Je tiens à être prudent ici : la distinction entre la grammaire humaine – par exemple, dans la structure des phrases en anglais – est différente de ce que nous appellerions une « grammaire » dans un LLM. Ce que je m’apprête à décrire a un terme technique dans les LLM, « embeddings », mais nous pouvons le considérer comme un labyrinthe à billes.
Un labyrinthe à billes en bois, avec des boutons sur le côté, qui inclinent la surface du labyrinthe afin qu’une bille puisse se déplacer à travers des canaux étroits vers des trous.
Le mot est placé dans un modèle, qui est structuré par l’ensemble du corpus de texte d’entraînement. Lorsque nous sollicitons le modèle, l’espace autour de chaque mot – l’espace vectoriel – se déplace, et des activations le traversent, déclenchant des chemins à travers ces « tokens intégrés » (mots) en fonction de la relation avec les tokens précédents. Contrairement à un labyrinthe à billes, où le but est d’éviter les trous, nous pouvons considérer cet espace vectoriel en constante évolution du LLM comme une tentative d’adapter chaque mot à un trou spécifique, ou du moins à un trou suffisamment proche d’un trou spécifique.
Pour chaque mot dans la sortie du LLM, la « bille » dans ce labyrinthe métaphorique traverse des milliers de labyrinthes à la fois, en fonction du nombre de paramètres que nous attribuons au modèle. Nous pouvons imaginer la balle se déplaçant dans un espace tridimensionnel, entourée d’une série de chemins entrelacés mais étroitement confinés, le système étant déterminé à trouver le chemin que chaque balle d’acier peut trouver à travers chaque trou approprié. Une fois que le « mot » (le token représentant le mot) est inséré, tous les tokens qui l’entourent sont réorganisés (ce qu’on appelle la « rétropropagation ») jusqu’à ce que la phrase ou le paragraphe « fonctionne ».
Par conséquent, la grammaire d’un LLM est structurée de manière constamment changeante. Les mots dans les invites de l’utilisateur deviennent des jetons qui déclenchent une négociation avec les jetons environnants, ce qui influence la probabilité qu’un mot particulier apparaisse en réponse à ceux qui l’entourent. Chaque mot possède une longue liste de valeurs qui peuvent influencer et être influencées par la longue liste d’autres valeurs liées à différents mots.
Dans le langage humain, chaque mot pousse et tire les autres vers de nouvelles directions de sens. Pour simuler cela avec une machine, nous pouvons étirer et réattribuer chaque « valeur » dans la matrice des mots associés. Nous pouvons comprendre ce processus comme une mathématique plutôt que comme un langage, et voir comment cette mathématique pourrait créer une simulation convaincante du langage.
Chaque mot d’un paragraphe généré est une solution à ce problème de séquençage mathématique. Ce qui est un objectif très différent de celui du langage humain.
Néanmoins, ce processus mathématique permet de placer un mot dans son environnement plutôt que de trouver des mots qui correspondent à une signification. Cela explique comment les modèles parviennent à produire un discours contextuel sans comprendre le contexte du monde : de la même manière qu’une balle peut être lâchée dans un trou dans un labyrinthe. Elle ne navigue pas en réfléchissant consciemment à l’endroit où elle devrait se trouver, mais en suivant une structure qui évolue autour d’elle. Le langage est « inséré » plutôt que « produit ». Et ce sont les humains qui font tout le travail.
Quand les mots sont aussi de la grammaire
Toute logique d’un LLM est donc liée et étroitement définie par la position d’un mot donné dans une série de matrices. Elle est littéralement stéréotypée. Une grande partie du langage humain est également stéréotypée. Mais le LLM utilise sa propre « grammaire » machine d’une manière différente de la grammaire humaine, et cette différence est cruciale.
Le langage humain est motivé par l’articulation de la pensée ; le langage machine est élaboré à travers la structure. La structure machine est une grammaire qui dicte entièrement la production du langage, et les mots sont eux-mêmes considérés comme faisant partie de la grammaire, et non comme des référents individuels d’un concept plus large.
En conséquence, la probabilité de trouver de nouveaux arrangements de mots grâce à un LLM n’est pas déterminée par la capacité de raisonnement de l’IA, mais par la capacité à mélanger les attentes quant à la position correcte d’un mot, c’est-à-dire à élargir la gamme de places qu’un mot peut occuper. Le modèle y parvient en introduisant du bruit, qui peut être contrôlé grâce à un paramètre appelé « température » dans la plupart des modèles linguistiques.
Mais comme pour les images générées par l’IA, toute nouvelle collision de sens et tout nouvel agencement de texte sont également cosmétiques. Il s’agit d’un heureux hasard. C’est au lecteur de déterminer la différence introduite par le bruit : « Ce texte est-il une nouvelle idée ou s’agit-il de bruit ? » Mais toute nouvelle idée est finalement le résultat du bruit introduit dans un système rigide, et du recalibrage qui en résulte en un texte lisible. Les LLM ne produisent ni raisonnement ni réflexion approfondie sur les faits. Ils ne peuvent pas anticiper les conséquences d’un mot dans la situation où il sera ajouté. Ils produisent plutôt un résultat qui crée une approximation plausible de l’endroit où les mots pourraient se trouver si la raison ou la réflexion étaient présentes, en se basant sur l’endroit où ces mots se sont généralement trouvés lorsque la raison et la réflexion étaient précédemment présentes (écriture humaine).
Les humains peuvent écrire de cette manière, et le font parfois. Prenons l’exemple des clichés et des aphorismes, des textes et des e-mails irréfléchis, et de la satiété sémantique due à une utilisation excessive : « Je t’aime », « Tu me manques ». Comment ces phrases comparent-elles ou expriment-elles l’expérience du désir ardent pour quelqu’un que l’on aime ? Elles ne le font pas, et servent donc de marqueurs d’un sentiment qui ne parvient pas à remplir leur fonction. Elles échouent notamment par rapport à un poème écrit sur le manque de quelqu’un, qui s’efforce de trouver de nouveaux arrangements de mots pour exprimer une expérience partagée par des millions de personnes, mais d’une manière unique et significative. Dans la plupart des cas, c’est l’effort de trouver ces mots, et non le choix des mots eux-mêmes, qui nous pousse à les adopter.
Chaque mot est en fin de compte une règle sur l’endroit où il peut être placé, plutôt qu’un geste vers une expérience…
Les décisions linguistiques humaines suivent également des règles grammaticales, mais nous disposons d’une certaine flexibilité au sein de ces structures. Nous donnons donc naissance à une pensée et l’articulons en fonction du mot et de la place grammaticale qui servent le mieux nos concepts internes pour les transmettre aux autres. Il s’agit là d’une distinction importante par rapport à une machine qui détermine la probabilité de la position d’un mot parmi plusieurs axes changeants, même s’ils sont similaires sur le plan esthétique. La différence, selon moi, est que les mots d’un LLM et la grammaire d’un LLM sont indissociables : chaque mot est en fin de compte un ensemble très complexe de règles concernant son emplacement, plutôt qu’un geste vers une expérience qu’il pourrait exprimer.
Pour être clair, cela ne diminue en rien les capacités impressionnantes des LLM, même si je suis finalement plus impressionné par leur architecture (transformateurs et autres) que par leur production linguistique, étant donné à quel point le langage qu’ils produisent est mal compris. Les LLM font quelque chose, mais ce n’est pas ce que les humains font avec les mots.
Une machine ne peut pas s’imaginer elle-même
C’est peut-être Sartre qui a suggéré que la conscience est la capacité à s’imaginer soi-même. Cela manque aux LLM, même si certains pourraient affirmer le contraire : un LLM ne peut pas s’imaginer lui-même, bien qu’il puisse se décrireen insérant des mots dans des séquences. Il peut insérer des couches et des couches de mots dans des milliers de labyrinthes simultanément jusqu’à ce qu’il puisse créer un texte sur le texte qu’il a produit, puis résumer ce texte et l’appeler raison.
Mélanger un texte antérieur pour préparer un texte futur est un concept maladroit de la conscience : les racines du texte LLM sont toujours déterminées par la position d’un mot par rapport à d’autres mots, plutôt que par un geste émotionnel ou un lien avec les véritables imaginations internes de son propre esprit. Ce n’est pas ce qu’implique l’architecture d’un LLM, quel que soit le nombre de paramètres impliqués.
Mais beaucoup de gens peuvent être victimes d’un étrange paradoxe ici : incapables de reconnaître qu’il n’y a pas d’« imagination » dans les affirmations d’un LLM sur lui-même, nous ne reconnaissons pas non plus que le texte produit par le modèle est néanmoins imaginaire, une conjecture hypothétique de symboles dans des emplacements appropriés dont le lien avec un « moi » imaginé est absent. L’imagination se trouve dans le langage, pas dans le modèle, et elle est activée socialement.
Les architectures actuelles des LLM ne peuvent pas imaginer, mais elles peuvent séquencer. Elles peuvent fonctionner dans nos cadres symboliques imaginatifs, mais elles ne peuvent pas utiliser les symboles car elles ne peuvent pas s’imaginer participer à la négociation de ces symboles. Pour la même raison qu’un chien peut aller à l’église mais ne peut pas être catholique, un LLM peut avoir une conversation mais ne peut pas participer à la conversation.
Un chien peut « aller à l’église » mais ne peut pas être catholique. Un LLM peut avoir une conversation, mais ne peut pas participer à la conversation.
Certains diront néanmoins que cela ressemble tout de même à la pensée humaine. En tant qu’humaniste, je me soucie moins de prouver d’une manière ou d’une autre si cela est vrai, ce qui, d’après moi, relève du domaine de la philosophie. En attendant, je pense qu’il est utile de déterminer si nous voulons ou non classer ces types de production linguistique dans la même catégorie.
La décision d’assimiler la pensée humaine à un classement complexe effectué par une machine a des implications sociales importantes. Elle présuppose que l’expression humaine est uniquement et sans exception l’automatisation de la grammaire, que les mots déterminent toujours et sans exception, par eux-mêmes, quand ils apparaîtront. L’esprit devient un vaste espace vectoriel mathématique à travers lequel les mots s’affirment plutôt qu’une bibliothèque personnelle dans laquelle les mots sont, parfois, trouvés.
Rien de tout cela ne convaincra ceux qui sont déjà convaincus, et comme je l’ai dit : tout est une question d’interprétation. Ceux qui défendent cette thèse peuvent affirmer que la table de consultation est comme consulter un thésaurus, mais ils oublient qu’il s’agit en fait d’être contraint d’utiliser un thésaurus et de suivre le changement de sens en lançant les dés. Il y a là une distinction essentielle, et j’admets que je ne l’ai pas encore tout à fait articulée. Il s’agit d’une newsletter, pas d’une thèse.
Mais ce qui est clair, c’est qu’aucun réseau neuronal n’arrive ou ne s’imagine tout seul ; il est entièrement façonné par les données qui lui sont fournies. Même si un LLM était un jour conçu pour trouver le sens des mots, il arriverait à des conclusions guidées par ceux qui conçoivent les pondérations à l’intérieur du système, sur la base des données sélectionnées pour ce système. Si nous pouvions prouver une fois pour toutes qu’un « modèle du monde » est une approximation du nôtre, cela rendrait d’autant plus préoccupante l’utilisation du LLM pour présenter vos propres idées.
Le personnel cesse alors d’avoir de l’importance, tout comme le sens réel de « l’importance » d’élaborer une phrase réfléchie. Nous avons toujours été contraints par les limites du langage pour nous exprimer, même si nous pouvons l’associer à toutes sortes de choses. Dans la vision du monde où l’homme et la machine sont équivalents, l’écriture est toujours automatique : pas de staccato dans l’échange de pensées et d’articulations, juste le battement régulier de tables de consultation statistiquement contraintes.
Voir la LISTE ÉVOLUTIVE des articles
traduits par Gilles en vrac…
