World Models : comprendre l’approche qui pourrait changer l’IA

On a beaucoup parlé des World Models depuis que Yann LeCun a levé 1 milliard de dollars pour financer un géant de l’IA basé sur cette technologie.

Le monde des scientifiques en IA semble divisé en deux camps : d’un côté les adeptes des LLMs, de l’autre ceux qui construisent des World Models, avec par exemple JEPA.

En réalité, les choses sont plus nuancées. Des entreprises IA comme OpenAI ou Anthropic développent également des World Models, probablement de peur que cette techno disrupte leur champion actuel.

Dans cet article, on va expliquer les bases de cette architecture. L’idée est que vous puissiez vous faire votre propre opinion, que vous soyez dev ou CTO. Pas besoin de se noyer dans les mathématiques, on va expliquer simplement des concepts avancés.

World Models : le concept expliqué simplement

Dès que l’on rentre dans une explication du World Model, on a tendance à se perdre dans les différents composants de l’architecture. Alors on va partir d’une image.

Quand un LLM répond à une question. Un World Model va construire une représentation informatique du monde qui l’entoure, et anticiper son évolution.

Illustration Meta pour V-JEPA2

Il ne faut pas imaginer un Skynet qui essaie de prédire l’évolution de l’humanité. Par contre, un bras robotisé qui sait qu’il peut attraper un paquet et le mettre dans un bac, c’est un “monde” qui est petit et borné.

Et une caméra suffit. Il va regarder ce qui se passe autour de lui, et apprendre ce qu’il se passe quand il actionne le bras. Si je ferme la pince, le paquet sera saisi. Si je déplace le bras, le paquet va monter. Je déplace sur la gauche, et je repose.

On est sur une succession d’états simples, que le modèle apprend à enchaîner.

Pour répondre en une phrase : un World Model, c’est un modèle qui apprend comment un environnement évolue pour anticiper ce qui va se passer.

Pourquoi les LLMs sont limités ?

Les LLMs sont avant tout des générateurs de texte.

Quand on lui pose une question, il génère une réponse plausible, mot après mot. Chaque fraction de texte est appelée un token. On dit qu’ils sont autorégressifs. Parce que chaque token est une régression des précédents.

Plus il est loin de la question d’origine, plus il a tendance à faire des erreurs, que l’on appelle hallucinations. Alors on est obligé de redémarrer la conversation ou de couper la conversation en petites questions.

Yann LeCun leur reproche en plus d’être coincés dans le “Système 1”. Les adeptes des World Models se font avocats d’intelligences artificielles capables d’aller en “Système 2”.

Ces deux “Systèmes” sont issus d’une théorie de psychologie cognitive. Pour faire simple, notre cerveau aurait deux modes de pensée :

Le premier est rapide. Il donne une réponse plausible.
Le deuxième est capable de réflexion, d’analyse, de planification.

Ainsi, les LLMs correspondent plutôt au premier. Surtout que dans le Système 1, on avance des réponses avec beaucoup de certitude.

Faisons le test du “car wash”

Le plus bel exemple reste la question du “Car Wash”. Je l’utilise souvent pour tester les capacités d’un nouveau modèle.

C’est typique du Système 1, on prend la réponse évidente en premier. Et pouf, elle sort en quelques secondes.

Alors bien sûr, si vous prenez Claude Opus, si vous activez le mode Thinking, il va générer tout un raisonnement chainé et se rendre compte que ça n’a pas de sens d’aller au lave-auto sans l’automobile.

Et pour faire tout cela, on aura eu besoin de plusieurs minutes, et d’une armoire de composants informatiques dans un datacenter climatisé.

Les adeptes des World Models veulent répondre à la même question avec une carte graphique posée sur votre bureau.

Comprendre le monde sans tout reconstruire

Imaginez que vous êtes invité à une soirée de Gatsby le magnifique. Vous venez de rentrer dans le salon et vous pouvez voir des centaines de personnes. Il y a des bijoux, des plumes, des coupes de champagne.

Vous pouvez observer le visage de chaque invité. Vous allez même en reconnaître quelques-uns. Le groupe de musique joue du jazz.

Un LLM va faire la liste. Chaque invité, son humeur, sa tenue. Et en faisant la synthèse, il en déduira une humeur moyenne peut-être. Il va écouter chaque note de musique pour déduire que c’est du Jazz. Il va regarder chaque bijou et chaque tenue pour en déduire le style de la soirée.

Et tout ça, va occuper son contexte.

Alors que vous, en tant qu’être humain, vous allez juste retenir qu’il y a du monde, que vous avez vu votre copain Martin et où est le buffet peut-être.

Un World Model va compresser la réalité pour faire la même chose que vous : ne garder que l’essentiel. Il ne va pas retenir chaque personne comme un LLM, juste qu’il y a du monde. Cette représentation, c’est ce qu’on appelle un espace latent.

“Il y a du monde” devient un vecteur. La musique en est un deuxième. Et quand la musique va s’arrêter, il y aura moins de monde. Ce nouvel état sera représenté par une évolution des deux vecteurs. Le modèle va enregistrer la relation entre les deux vecteurs.

Prédire ce qu’il va se passer

Maintenant qu’on a expliqué les espaces latents, on peut expliquer comment ce modèle interagit avec le monde. À partir de la situation actuelle, le modèle peut envisager différentes évolutions possibles.

Imaginez que le DJ soit un Robot qui utilise un World Model. Il joue du jazz et voit que les convives discutent joyeusement. Il peut baisser le volume de la musique. Mais le bruit des conversations devient gênant, il va voir que les gens sont moins à l’aise. Alors, il le remonte.
Il va imaginer que le buffet va ouvrir, que Gatsby va venir faire un discours. Dans ce cas-là, il va adapter la musique, voire la couper.

Il observe que les invités ont bu quelques coupes de champagne et veulent danser, et il va changer de playlist. Dans tous ces mondes possibles, il va réussir à trouver la musique qui va faire danser le plus de personnes.

JEPA n’a pas lu tous les livres du monde, il regarde Youtube

JEPA pour Joint Embedding Predictive Architecture est une des implémentations des World Models. Il y a plusieurs agents dans le système. Un qui génère des nouveaux futurs possibles. Un qui les discrimine et le suivant qui décide etc…

Et celui qui gère l’entrée, l’analyse du monde est souvent désigné comme un encodeur ou un compresseur. Il y en a plusieurs variantes. La plus aboutie est celle qui analyse des flux vidéo en temps quasi réel.

Yann LeCun utilise souvent une analogie avec les enfants. Un enfant de 4 ans sait déjà énormément de choses, alors qu’il n’a pas encore appris à lire. Un LLM a lu tous les livres du monde. Pour savoir qu’une baleine existe, il a appris toutes les caractéristiques de celle-ci sur Wikipedia. Alors qu’un enfant en a juste vu un dessin, une peluche ou une vidéo youtube.

Alors, ils veulent pouvoir entraîner leurs IA avec des vidéos. Et ça a pris des années pour avoir un résultat opérationnel. Ça prend encore plus de sens quand on parle des domaines d’applications.

Dans quels cas les World Models vont-ils être utilisés ?

Ces approches prennent tout leur sens dans des systèmes qui doivent agir dans le monde réel, pas seulement répondre à des questions.

Des IA qui servent à autre chose que des chatbots

Les World Models brillent à reproduire le même comportement, encore et encore, de manière prédictible.
L’ambition défendue par Yann LeCun est d’aller vers des systèmes plus déterministes et plus prévisibles. Et une fois qu’ils ont fini d’analyser leur environnement, il devient plus facile d’auditer et d’analyser leur fonctionnement.

Certains environnements n’acceptent pas le probabilisme. C’est le cas de l’hôpital. On ne pourrait pas confier le monitoring d’un patient à un LLM. Ou bien il faudrait qu’un humain surveille le LLM qui surveille le patient et la valeur ajoutée reste limitée. Un World Model, on doit pouvoir lui faire confiance.

Robotique : apprendre en observant

Un robot dans une usine peut être très simple. Par exemple, un bras de picking qui prend un objet pour le déposer dans un bac. Mais il peut aussi être beaucoup plus complexe, comme un robot soudeur dans l’automobile. Quand je travaillais chez Renault, il y avait un robot qui soudait la carrosserie toute la journée, avec six bras et une précision impossible à reproduire pour les humains.

Un opérateur sur une ligne de production peut porter une caméra et montrer un geste. Pendant la phase d’entraînement, le robot observe et apprend à reproduire ce mouvement. Une fois entraîné, il peut ensuite l’exécuter de manière autonome.

Jeux vidéo : des IA qui s’adaptent

Ils sont également capables de s’adapter aux humains mieux que les algorithmes actuels. Si vous avez déjà joué à des jeux vidéo, les IAs ont un principal défaut. Soit elles sont parfaites, et le joueur n’a aucune chance. Soit elles sont scriptées et le joueur peut se contenter de comprendre le script.

Une IA basée sur un World Model peut construire un script adapté au joueur et changer le script quand le joueur s’adapte.

En termes de puissance de calcul, ce n’est pas négligeable. Tous les PNJs de Skyrim ne pourront pas être animés par une IA World Models, en tout cas pas sans utiliser la puissance de calcul d’un datacenter. Par contre, avoir un boss qui est dans une arène, c’est un monde borné. Il pourrait utiliser une version de JEPA adaptée au jeu video.

Conduite autonome et systèmes critiques

Les scientifiques et ingénieurs qui ont conçu JEPA viennent de la robotique et des systèmes embarqués. Un des domaines où il sera le plus pertinent, c’est sûrement la conduite autonome. Chaque changement dans l’environnement de l’automobile sera intégré à l’espace latent pour que le robot adapte la conduite.

Alors qu’aujourd’hui les systèmes de conduite autonome sont des logiciels avec des fonctionnalité en dur : freiner quand il y a un piéton, suivre les lignes sur l’autoroute etc… Même si elles utilisent des blocs qui viennent du machine learning comme la Computer Vision pour reconnaitre les piéton ou lire les panneaux.

Les systèmes critiques, ça peut être aussi bien la supervision des systèmes d’un sous-marin ou d’une navette SpaceX. Ce sont des systèmes qui ne peuvent pas être branchés à un serveur comme nos ordinateurs qui utilise Claude Code ou ChatGPT.

Est-ce que World Models c’est pour demain ?

Toutes ces technologies existent dans la littérature scientifique mais ne sont pas appliquées dans le monde réel. Et c’est l’objectif de la levée de fonds de Yann LeCun. Son entreprise, AMI, doit passer de la R&D à la production et développer un marché. Les investisseurs parient que ce marché sera aussi grand ou plus grand que celui des LLMs.

On en revient à un point important : ils ne remplacent pas les LLMs, ils sont complémentaires. Le discours qui consiste à dire qu’ils sont meilleurs que les LLMs ou que les LLMs sont mauvais est relativement fallacieux.

Ce qui me parait lucide, c’est de dire qu’on met des LLMs partout pour des cas d’usage où ils ne sont pas efficaces. Si vous travaillez dans l’informatique, vous participez sûrement à ce mouvement que Yann LeCun appelle “LLM-pilled”. Et il est important, plus que jamais, d’exercer votre esprit critique pour les mettre en pratique dans des endroits où ils seront pertinents.

En tout cas, ce que je trouve excitant, c’est d’imaginer que les LLMs n’étaient peut-être qu’une première rupture dans le domaine de l’intelligence artificielle. Les World Models pourraient être la deuxième, avec autant d’impact sur notre quotidien et le monde réel.

Damien Cavaillès