Passer au contenu principal

Le plBonjour à tous et à toutes, c’est Damien. En ce moment, c’est le sommet de l’IA à Paris et on a le droit à une succession de chiffres et d’annonces qui sont toutes un peu abstraites. L’événement n’est pas fini, je vous propose donc de déchiffrer au fur et à mesure les éléments-clés et les chiffres en question.

Les thématiques :

  1. Mistral annonce Le Chat, et il va vite
  2. C’est grand comment un Datacentre d’1GW
  3. 109 milliards d’euros d’investissement privé et de l’emploi ?

1- Mistral annonce le Chat, et il va vite

Mistral.ai, c’est le champion Français de l’IA, qui attend de se faire une place entre DeepSeek, Meta et OpenAI. (D’ailleurs Marie Cicero a sorti un article sur Deepseek sur le blog , si vous êtes intéréssés 🙂 ). Le projet est clairement de détrôner ChatGPT comme l’a fait DeepSeek sur les stores. Et honnêtement, l’application est un cran au-dessus de DeepSeek. Et il parle mieux français que mes outils habituels. Il est simple dans son interface et dans ses fonctionnalités. Il n’y a pas par exemple l’équivalent des GPT Custom ou autre. C’est vraiment une démonstration de puissance et d’efficacité du modèle avant d’être un outil.

C’était assez inattendu pour plusieurs raisons. Mistral a rendu son modèle open-source (tout comme le fait Meta avec ces Llama). Leur intention était que ce modèle soit adopté par les entreprises pour être exécuté sur « on-premise » c’est-à-dire sur les serveurs de l’entreprise. Mais là, ils le proposent accessible au grand publique, avec une application, et le modèle tourne sur leur infrastructure. Et il tourne très vite.

Est-ce qu’il est plus compact ?

Le modèle est clairement compact. L’indicateur clé pour qu’un modèle soit compact c’est le nombre de paramètres que prend en charge le modèle.

Mistal 7B utilise 7 Milliards de paramètres (c’est dans le nom). Llama 2 en utilise 13B et il est pourtant moins performant sur les benchmarks.
GPT-3 utilisait 175 Milliards de paramètres, c’est déjà énorme à côté de Mistral et LLaMA. Et le modèle étant propriétaire reste discret sur ce chiffre. Il est estimé à 1,7 Billion, c’est 10 fois plus grand.

De 7 milliards à 1.7 billions en passant par 32, 70, 400 milliards

Et là, c’est la course à l’armement. Le modèle Llama 3 utilise juqu’à 405 Milliards de paramètres.
Le modèle DeepSeek-R1 en utilise 671 Milliards, mais avec une innovation. Il utilise un modèle « Mixture of Experts ». C’est-à-dire qu’il sait activer uniquement 37 Milliards de ces paramètres pour répondre à une question précise. Pas besoin d’activer toute sa connaissance du droit international pour faire un bout de code en Python.

Le modèle Mistral 8x7B est composé de 8 experts qui font 7B (lire 8 fois 7B). Il utilise un modèle à 7B pour poser la question à un autre modèle à 7B donc il active 12,9 milliards de paramètres. Je sais, les maths ne sont pas bons, mais a priori, c’est normal.

Alors ce qu’il faut comprendre c’est qu’être plus gros n’est pas nécessairement être plus performant. Au contraire. Et les benchmarks montrent que DeepSeek-R1 et Llama 3 sont souvent plus pertinents que GPT-4o.

L’important n’est plus le nombre de paramètres.

Concernant la vitesse de réponse, un modèle 200 fois plus compact que GPT est forcément plus rapide. OpenAI cherche à faire le modèle le plus gros possible parce qu’ils cherchent à faire une intelligence supérieure, l’AGI. Mais a priori le modèle « MoE », Mixture Of Expert et l’orchestration d’agents en général est une percée plus intéressante.

D’ailleurs Lucie par Linagora est aussi un modèle de 7B pour 7 milliards de paramètres. Et on voit bien que Mistral fait beaucoup mieux avec autant.

Si le sujet vous intéresse, j’ai agrégé des données qui viennent de ollama et HuggingFace

Des Cerebras sous le capot

Graphique fourni par cerebras

Cerebras est un concepteur de processeur pour l’IA. On avait déjà parlé de Groq sur TikTok ou des NPUs sur ce blog. On avait expliqué la différence d’architecture et en quoi l’utilisation de processeurs conçus pour le calcul de Torseurs améliorait la performance. Et c’est vrai que les experts des sujets expliquent que des réseaux de CPUs très nombreux (comme l’architecture CELL de la PS3) pouvaient donner de meilleurs résultats que des TPU/NPU/LPU.

Aller plus loin que le réseau de CPUs

C’est carrément le parti pris par des fondateurs de Cerebras. Et ils sont connus pour ça. Ce sont les fondateurs de SeaMicro qui a été racheté par AMD en 2012 pour 334 Millions de dollars. Et qui faisait déjà des réseaux avec des dizaines de CPU. Un de leur principal produit et un serveur de 10U (10 unité, c’est vraiment un gros serveur) qui contient 2048 coeurs.
Cerebras, ils ont décidé de tout mettre sur la même galette. Leur chip est dont 50x plus grand qu’un Nvidia H100 (qui est un GPU spécialement fait pour l’IA).

photo du WSE-3 fournie par cerebras

Il fait donc tout 50x plus vite et il a surtout de la mémoire embarquée à ne plus savoir que faire :
WSE-3 Nvidia H100 Cerebras Advantage
Chip Size 46,225 mm² 814 mm² 57 X
Cores 900,000 16,896 FP32 + 528 Tensor 52X
On-chip memory 44 Gigabytes 0.05 Gigabytes 880 X
Memory bandwidth 21 Petabytes/sec 0.003 Petabytes/sec 7,000 X
Fabric bandwidth 214 Petabits/sec 0.0576 Petabits/sec 3,715 X

Inférence as a Service – Le Chat n’est pas si Français que ça

Cerebras communique sur le fait que Le Chat repose sur leur service « Cerebras Inference ». C’est un service d’inférence dans le Cloud, « as a service ». Comme le propose par ailleurs Groq. Mais vraiment ça va plus vite. D’ailleurs, ils se comparent directement à Groq sur leur landing marketing

Capture d’écran du site cerebras – Cerebras Inference

Bref, c’est intéressant parce que l’on a pu croire avec les annonces de Datacenter que Mistral.ai avait rempli une salle de Cerebras quelque part. Mais non, c’est bien Cerebras qui exploite ses ressources et les donne à la demande.

Cerebras est en cours d’IPO aux Etats-Unis, mais la mise en bourse est ralentie parce qu’ils ont comme principal investisseur le groupe G42, un groupe d’investissement émirati. Notez-le pour plus tard, c’est important.

2 – Un datacentre d’une puissance de 1GW (et puis un deuxième)

En fin de semaine dernière, l’Élysée a annoncé qu’en début de cette semaine, les Émirats Arabes Unis allaient ouvrir un campus dédié à l’IA avec surtout un Datacentre d’une puissance de 1GW soit un investissement de 30 à 50 milliards d’euros.

Et je me demande, 1GW, c’est beaucoup pour un DC ? Mais beaucoup comment ?

Alors il faut voir que la majorité des DCs font 10MW soit 100 fois moins. La statistique généralement c’est qu’une entreprise pour sa DSI installe 12 MW et en appelle 4,4 en moyenne. Et donc on installe souvent 3 fois la capacité parce que c’est très dur de rajouter de la puissance sur un site existant. Rajouter de la surface est beaucoup plus simple en comparaison. La puissance maximale est liée au réseau où est implanté le centre de données. C’est pour ça qu’on le pose généralement à côté d’un barrage ou d’une centrale.

Et les hébergeurs ne communiquent pas vraiment sur la puissance électrique qui est utilisée par leurs centres de donnée. Par contre on connait la puissance électrique du barrage à côté par exemple. Green Mountain en Norvège a un réseau de barrages qui alimente plusieurs centres avec 10 MW (et deux lignes de 500 MW). En Suisse le Data Center Light bénéficie d’une centrale hydro de 1,65MW. On a beaucoup parlé du barrage de Beauharnois au Québec où OVH s’est installé. Au Paraguay, Hive emprunte 100MW au barrage d’Itaipu qui en produit 14GW.

Près de chez nous en Belgique à Saint Ghislain, Google exploite un DC de 93 MW qui s’étend sur 90 hectares. Et il est déjà plein. Google va s’étendre dans un autre site pour la suite. La capacité totale des DC en Belgique est de 344 MW.

Plus gros encore ? Le campus DATA4 à Paris Saclay s’étend sur 133 hectares et dispose 375MW. C’est un très gros datacentre mais j’ai trouvé plus gros encore.

On n’a jamais eu besoin de datacentres géants avant l’IA

Bref, il y a pas beaucoup de centres de données qui auraient la capacité à tirer un GW. Et il faut comprendre que ce n’était pas trop le sujet avant. On a travaillé à avoir des petits DC partout dans le monde pour améliorer la latence sur internet. Le but étant de travailler le réseau avant la capacité de calcul. Ce n’est que depuis que l’IA générative demande de plus grands besoins qu’on se retrouve avec des DC géants.

Le data centre d’ECL à Mountain View en Californie

J’ai trouvé quelques centres qui font 1 GW.

  • Le Kolos Data Center en Norvège a l’ambition d’être le plus grand datacenter du monde et installe 1GW de puissance au plus proche du cercle arctique.
  • Au Texas, à Houston, ECL a annoncé la construction du TerraSite-TX1 qui doit faire 1GW et être alimenté avec de l’hyrdrogène. L’hydrogène doit bien être produite avec quelque chose et à Houston ils ont pas mal de pétrole. Ils ont annoncé ça en octobre et devraient livrer la première tranche de 50MW cet été 2025.
  • En Corée du Sud, un projet dans la province de Gangwon avec une capacité de 1 GW a été annoncé. Et c’est plus un réseau de 50 centres avec chacun 20MW. Et ils veulent surtout exploiter les centrales charbon et nucléaire de la région qui sont enclavées.

Un Gigawatt c’est pas qu’un seul centre, c’est un campus

Il n’y a pas de Data Centre qui fasse déjà 1 GW et pour une bonne raison. La surface requise est gigantesque. Les 50MW de TX1 utilisent déjà 600 acres. Et ils ont prévu de monter à 240 hectares. C’est un gros quartier. C’est un campus. Généralement, on installe 10 MW pour 10 000 Km2.

Éventuellement, la ville de Ashburn en Virginie est la « Data Center Alley ». Digital Realty, Equinix, NTT, Vantage, Sabey y ont une série de 60 centres de données. Et leur puissance cumulée est de 1GW. Oracle communique sur un projet de centre gigawatt et indique qu’un de ses centres fait déjà 800 MW mais ne donne aucun détail.

1 GW, c’est environ 700 000 foyers. C’est pas suffisant pour Paris, Marseille, Lyon ou Lille. Mais pour les autres villes de France ça passe.

La ministre du numérique Clara Chappaz a annoncé 35 sites en France qui font 18 à 150 hectares et qui pourront être raccordés électrique pour une capacité élevée d’ici 2027. Ils sont tous plus petits que le TerraSite. Mais attendez j’ai un twist dans la 3e partie.

3- 109 milliards d’euros d’investissement privé et des jobs ?

Le président Macron a communiqué sur 109 Milliards d’euros en investisssement privé. Pour commencer, ce n’est pas de l’argent publique.
Cela comprends les 50 Milliards annoncés par les Émiratis et les 20 Milliards annoncés par Brookfield pour un deuxième campus Gigawatt à Cambrai.
Arthur Mensch le PDG de Mistral a annoncé un Datacentre qui devrait s’appeler Éclairion à Saclay. Est-ce qu’il vont faire une colocation avec Data4 ? Est-ce qu’il vont acheter des Cerebras ? En tout cas ils communiquent sur plusieurs milliards d’investissement.

Alors ça comprend d’autres choses. Le projet « Stargate » communiqué par Donald Trump aux états-unis communique sur 500 Milliards de dollars, 20 data centre et 100 000 emplois. Il était à côté du PDG de Soft Bank, mais aussi de Larry Ellison le co-fondateur d’Oracle et Sam Altman le CEO d’OpenAI.

Un centre de donnée rempli de Cerebras ?

On n’arrive pas à 109 Milliards en additionnant les 3 projets. Pour commencer, il faut bien imaginer qu’un Datacentre c’est avant tout une salle vide avec beaucoup de courant. Les clients du Data Centre vont devoir acheter des machines, des processeurs et le remplir. Le TerraSite est indiqué pour 8 Milliards d’investissement et c’est Datacentre vide, ce sont leurs clients qui le remplissent.

Ce sont bien les investisseurs qui financent Cerebras (G42 et MGX) qui ont annoncé un campus à 50 milliards. Il y a fort à parier qu’ils vont le remplir de Cerebras et que c’est bien compris dans le budget. Et ça résoud un problème de taille ! On WSE-3 de Cerebras consomme 23KW en charge. C’est une baie de serveur à lui tout seul. C’est fort probable que si l’on équipe uniquement le centre de donnée avec ces mégas-processeur qu’il puisse tenir sur moins de 100 hectares.

Sur Linkedin, le fondateur d’OVH explique que c’est un défi technique d’aller à ce type de densité energétique. On peut mettre plus de 100Kw dans une baie, mais il faut plus qu’une climatisation pour la refroidir ensuite. Je vous invite à lire le post complet.

Est-ce que cela va créer de l’emploi ? Pas de développeur en tout cas, mais il faut du monde pour entretenir un datacentre de 100 hectares.

Par contre, OpenAI a annoncé ouvrir des bureaux à Paris. Et ça ça va créer un peu de dynamique sur le marché de l’emploi 😀

Si on fait le produit en croix, entre Stargate et l’annonce du Président, on arrive à 20 000 emplois créés.

En tout cas, le sommet dure toute la semaine et j’ai l’impression que toutes les annonces étaient déjà faites ce weekend. Je l’espère mais sinon je vous tiens au courant sur ce même article.

Damien Cavaillès

Auteur Damien Cavaillès

Plus d'articles par Damien Cavaillès

Laisser un commentaire