OpenAI devrait débuter la production de sa propre puce personnalisée d’intelligence artificielle (IA) l’année prochaine. C’est une tendance claire dans l’industrie : les éditeurs veulent moins dépendre de NVIDIA.
Rien à voir avec la news mais n’empêche, la déprime pour tous les parents pauvre de la tech (de manière générale, médecine and co) qui fonctionnent aux télétons.
Le fait qu’OpenAi se prépare à produire des puces IA en quoi ça va inquiéter Nvidia ? …
Et ça veut dire quoi « produire » parce que ce mot a toujours été un problème mais dans votre article ça signifie « Conception » donc c’est TSMC qui va produire ces puces
Nvidia et Apple ont acheté une grosse partie de la production, je sais pas s’il reste de la place pour des petits acteurs comme OpenAI
Nvidia sera inquiète le jour où Sam Altman acceptera enfin de se faire soigner pour sa schizophrénie et le jour où ces Puces verront réellement le jour et seront aussi puissantes que celles de Nvidia.
Altman pense peut-être qu’il peut marcher sur l’eau, mais à moins de copier la technologie d’un concurrent, je ne vois pas comment il pourrait réussir à développer de zéro une puce IA, en particulier lorsque le hardware n’est pas le domaine de compétence de l’entreprise.
Intel a essayé avec les GPU et s’y sont cassé les dents, alors qu’ils avaient une vraie expertise et des décennies d’expérience en matière de conception de puces. Alors, il pleuvra des chats avant qu’Open AI n’arrive au niveau de Nvidia, ou même d’AMD en matière de puce IA.
Mais, probablement, s’agit-il juste d’un moyen de réclamer plus d’investissement.
Concevoir des GPU est bien plus compliqué que de concevoir des puces dédiées à l’IA.
Les GPU sont des puces très avancées, avec beaucoup de fonctionnalités câblées dans la puce, des drivers très complexes… Une puce dédié à l’IA, faut « juste » (j’exagère un peu quand même) empiler un grand nombre d’unités de calcul sur des flottants, et basta, pas du tout besoin de toute la complexité d’un GPU.
D’où d’ailleurs la grande efficacité des NPU par rapport aux GPU, comme c’est beaucoup plus simple, c’est bien plus efficace.
Et ni nVidia ni AMD ne sont les plus performants sur les puces IA d’ailleurs, le plus performant dans le domaine, il me semble que c’est Groq, une startup créée qui a quelques années et dont la première puce est sortie en 2023… C’est une puce spécialisée dans les LLM, qui dans ce contexte offre de l’ordre de 20 fois les performances d’une RTX 5090 (~250 tokens/seconde sur llama2:70b pour la LPU de Groq, contre 27 pour deux RTX 5090… et encore, ça c’était avant une mise à jour, qui leur permet désormais de revendiquer près de 1700 tokens/seconde), pour une toute petite fraction de sa complexité : elle fait à peu près la même surface de silicium qu’une RTX 5090, mais en étant gravée seulement en 14nm, pas en 4nm…
Une autre startup, HyperAccel, revendique des chiffres tout aussi impressionnants, là aussi avec une puce spécialisée dans l’inférence des LLM : des performances comparables à celles d’une nVidia H100, mais dans une puce de moins de 1mm² (en gravure 4nm) et consommant moins de 1W (en pratique ils revendiquent un 30% de gain d’efficacité énergétique pour un système complet, du fait de la consommation de tout ce qu’il y a autour de la puce)…
Avec risc-v, on peut acheter des conceptions de kpu/npu.
Et effectivement, des coeurs accélérateurs d’inférence, il y en a des tonnes depuis longtemps, et plus efficaces que NVIDIA (mais moins tout-terrain).
Et non, Intel ne s’est pas vraiment cassé les dents, leurs derniers modèles spéciaux IA remportent des victoires sur des lodèles NVIDIA (on reste loin des puces pour datacenter toutefois), et avec des améliorations intéressantes qui les rendent 10 fois moins cher (possibilité d’utiliser la ram de l’unité centrale)
Comme d’habitude, pour tout ce qui est technique, je te crois sans réserve et me fie à ton expertise.
Mais dans ce cas, pourquoi ces deux sociétés ne sont-elles pas en train de vendre des palettes de puces au lieu que ce soit Nvidia qui se gave, pour changer ?
Et pourquoi les puces Nvidia ont elles fait l’objet d’une telle controverse avec la Chine, et aucune autre ?
Pas besoin de répliquer ce que NVIDIA fait. Le mouvement actuel c’est de rendre possible l’inférence avec un accélérateur. Une fois le modèle calculé, on peut le rendre compatible avec une architecture particulière, notamment en termes de précision.
En gros, il faut implémenter 1% de tout ce que NVIDIA fait, ce qui immédiatement montre un gain en conso.
Nvidia c’est bien pour la partie apprentissage, mais pour l’inférence c’est overkill
Je parlais des GPU et des cartes graphiques et pour l’instant, au vu de la part de marché, je dirai que c’est un cassage de dents.
Même techniquement, elles n’ont rien apporté que leurs concurrents ne fassent déjà en mieux et en plus stable, et le prix n’a pas été particulièrement agressif, alors qu’il aurait fallu.
Pourquoi la comparer à une RTX 5090 qui est une GeForce et donc une Carte surtout dédiée au gaming ? … faudrait la comparer aux puces Nvidia dédiées à l’IA.
Il y a un coût d’entrée important, car y a quasiment pas de stack logicielle optimisée pour ces puces, alors que pour nVidia, y a à peu près tout qui est dispo, problème encore amplifié par l’absence de déclinaison « desktop » (donc pas de développement local sur station de travail).
Ce sont aussi des petites entreprises, qui n’ont encore ni la réputation, ni la solidité d’un nVidia (et quand tu dois commander tes puces un ou deux ans à l’avance, t’as pas envie que ton fournisseur disparaisse dans l’intervalle…), et probablement pas non plus la capacité à faire du volume (comme dit plus haut par @mamide, y a nVidia et Apple qui monopolisent le gros de la capacité de production du plus gros fondeur… Groq s’est rabattu sur Samsung, mais c’est sans doute pas un client prioritaire).
C’est aussi le genre de marché où il y a toujours une très forte prime au premier entrant, qui se fait une part de marché énorme, et qui ensuite peut la conserver sur l’inertie du marché pendant pas mal d’années, même avec des produits inférieurs (on voit un peu la même sur le marché des CPU serveur, malgré les excellentes performances des processeurs AMD et des diverses offres ARM, c’est toujours Intel qui domine nettement…)
Enfin, il y a le fait que le monde de l’IA bouge très vite : si demain une nouvelle technique de calcul vient booster les LLM, t’as plus de chances de pouvoir adapter ton système à base de GPU à cette nouvelle technique qu’un système à base de puce beaucoup plus spécialisées.
Mais pour une boîte comme OpenAI, qui voudrait faire ses propres puces, ces problématiques sont beaucoup moins marquées : ils développent leurs propres composants logiciels, donc là avoir des puces spécialisées n’est pas franchement gênant, au contraire, ils peuvent faire des puces collant au plus près aux besoins de leurs logiciels, la pérennité du fournisseur, ils s’en foutent complètement, puisque c’est eux même, et sur les évolutions futures, ils ont une visibilité plus grande qu’une boîte qui serait simplement utilisatrice de solutions IA.
Parce que le produit de Groq tient sur une carte PCI-Express. Comme la RTX 5090. Et pas comme les grosses puces x100 et x200 de nVidia
Et non, les RTX 5090 ne sont pas surtout dédiées au gaming. Avec le 5080 et 5090, c’est pas le gaming qui est le plus visé par nVidia, mais bien la création et l’IA, même si, GeForce oblige, il reste une bonne composante gaming. Je rappelle notamment que lors de la première annonce de ces cartes, le SEUL chiffre mis en avant par nVidia, c’était les performances en tensors…
Bien sûr, si tu prends des B100 ou des B200, qui sont des puces dédiées au calcul haute performances (mais pas des puces dédiées à l’IA d’un point de vue technique : elles ne sont pas du tout spécialisées dans ça (pour te dire, sur le GPU qui équipe les B200, y a des shaders et des TMU, et avec le même ratio shaders/tensor et TMU/tensor que sur les GeForce, alors que pour l’IA ce ne sont quasiment que les tensors qui servent), et c’est justement pour ça qu’elles ne sont pas aussi efficaces que des puces réellement spécialisées…), les performances sont plus élevées. Mais l’efficacité ne l’est par contre pas franchement plus. C’est simplement qu’il y a encore beaucoup plus de silicium, une consommation bien plus élevée, etc…
Le LPU, synthétisé à l’aide du processus Samsung 4 nm, a une surface totale de 0,824 mm2
Très fort de leur part la performance vu la surface du processeur
Citation
« Je parlais des cartes graphiques »
Quelque soit la techno, il est difficile de révolutionner. Ils ne sont pas à la ramasse technologiquement, leurs cartes sont correctes.
Elles offrent quelques avantages (sous linux et dans les datacenter).
Mais ce que tu soulignes est l’éternel conservatisme d’Intel: s’ils ne sont pas n°1, ils abandonnent le marché.
Car quand il fallait faire du mobile, Intel n’était pas nul: les atomes pour téléphones et tablettes n’étaient pas des crasses, surtout par rapport à nombre d’arm. Mais ils n’étaient pas au top. Donc abandon…
Citation
Mais dans ce cas, pourquoi ces deux sociétés ne sont-elles pas en train de vendre des palettes de puces au lieu que ce soit Nvidia qui se gave, pour changer ?
Et pourquoi les puces Nvidia ont elles fait l’objet d’une telle controverse avec la Chine, et aucune autre ?
Réponse: les LPU/TPU/KPU qu’on a dans nos Smartphone, ordi ou autre truc embarqué optimisent l’inférence (l’exécution de l’IA) - en gros elles font du calcul matriciel à outrance, des séries de multiplications et additions et comparaison et « c’est tout ». Et en général selon 1 ou 2 ou 3 précisions fixées. Il faut préparer le modèle pour la puce dédiée.
Les cartes NVidia sont utiles lors de l’apprentissage. Elle permettent d’exécuter l’algo d’apprentissage dans plein de formats et de précisions. Elle permettent de générer les modèles pour les TPU/KPU/LPU.
En matière d’inférence, même un CPU peut être optimisé: en utilisant les instructions AVX-512, des modèles comme llama peuvent aller 3 à 6fois plus vite sur le même CPU qu’avec le moteur standard.
La course actuelle, elle est sur l’exécution de l’inférence (on peut y gagner à priori 95% de la conso actuelle!), en même temps qu’améliorer les modèles. Mais pour le moment, c’est bien la création de modèle qui coûte et devrait rapporter en bloquant le marché.
Le but est d’occuper le terrain le 1er (pas d’être le meilleur incontesté) pour verrouiller le marché.
La course à l’inférence viendra ensuite si le marché le nécessite - sur ce point Intel fait fort avec ses nouvelles cartes B50 par exemple. Mais je pense que NVIdia n’a juste pas envie de dégainer un produit qui détournerait les clients de son juteux marché trop tôt, et qu’ils ont un produit très efficace pour ce futur virage - ou sinon ils achèteront une ou deux startups.