Intel officialise l’Arc Pro B70, sa carte graphique professionnelle Battlemage : 32 Go de VRAM GDDR6, 32 cœurs Xe et 949$ pour viser l’inférence IA locale face à NVIDIA. Disponible dès maintenant.
On peut jouer avec ça ?
Sont pas foutus de faire des cartes graphiques grand public compétitives face à nvidia ou amd, et ils veulent utiliser leur ressources pour pénétrer le marché de l’IA ?
sont vraiment hors sol…
Petite coquille je pense mais dire que « Battlemage reste donc une affaire de professionnels, du moins pour l’instant. » alors que les B570 et B580 sous architecture Battlemage sont destiné au grand public depuis une année est un peu gros :).
Sinon toujours bien de voir que Intel lache pas les GPU en esperant que Celestial soit au niveau, surtout niveau drivers…
Chez AMD, il y a les Mi50 qui proposent 32Go en HBM2 pour env 330€.
Avec une seule carte tu atteinds ces performances pour l’IA:
- llama3.1:8b-instruct-q8_0 (40 tps)
- llama3.1:8b-instruct-fp16 (28 tps)
- mistral-small:24b-instruct-2501-q4_K_M (25 tps)
- phi4:14b-q4_K_M (37 tps)
- olmo2:13b-1124-instruct-q4_K_M (33 tps)
- deepseek-r1:7b-qwen-distill-fp16 (30 tps)
- deepseek-r1:8b-llama-distill-fp16 (28 tps)
- deepseek-r1:8b-llama-distill-q8_0 (47 tps)
- qwen2.5-coder:14b-instruct-q6_K (28 tps)
Le problème, encore une fois, c’est le greed. AMD ne veut pas qu’une carte à 350€ phagocyte ses Radeon PRO, donc elle ne fait aucun effort sur les devs et le support de ces cartes. Mais, contrairement à Nvidia, leur softs & drivers sont ouverts et comme la communauté est pugnace, il y a des drivers qui fonctionnent sur ces cartes.
L’autre problème, c’est qu’avec les AI Max+ 395 et autre 350 et 370, tu as un peu moins de performances (le mistral small 24B tourne à 18tps sur un AI 350 et le double sur un AI Max+ 395) mais une machine complète pour 700€ à 2000€, et qui n’est pas limité par la taille mémoire de 32Go.
Bien vu merci ! C’est corrigé.
C’est surtout que c’est des cartes qui ont 8 ans, qui ne sont plus ni produites ni commercialisées par AMD…
Ce serait bête pour eux de louper le train du marché d’accélérateur d’inférence, qui ont des designs un plus simple que les GPU, ils n’ont pas avoir à gérér la stack graphique et permettre d’obtenir de plus grosses marges…
Pour avoir pas mal creusé l’usage d’agents autonomes type OpenClaw, je nuancerais l’utilité réelle de « seulement » 32 Go de VRAM à moyen terme. On fait vite l’erreur de ne regarder que le débit (TPS) sur un prompt vide, mais en usage réel, c’est le mur du contexte qui gère tout.
Dès qu’on lance un projet sérieux (pas juste du chat de loisir), la configuration de base (Identity, RAG, historique) bouffe facilement 17k à 20k de contexte au repos. Sur une carte de 32 Go, si on veut faire tourner un modèle un peu malin (type Mistral 24B ou Qwen 14B), il ne reste quasiment plus de place pour la « mémoire de travail » (le KV Cache).
Faites le test : lancez un petit 7B ou 8B sur une config à 8 Go ou 16 Go de VRAM. Par défaut, Ollama limite souvent à 4k ou 8k de contexte pour garder de la vitesse. Mais essayez de forcer le contexte à 32k, 64k ou 128k pour qu’il puisse vraiment analyser vos documents ou vos mails… la VRAM sature instantanément et les performances s’effondrent. (Meme en lui demandant comme il va)
C’est là le vrai problème des cartes à 32 Go comme l’Intel Arc Pro ou les Mi50 : c’est pas ce qu’il faut pour du gaming, et déjà trop court pour de l’IA agentique sérieuse en local. À mon sens, pour ne pas être bridé par le contexte dès la troisième phrase, le ticket d’entrée pour de l’IA locale pérenne, c’est la mémoire unifiée à 192 Go ou 256 Go (type Mac Studio ou les nouveaux APU AMD AI Max 395).
32 Go de VRAM aujourd’hui, c’est un super jouet pour tester des modèles, mais pour construire un outil de prod qui a de la mémoire, on sent déjà les limites.
Stocker le modèle c’est bien, par contre il faut également le faire tourner. Quand ma 5090 travaille, elle est utilisée à 100% de ses capacités, j’ai donc des doutes sur les performances brutes de ce modèle, mais je ne demande qu’à être détrompé.
C’est parfaitement logique. Fabriquer les puces les plus performances demande des usines et un savoir-faire ultra spécialisé, il n’y en a qu’une poignée dans le monde, pratiquement toutes à Taiwan, et ça demanderait des investissements et un temps énorme pour en monter des nouvelles. D’ailleurs TSMC a prévenu que si la Chine envahissait Taiwan, ils feraient sauter leurs usines. Ca va être rigolo si ça arrive.
Je suis tout à fait d’accord avec vous. Une carte à 1000€ pour 32Go de mémoire « seulement », c’est mort né (en tout cas pour les cas l’utilisation qu’ils présentent). Ça a été fait il y a 5 ou 6 ans déjà, les CG sont dispo en occaz pour 1/3 du prix et donc on peut techniquement avoir 96Go pour le même prix, ce qui est déjà beaucoup plus confortable (sans comparer la puissance de calcul, dont on ne sait rien pour celle d’Intel). Pour env le double on peut avoir 128Go en mémoire unifiée (ce qui, pour de l’IA est carrément l’idéal vu que la plupart des modèles maintenant sont des MoE), machine complète. Les perf de calculs sont de toutes façons limitées par la bande passante mémoire, pas par les ALU des CG.
J’attends toujours la réponse chinoise, un chip RISCV avec des liaisons HBM2 et env 100TOPS de calcul, ça plierait la compétition d’un coup. Pour cela, il y a le VIP9400 de VeriSilicon qui ressort récemment. À voir s’ils en font une solution grand public (ce serait le composant dans le Tiiny AI.
La B70 pro a certes 32Go de VRAM pour 1000$, mais avec la TVA et la marge des revendeur on la trouvera probablement a 1300€ en France…
Quand on sait que pour 1500€ on trouve la Radeon AI PRO r9700 32Go qui n’est « que » 50% moins puissante qu’une RTX 5090, je ne comprends pas l’intérêt de la B70 pro…