L’outil de codage star d’Anthropic est accusé de bâcler le travail depuis février. Le problème : cette dégradation survient alors que l’entreprise enchaîne fuite de code source, pannes à répétition et afflux record d’utilisateurs.
Claude aurait donc le même problème de dégradation générale du résultat (constaté sur Copilot et ChatGPT aussi), dans un contexte de ROI qui peine et d’augmentation des coûts d’énergie + besoins de réinvestissement?
Sur tous les LLM, on a l’impression que même côté payant, les ressources allouées pour une requête sont réduite (sauf Mistral qui n’a pas l’air de trop bouger).
Ici j’ai copilot en prod … ben c’est une véritable lotterie. Et pour ChatGPT qu’on a en évaluation, j’ai une belle capture de GPT qui nous dit « mais ce code est dégeulasse » + nombreuses erreurs de génération (y compris sur des résumés assez simples)
Au final, ce ne sera que lorsque l’on pourra faire tourner son LLM chez soi que ça fonctionnera. Le premier qui sort un système qui permette de faire l’équivalent d’un Opus en local pour moins de 2000$, il est milliardaire. Même 10000$, il est millionnaire.
J’avoue qu’avoir son propre LLM, voire même de pouvoir se le partager pour des petites team de dev (solo ou 2 à 4 devs) serait vraiment idéal car hyper contextualisé…
Les meilleurs LLM locaux autour de 110B commencent à atteindre le niveau d’un GPT‑4 “première génération”.
Avec les nouvelles optimisations comme TurboQuant, FlashAttention‑3 ou les approches MoE, on peut raisonnablement espérer voir des modèles locaux du niveau d’un Sonnet — voire approcher Opus — d’ici 3 ou 4 ans.
Mais il restera toujours un décalage entre le local et le cloud.
Un PC, même très bien équipé, ne pourra jamais rivaliser avec ce que font des datacenters entiers équipés de GPU NVIDIA spécialisés IA de dernière génération, interconnectés en NVLink/NVSwitch et alimentés par des dizaines de mégawatts.
Le local progresse vite, mais il ne pourra pas reproduire l’échelle, la vitesse et la puissance brute d’un cluster de milliers de GPU.
C’est sût, néanmoins ces datacenter tournent pour des milliers (million ?) de personnes en même temps. Un bon gros PC en local devrait pouvoir sortir quelque chose de très satisfaisant assez rapidement. L’idéale serait surtout de pouvoir facilement, même via qques euros, entrainer un modèle dédié à une tâche selon ses besoins.
Actuellement, un AMD AI Max avec 192 à 256 Go de RAM unifiée peut déjà faire tourner des modèles de 110B paramètres qui s’approchent du niveau d’un GPT‑4. Et ce n’est qu’un exemple : il existe aussi d’excellents modèles spécialisés (code, reasoning, agents, etc.) qui tournent très bien en local.
Évidemment, avec la crise de la RAM, les machines équipées de grosses quantités de mémoire unifiée sont hors de prix. Mais une fois le marché stabilisé, ces configurations ne coûteront pas plus cher qu’un PC gamer milieu de gamme. Et concrètement, même aujourd’hui, les performances sont déjà très satisfaisantes.
Tu peux entraîner tes propres modèles si tu veux, mais honnêtement l’écosystème open‑source est déjà extrêmement compétitif. Il suffit de voir la quantité de modèles disponibles sur Ollama ou LM Studio.
Et pour répondre à ton idée de modèles spécialisés pour des tâches dédiées : si ça t’intéresse, regarde du côté de Bittensor, notamment le sous‑réseau Templar (modèle Covenant), qui a entraîné et fait tourner un modèle 70B de manière totalement décentralisée en pair‑à‑pair.
Je ne connais pas Claude Code mais sur ma techno, ChatGPT se vautre lamentablement sur tout ce que je lui demande. Et c’est loin d’etre complexe et il se vautre plusieurs fois de suite :
Je lui dis 2 ou 3x que ca fonctionne pas. Il me répond « ha oui c’est normal, il faut faire … »
C’est normal que tu me file du code qui marche pas ?!
Et finalement il me sort : « ha nan en fait on peut pas » …
Pas vu de différence fondamentale. Alors est ce que je le contente de peu, ou alors AMD cherche simplement à semer la zizanie ?