Anthropic a dévoilé jeudi soir Claude Opus 4.6, son modèle d’IA le plus performant à ce jour. Avec un million de tokens de contexte et des performances record en programmation, il surpasse GPT 5.2 d’OpenAI.
« Sur le benchmark MRCR v2, Opus 4.6 atteint 76%, là où Sonnet 4.5 plafonnait à 18,5%. »
Comparer Opus 4.6 à Sonnet 4.5 est une vaste blague…
Comparez Opus 4.6 à Opus 4.5 ou Sonnet 4.6 à Sonnet 4.5, mais là c’est du n’importe quoi…
Édit : pour ceux qui ne connaissent pas la gamme, c’est comme si Opus était à Sonnet ce que « Audi avec toutes les options » était à « Skoda tarif de base sans aucune option », comme si vous compariez l’audi RS3 2026 à une Skoda Favia de base de 2023. Comparez l’audi dernier modèle à l’audi équivalente de la génération précédente, et la Skoda dernière génération à la Skoda équivalente de la génération prcédente ; mais pas le haut de gamme le plus cher de la dernière version au bas de gamme de la version précédente.
(Note : j’aime les Skoda pour leur rapport qualité/prix - avant de me faire défoncer dans les commentaires)
Ma tête a heurté le bureau au même endroit.
En fait le problème (et bon avec Alex c’est une habitude. J’avoue que parfois ça m’agace parfois ça me fait marrer) c’est que l’article n’est qu’une copie / traduction du communiqué d’anthropic qu’on trouve ici
Mais alex a une flemme incroyable de mettre le petit « source : https://www.anthropic.com/news/claude-opus-4-6 » en bas de l’article. Pourquoi ? Je ne sais pas
et à vrai dire c’est pas grave.
Bref la comparaison n’est pas de lui. L’évaluation d’opus 4.6 n’est pas de lui non plus. Etc.
A common complaint about AI models is “context rot,” where performance degrades as conversations exceed a certain number of tokens. Opus 4.6 performs markedly better than its predecessors: on the 8-needle 1M variant of MRCR v2—a needle-in-a-haystack benchmark that tests a model’s ability to retrieve information “hidden” in vast amounts of text—Opus 4.6 scores 76%, whereas Sonnet 4.5 scores just 18.5%. This is a qualitative shift in how much context a model can actually use while maintaining peak performance.
C’est juste un peu de bs marketing qui se retrouve packagé sous le nom d’information. Mais c’est le monde dans lequel on vit.
Ca me fait penser à la vidéo coup de gueule de Yann tout court sur la voix de Henri IV. Si vous n’avez pas vu, foncez c’est déprimant.
Franchement en dev GPT est mauvais dans les faits … Dans les moteurs peu connus, gratos, GLM 4.7 déchire pas mal.
Si par « mauvais », on entends moins bon que certaines AI et que de très bon codeurs humains, mais meilleurs que 95% des dev en service, alors oui…
ça c’est les stats de l’IDM, je reconnais !
Par mauvais j’entends par la qualité du code généré.