Moonshot AI a publié Kimi K2.6, un modèle open-weight de 1 000 milliards de paramètres orienté code et agents autonomes. Sur plusieurs benchmarks de codage, il devance Claude Opus 4.6 et GPT-5.4, et ses poids sont librement accessibles sur Hugging Face sous licence Modified MIT.
Les benchs, c’est cool, mais par exemple quand 3 coder next m’a sorti des API, d’autres choses qui n’existent pas, même Gemini Flash ne fait pas ça.
Copilot avec GPT-5.4 approfondi me fait aussi des erreurs. D’où l’importance de jongler entre plusieurs modèles. Le gros du code, je fais avec Claude en gratuit, après j’envoie ça dans Femini Flash et Copilot pour scanner le code et renvoyer les remarques à Claude. Parfois il corrige et des fois montre que Copilot hallucine.
Je fais de même, mais c’est vrais que chatGPT hallucine beaucoup.
J’ajoute parfois dans le prompt : n’essaye pas de m’épater ou de m’arnaquer, je suis un ingénieur et je sais déceler les erreurs , genere le code avec le moins d’erreur possible.
Sinon , Chatgpt embelli ses réponses juste pour te faire croire que c’est la bonne et pour que tu le laisse tranquille, comme un ado
Ta rien vu, Ta déjà essayé Claude ? c’est presque systématique, dès que tu le contredis il s’excuse même quand la connerie est flagrante, pourtant claude Sonnet 4.6 est l’un des meilleurs modèles.
Donc imagine dans la discussion tu as 10 prompts et qu’à la fin il contredit tout ce qu’il a dit, du coup tu sais pas sur les 10 réponses lesquelles sont vraiment justes, c’est très énervant !!!
Vu sur le sub de Claude Ai …
C’est très clair, ce membre se plaint du fait que Claude lui dit ce qu’il veut entendre et ne s’oppose pas à lui.
L’approche des Chinois avec des énormes modèles ouverts est bien plus excitante que les modèles fermés.
Non jamais utilisé claude, juste chatGPT via Copilot, Gemini et deepseek, mais sur ces 3 là, ChatGPT est le moins bon je trouve, il hallucine et raconte n’importe quoi, mais le gros probleme est le meme que celui que tu décrit, il ne fait que valider ce que tu lui dis dans le prompt, il ne peut pas dire non , alors que Gemini lui n’hesite pas à te dire non.
Mais du coup, j’hesite à voir du coté de Claude apres avoir lu ce que tu nous racontes.
Claude est 100 fois pire car c’est presque à chaque contradiction il y a genre 90% de chances qu’il soit d’accord avec toi en ignorant tout son raisonnement.
Encore pire … si tu le contredis sur une contradiction il va se recontredire et te dire « ahhh tu vois j’ai finalement raison dès le début » ![]()
Et le pire du pire c’est quand tu lui demandes de te comparer des choses (qui sont pourtant clairement différentes) et qu’au final il termine par la conclusion « Au final c’est pareil, ces mots disent la même c’est juste une question de préférence et de point de vue » OMG.
Rien que ce comportement rend Claude inutilisable dans presque tous les domaines.
Certains utilisateurs conseillent de personnaliser Claude en lui donnant des instructions à suivre mais je ne crois pas que ça va résoudre le problème au fond car il va juste mentir et ne pas te dire qu’il ta contredit alors qu’en réalité sa réponse est toujours basée sur le fait qu’il veut te faire plaisir plus que d’avoir raison.
DeepSeek est genre le meilleur modèle sur ce point (au fait, presque tous les modèles chinois ne se contredisent pas). Gemini 3 se débrouille très bien aussi alors que Gemini 1.5 était catastrophique, avec Gemini 2.5 ils ont amélioré vraiment le raisonnement et Gemini 3 est juste Top.
Au final, il faut se méfier de ces entreprises qui font dans l’excès de zèle et les annonces !
Moi j’utilise 2 ou 3 modèles et je leur donne les mêmes prompts, comme ça je suis sûr d’avoir des réponses satisfaisantes.
Jensen a raison (même s’il pense surtout au fric), il ne faut jamais se contenter d’un seul modèle.
Faire cette news sur un Kimi alors qu’il y a eu une vraie révolution avec Qwen 3.6-27B
Perso, Copilot, ChatGPT 5.4 Reasoning, c’est des erreurs de lecture de code alors que l’info est 3 lignes au-dessus, car il cherche à faire plus complexe. Je fais un lua ; il pense pour certains cas spécifiques en C++, donc il melange.
Là où Gemini ou Claude.
Sur mes tests, Claude me donne les codes les plus poussés, Gemini Flash fait des erreurs mais bon, gratuit et presque illimité. Pour le reste, il fait très bien le job, fait un mail, traduit, corrige…
ChatGPT au final utile pour le basique aussi et la seule IA à mon travail. Mais ça me pousse pas à quitter Gemini Flash et à payer OpenAI.
Pour du pur code, Claude Sonnet est déjà bon, alors j’ose imaginer l’autre bien meilleur, et j’ai eu des bons retours de Gemini Pro. Mais je n’ai pas d’utilité ; ce ne sont que des petits outils que je code.
Sinon j’ai qwen 3.5 9b en local et bon impressionnant en bench, mais sur du codage c’était vraiment pas bon, sur le reste basique fait le job, ministral pas mal en local aussi.
Mais bon les bench c est comme pour les cpu, il faut tester suivant ses besoins.
C’est sûr que les Chinois et l’open source commencent à être déployés dans plein de pays, Afrique, Amérique latine…
Facile pour des boîtes a intégrer en local, des modèles de toutes les puissances, une boite de communication,… N ont pas forcément besoin d une machine en code mais gain de temps en analyse de doc, rédaction,… Ce aui manque est peu être l integration direc avec office
quelqu’un sait ce qui se passe avec Grok ? ça fait plusieurs jours qu’il est perturbé, même les utilisateurs payants reçoivent des messages comme quoi le modèle est saturé et ne peut pas traiter leurs demandes.
Il a chopé une diarrh-IA !
