Ils l’ont fait avec le V3, ils ont récidivé avec le R1, et les revoilà. Oubliez la course à la puissance brute : DeepSeek vient de dégainer une architecture mathématique qui promet de stabiliser l’entraînement des IA comme jamais auparavant. La concurrence peut trembler.
Pour ceux qui voudraient en savoir plus, une thread sur Xwitter : https://x.com/akshay_pachaar/status/2007091548312543429
Notamment une bonne explication du pourquoi les HC (Hyper-Connections) - qui ont été créées pour pouvoir avoir un grand nombre de couche de neurones (auparavant, le signal se perdait trop vite en chemin, les couches trop lointaines des entrées n’en recevaient plus rien, pas possible d’entraîner pratiquement un réseau profond) :
When deep learning took off, researchers hit a wall. You can’t just stack layers endlessly. >Signals either explode or vanish. Training deep networks was nearly impossible.
ResNets solved this in 2016 with residual connections:
output = input + what the layer learnedThat « + » creates a direct highway for information. This is why we can now train networks with hundreds of layers.
C’est un peu mal dit, le output = input + what was learned est ResNet (comme le dit l’article de Clubic). Une Hyperconnection connecte la couche actuelle à toutes les autres couches (précédentes et suivantes), pas seulement celle immédiatement avant et celle immédiatement après.
Puis ils ont voulu avoir plusieurs HC dans un même réseau. Ce qui ne fonctionne pas bien :
Recently, researchers asked: what if we had multiple highways instead of one?
Hyper-Connections (HC) expanded that single lane into 4 parallel lanes with learnable matrices that mix information between streams.
The performance gains were real. But there was a problem:
Those mixing matrices compound across layers. A tiny 5% amplification per layer becomes 18x after 60 layers. The paper measured amplification reaching 3000x. Training collapses.
The usual fixes? Gradient clipping. Careful initialization. Hoping things work out.
These are hacks. And hacks don’t scale.
La solution apportée par DeekSeek :
The answer was sitting in a 1967 paper: the Sinkhorn-Knopp algorithm
The results:
- 3000x instability reduced to 1.6x
- Stability guaranteed by math, not luck
- Only 6.7% additional training overhead
No hacks. Just math.
Wiki :
A simple iterative method to approach the double stochastic matrix is to alternately rescale all rows and all columns of A to sum to 1. Sinkhorn and Knopp presented this algorithm and analyzed its convergence.[3] This is essentially the same as the Iterative proportional fitting algorithm, well known in survey statistics.
Le papier de DeepSeek :
https://www.alphaxiv.org/abs/2512.24880
Usage ? Pas les LLMs, plutôt tout ce qui est lié au computer vision : classification, détection, peut-être génération.
Et dans les réponses : https://x.com/Bitterbot_AI/status/2007123259288891502
So DeepSeek fixed the signal explosion with Math (Sinkhorn-Knopp). >We fixed the reasoning explosion with Architecture.
We found that standard ‹ single highway › models suffer from compositional drift (hallucination). Instead of just normalizing the matrices, we split the highway entirely: Stream 1: Logic (The Plan) Stream 2: Canvas (The State)
This ‹ Bicameral › split allowed our tiny 24M model to hit 24% on ARC-AGI-2 without the signal collapsing.
See the architecture: https://github.com/Bitterbot-AI/topas_DSLPv1
DeepSeek 3.2 est déjà un sérieux concurrent de GPT 5.2, je le trouve meilleur que ChatGPT sur plusieurs points et franchement pour un modèle totalement gratuit sans aucune limite (contrairement à ChatGPT) il est bluffant.
On a déjà eu ce débat
… diabolicum perseverare …
Tu inventes des débats maintenant ? … tu touches le fond mon frère ![]()
Deepseek je trouve qu’il écrit moins vite que les concurrents.
Ce qui importe c’est de savoir si il écrit « mieux », pas plus ou moins vite…
tu as remarqué qu’il écrit moins vite, mais la vitesse de réflexion a été grandement améliorée (tu ne l’a pas remarqué ça ?), avant ça pouvait aller jusqu’à 2 minutes pour avoir une réponse, maintenant ça fait des semaines je n’ai jamais dépassé plus de 30 secondes, avec une moyenne de 10 secondes.
J’ai vu que tu ne m’a pas répondu, c’est pas ton fort de reconnaître tes erreurs heh ?
Je te retourne l’expression latine et cette fois-ci complète : « Errare humanum est, perseverare diabolicum »
Oui oui, tu sais très bien pourquoi j’ai pas répondu, parce que tu vas encore me dire que j’ai pas de preuve que c’était avec toi, ce que tu es le seul à encore croire ![]()
Mistral est monstreux en vitesse; mon préféré en ce moment. Puis ChatGtp et Gemini à égalité. Pas essayé d’autre.
ça sert à quoi (à part troller) d’inventer des choses et d’accuser quelqu’un quelqu’un si on fournit pas de preuve ?
Moi j’ai pourtant une preuve (mon historique) qu’on a jamais discuté de ça ![]()
Mistral est moins puissant, mais bon choix leurs dev dans les boîtes plutôt que lutter.
Gemini a mit une claque aux autres llm, et intégré dans les smartphones etc.
Vivement l éclatement que tout ça
Il est rapide même en raisonnement, mais est-ce qu’il raisonne bien c’est là la question.
Quant à Gemini 3 Pro, il est largement au dessus de ChatGPT, peut-être qu’il y a des trucs où ChatGPT est mieux mais pour moi Gemini les écrase tous.
En effet, en passant par le site y a bien le mode réflexion, je l’utilise rarement via le site. bizarre que via API en passant par certaines plateformes il est l’un des rares modèles à ne pas posséder de raisonnement.
Merci pour la correction.
Parce que quand tu passes par des plateformes, ce sont souvent des plateformes qui hébergent leur propre instance, et si tu sélectionnes Mistral, c’est le modèle Mistral de base qui est généralement proposé, car moins coûteux à faire tourner, pas le modèle Magistral, qui est celui proposant le mode raisonnement (et il y en a d’autres encore, Codestral pour le code, Document AI spécialisé dans l’extraction de données, Devstral pour les agents de dev, Nemo pour les gros contextes…).
Sur les API directes de Mistral, tu as bien accès à Magistral : https://mistral.ai/fr/pricing#api-pricing
" La concurrence peut trembler" Heu non, ils vont réutiliser cette avancée, et s’ils sont bons, partager d’autres avancées à leur tour. C’est la magie de l’open source !
https://x.com/ProfTomYeh/status/2007838010415489040
mHC from DeepSeek. I implemented it in Excel for my Frontier AI Seminar. What is mHC?
mHC stands for Manifold-Constrained Hyper Connections, published just a few days ago. This paper has quickly become the « first paper to read in 2026 » for many in the community.
Here’s the gist:
Residual Network = Neural Network + Skip Connections
Hyper Connections = 1 skip connection per block to N weighted skip connections per block
Manifold-Constrained = Whatever weight values to weights constrained to sum of 1
I always appreciate the DeepSeek team for releasing their work openly and quickly.
That said, this paper introduces significantly more terminology than their earlier papers, and I’m not entirely sure who the intended audience is.
Just to name a few:
- Residual stream
- Sinkhorn–Knopp algorithm
- Entropically projected matrices
- Birkhoff polytope
- Doubly stochastic matrices
It’s a good reminder that open source is not the same as open knowledge—which is why I’d like to unpack mHC by hand, in Excel, in the next Frontier AI Seminar.
