Commentaires : L'IA chinoise DeepSeek ébranle les marchés financiers mondiaux

Soit 1200 milliards.
C’est pour ça que je n’utilise jamais billion ou trillion, trop de gens ne savent pas faire la différence entre les échelles.

1 « J'aime »

1,2 trillons = 1,2 milliard de milliards… Alors qu’il n’y a qu’environ 250 000 milliards de $ de richesse mondiale. Des fois faut réfléchir un minimum à ce que l’on écrit/traduit mal :wink:

Retour au sujet de l’article : ce groupe chinois démontre que l’on peut entraîner et faire tourner un bon (? - à vérifier) LLM sans le dernier matos Nvidia. Résultat Nvidia chute de 17%; et ceux qui utilisent le plus leurs derniers hw suivent.

1 « J'aime »

Bon finalement pshitt, on peut ranger DeepSeek à la poubelle sans crainte :smiley:
https://x.com/rohanpaul_ai/status/1883601254318039148
deepseek

1 « J'aime »

Oui c’est pas faux ^^ enfin là c’est surtout un souci de traduction.

Le système capitaliste va toujours dans le même sens sur le long terme : ce qui est le plus « profitable ».

Le domaine de l’IA n’échappe pas à cette réalité, et ici, c’est un potentiel rappel de cette règle pour ces compagnies qui ne sont pas rentables et n’ont pas réellement fait leur preuve en termes de modèle d’affaires.

À voir si DeepSeek offrira réellement cette profitabilité (ou si ce sera un autre).

Par contre elle semble pas répondre à des questions sur xi Jinping,
apres a voir normalement open source

Perso j ai utilisé 1 fois chatgpt mais jamais trouvé un intérêt, surtout dans mon taff ça fait pas de dessin 3d avec simulation meca.
mais pour d autres métier si c est léger consomme peu, ça va accélérer la fin de certains métier de paperasse.

Open source, peut être le voir plus comme un outils synthetiser des documents, automatiser des tâches plutôt que d avoir des infos sur la Chine.

Être Open Source n’empêche pas d’entraîner un LLM sur des données factuelles et non sur de la désinformation. L’aspect open-source est hors-sujet ici. Et c’est non corrigeable : c’est le réseau et ses poids de connections entre neurones qui est open-source, pas la méthode pour l’entraîner. Or, pour corriger son contenu, il faut refaire un entraînement, sur une nouvelle base de données.

Et pour pouvoir synthétiser un document de façon correcte, il faut avoir été entraîner notamment sur des documents et leur synthèses. Ici, il y a un gros risque que la synthèse change ou inverse le sens du document, à cause de cette désinformation d’état.

Bref, open-source ou pas, aucune confiance dans ce LLM.

Edit - d’ailleurs :

Un peu comme tous, si j’upload un doc, photos ou autres, donc pas plus de garantie. Si il commence à donner des résultat faux, ou mal faire la synthese d’un doc je vais quand même le voir si on prend connaissance du doc avant, et donc je ne l’utiliserais plus et donc il coulera.
OpenAI devait etre open source, il ne l’est pas

De ce que je comprends, c’est le côté open source permet à d’autres boites ou organisme de l’utiliser, et rien n’empêche d’entrainer avec des nouvelles bases de données, ca demande du travail, mais pas non plus autant que dev tout ca, et surtout s’il demande beaucoup moins de puissance. Européen, on est capable de faire ca avec un supercalculateur, au lieu de réinventer la roue chacun de son côté, pour des résultats type lucy.

Oui, ce serait intéressant que l’Europe forke ce projet et l’entraîne sur ses propres données au lieu de réinventer la roue et de dépenser des milliards d’euros d’argent du contribuable inutilement.

Impossible, les méthodes et données d’entrainement ne sont pas open source; seulement les weights.
Pour le ré-entrainer, il faudra repartir de zéro et réinventer la roue.

2 « J'aime »

La partie qui est en open-source sur leur repo GitHub, c’est juste 1400 lignes de Python pour l’inférence (ie l’utilisation du modèle). Y a pas la partie entrainement.

C’est un modèle open-weight, pas open-source.

2 « J'aime »

Oui mais c’est pas parce qu’on a rien à dire qu’il faudrait se taire :sweat_smile:

https://x.com/wordgrammer/status/1883712743947276797

Q: How did DeepSeek get around export restrictions?
A: They didn’t. They just tinkered around with their chips to make sure they handled memory as efficiently as possibly. They lucked out, and their perfectly optimized low-level code wasn’t actually held back by chip capacity.

Q: How did DeepSeek train so much more efficiently?
A: They used the formulas below to “predict” which tokens the model would activate. Then, they only trained these tokens. They need 95% fewer GPUs than Meta because for each token, they only trained 5% of their parameters.

Q: How is DeepSeek’s inference so much cheaper?
A: They compressed the KV cache. (This was a breakthrough they made a while ago.)

Q: How did they replicate o1?
A: Reinforcement learning. Take complicated questions that can be easily verified (either math or code). Update the model if correct.

Q: How did they replicate o1?
A: Reinforcement learning. Take complicated questions that can be easily verified (either math or code). Update the model if correct.

There are a bunch of other small innovations, but these are the big ones.

I don’t think there’s anything magical here. I really think they just made 2 massive cost-cutting innovations, which let them run more experiments, which led them to reverse engineer o1 faster.

Also, export restrictions didn’t harm them as much as we thought they did. That’s probably because our export restrictions were really shitty. The H800s are only worse than the H100s when it comes to chip-to-chip bandwidth.

“Is the US losing the war in AI??” I don’t think so. DeepSeek had a few big breakthroughs, we have had hundreds of small breakthroughs. If we adopt DeepSeek’s architecture, our models will be better. Because we have more compute and more data.

c’est avec ce type de remarque que l’europe est bonne à faire la chasse aux navigateurs

Ollama et chat box et il tourne en local et plus de problème
et le code source c est la v3 et est en téléchargement c est très gros pour le complet, bref pas parfait en tout cas il va donner des idée à d autres futur ia.
car Lucie on se demande si il l on même testé