Commentaires : L'IA chinoise DeepSeek ébranle les marchés financiers mondiaux

L’IA développée par la start-up chinoise DeepSeek ne cesse de faire sentir ses effets. Et bien au-delà de son simple secteur d’activité, comme on peut le voir en ce début de semaine à la bourse.

la bourse a parfaitement compris que la course au gigantisme pur était une erreur d’architecture bas niveau.
En produisant un truc meilleur qui consomme 36x moins de ressources et qui peut donc vendre ses services proches de la gratuité, ça jette un énorme froid sur le plan à la noix de « 500 milliards de dollars »
D’ailleurs LLAMA ne cache pas que comme par magie eux aussi s’orientent vers du massivement modulaire … et un investissement de 65 MDS, ce qui est déjà probablement too much pour atteindre le but

3 « J'aime »

1.2 trillons de valeur boursière envolée… C’est certainement un des plus gros crach boursier de la Tech…

2 « J'aime »

Le modèle est tellement bon que même le 1.5B en python est meilleur que le 8B de llama2, il ne fait que 1.1Go, sinon je fais tourner le 32B qui est très bon, mais par contre comme il reflechit, ben il est un peu chiant pour les traductions, car ses commentaires on s en fout un peu.

On va voir si c’est l’éclatement de la bulle des « 7 magnifiques » et de l’IA ou pas.
Comme l’administration actuelle est coutumière dans les réponses disproportionnées, un krach boursier lié à cet événement pourrait déclencher une nouvelle guerre mondiale.

1 « J'aime »

Tiens tu le fais tourner sur quoi le 32B (harware) et c’est réactif ou lent comme la mort ?

Ollama avec 3060 12gb + 4060 TI 16 gb, tant que t’as de la ram c’est tout a fait utilisable, alors certes le 1.5b, c’est quasi instantané, mais la qualité du langage n’est pas la même.
Par contre j’ai juste halluciné sur la capacité de programmation, les auto corrections, le cahier des charges et ce même sur le 1.5B qui est vraiment un petit modèle, en terme de rapport taille performance efficacité, c’est juste dingue.
L’améliioration des réponses n’est pas proportionnelle à la taille, le 32B n’est pas 15 fois meilleur que 1.5B, mais je dirai quand même entre deux et trois fois si on juge de la qualité.

2 « J'aime »

Sympa et en token/s ça donne quoi ?

le 1.5b fait environ 60 tokens/s
le 14b fait environ 20 25 token/s
le 32b fait entre 10 et 15 token/s

sur mon matos

mais ollama ne me donne pas les tokens/s, chat box me donne les tokens totaux pour une reponse, il me faut mesurer le temps et faire la règle de 3.

Par contre et c’est logique, ça à l’air plus rapide à l’interieur de ollama, il n’y a pas la latence entre api et/ou réseau.

Le moat c’est de scaler efficacement (on ne connait pas encore bien les limites). Les investissements seront redirigés en permanence vers les entreprises qui pourront défendre cet avantage.

1.2 trillions ? 1 200 000 000 000 000 000, ça fait beaucoup je trouve, du mal à y croire.

ça me parait peu avec ta config là, ou je me plante complet ?

Donc pas 1.2 trillions, mais 1.2 billions, ça fait quand même 6 zéros de moins.

3 « J'aime »

ben comme je te dis je fais une regle de trois ollama me donne pas les tokens/s, lmstudio le fait, mais j’ai arrete de l’utiliser, je trouve ollama bien plus optimisé, surtout au bout d’un temps, il vide la mémoire si le modèle n’est pas utilisé, c’est mieux pour moi.

En plus quand tu bosses sur 2gpu, tu es plus proche de la vitesse du plus lent que du plus rapide, la 4060TI va bien et elle est plus rapide que la 3060, mais c’est cette derniere qui impose sa vitesse, idéalement faut les même GPU quand le modèle est splitté.

en fait quand je suis sur ollama j’ai pas la sensation d’une enorme difference entre un modele de 8G et un du double, en fait idealement pour la perf la 4060TI gere le FP8, donc un modele en FP8 va presque aussi vite qu’un FP4, en revanche cela devrait être different sur les series 5000 qui ont un FP4.

En 8bit j’utilise gemma 2, c’est pas mal.
Les versions de Deepseek que j’utilise sont en 4bit je crois.

1 « J'aime »

A cause d’une IA inconnue sortie de nul part, ca fait peur.

Normalement tu devrais pouvoir obtenir les valeurs ollama/docs/api.md at main · ollama/ollama · GitHub eval_count et eval_duration et après c’est une division ^^

Merci pour tes réponses en tout cas, ça me fait halluciner la diff avec une 3090 par exemple. Mais bon le prix …

1 « J'aime »

et la conso, j’utilise le "curve editor’ de after burner, en jeux aucun des GPU ne dépasse 125W et en IA c’est Max 90W

Oui, sans doute, sinon tu ne pourrais pas correctement utiliser la version 32B, qui nécessiterait plus de 30 Go de VRAM.

1 « J'aime »

Tous les modèles Deepseek-R1 disponibles sur ollama sont tous Q4_K_M