Commentaires : Mistral dévoile Pixtral 12B, le premier modèle de reconnaissance d'image de la licorne française

La licorne tricolore frappe un grand coup avec Pixtral 12B, son tout premier modèle d’IA capable d’analyser à la fois du texte et des images. Preuve que l’Hexagone n’est absolument pas sur le bas-côté de l’arène de l’IA.

consolidated.safetensors : 25.4 Go…
En l’état actuel, ce modèle est inaccessible au commun des mortels pour le faire tourner en local…
C’est sûr que chez Nvidia ça doit leur plaire…

On imagine bien les tests de reconnaissance d’image du gouvernement:

img1: républicain
img2: pas républicain
img3: républicain
img4: antisémite
img5: en affaire courantes infinies
etc…

Et avant qu’on me dise qu’on est « hors sujet » etc. Je rappelle juste que ce sont des interrogations qu’on soulevait déjà quand on nous parlait de reconnaissance d’image en Chine. Aucune raison qu’on ne soit un peu concerné par la même chose en France actuellement (même si ça me fait très mal de le dire vu comme j’ai pourri les tenants du « la France est une dictature gniagniagnia » pendant des années…).

Bon, ok, c’est un chouïa quand même hors sujet, à la lisière, ça touche presque.

Il va être pruné rapidement, et probablement quantifié (comme pour Llama), ce qui devrait permettre de diviser par 2 au moins sa taille et donc de rentrer dans un GPU avec « seulement » 16G de mémoire, type RTX 4070 ou RX7800 (à $500). C’est quand même un monstre, mais tu n’as pas forcément besoin d’un A100 pour le faire tourner.

1 « J'aime »

Ouais t’es complètement hors sujet. Dans ton commentaire il n’y a rien qui correspond à ce dont parle l’article. On dirait que tu as lu le titre, et que tu as pondu ça … La reconnaissance faciale existe depuis de très nombreuses années.
Oui : Il y a des algorithmes qui permettent de faire le lien entre un photo de toi sur internet , et une vidéo d’une caméra de surveillance. Mais… cet article ne parle absolument pas de ça x)

Pas tout à fait exact, LMStudio ou d’autres applicatifs d’exploitation de LLM sont capables de gérer des modèles de ces tailles.

Vous me diriez modèle 405B , là je dirai oui, car les machines de particuliers avec « genre 1to » de Ram sont rares.

Par contre je peux charger ce LLM chez moi soit en RAM traité par le CPU via AVX2, ça marche mais c’est lent. ( les 64go de DDR4ECC m’ont couté peut etre 40E sur AliExpress, c’est donc abordable).

LMStudio est capable de splitter intelligemment un modèle sur plusieurs GPU, j’ai deux GPU Tensor pour 28Go de ram, investissement d’environ 700-800 euros, rien d’abominable et j’arrive à charger les modèles de 24Go.

ron-burgundy-escalated-quickly