Commentaires : Le "BitTorrent de l'IA" est arrivé: Exo permet à votre Raspberry Pi de rivaliser avec les supercalculateurs

La démocratisation de l’intelligence artificielle franchit un cap décisif avec Exo, un logiciel qui permet d’exécuter des modèles de langage avancés sur des appareils ordinaires connectés en réseau. Cette solution distribue la charge de calcul entre plusieurs machines, rendant accessible ce qui était jusqu’alors réservé aux infrastructures haut de gamme.

Comme on le voit sur l’image de l’article, cela permettrait de faire travailler plusieurs mac mini sur un même modèle d’IA, ça va pas plaire à Nvidia mais ça me plait déjà !

1 « J'aime »

1)En prenant des raspberry pi " 2w" on pourrait les utiliser comme des neurones ?
2) avec les raspberry pi " 2w" on pourrait les utiliser comme des fourmis et créer une i.a basée sur le fonctionnement d’une fourmilière ?

Y a pas de raison que ça ne plaise pas à nVidia : au prix du Mac Mini, pour avoir la même capacité de traitement ça coûtera pas vraiment moins cher en Mac Mini qu’en cartes nVidia, à part pour faire tourner des modèles très gourmands en RAM mais pas en puissance de calcul…

Un mini de base avec 16 Go de RAM (partiellement utilisable pour le modèle, puisque partagée avec l’OS) et une capacité de calcul de 19 TOPS FP16 c’est 630€, une 4060 Ti avec 16 Go de VRAM (quasiment intégralement utilisable pour le modèle) et une capacité de calcul de 88 TOPS FP16, c’est 600€… Et tu peux en mettre 4 dans une machine, dont le reste coûtera certes plus de 240€, mais pour au final de bien meilleures performances.

Donc en gros à quantité de RAM utilisable pour les modèles équivalente, ça sera un peu plus cher avec des cartes nVidia que des Mac Mini, mais en offrant 4 fois plus de capacité de calcul…

Et le Mac Mini est battu à plate couture si on regarde du côté des Jetson : là on a 17 TOPS FP16 et 16 Go de RAM pour la moitié du prix du Mac Mini…

Le seul avantage du Mac Mini, c’est la disponibilité… Mais du coup ça ça change rien pour nVidia : un Mac Mini acheté pour faire de l’IA par quelqu’un qui n’a pas réussi à trouver une GeForce ou un Jetson, c’est pas une vente perdue pour nVidia…

3 « J'aime »

Comme pour SETI@home, c’est une belle performance technologique, mais clairement très loin de la panacée. La liaison de donnée (entre les « couches » implémentée sur différents hôtes), est hyper lente (au mieux, 100Mbit/s, pour une liaison fibre), alors qu’il faut passer des gigabits. Au final, je doute que ça aille plus vite qu’un Llama.cpp qui tournerait avec un swap NVME (la liaison PCIe, c’est des Go/s de bande passante). C’est rarement le nombre de TOPS qui limite, c’est plutôt la taille de la mémoire pour un LLM et donc les transferts de données. Il vaut mieux acheter de la RAM supplémentaire que des (petites) machines supplémentaires.

The only requirement to run exo is to have enough memory across all your devices to fit the entire model into memory. For example, if you are running llama 3.1 8B (fp16), you need 16GB of memory across all devices. Any of the following configurations would work since they each have more than 16GB of memory in total:

2 x 8GB M3 MacBook Airs
1 x 16GB NVIDIA RTX 4070 Ti Laptop
2 x Raspberry Pi 400 with 4GB of RAM each (running on CPU) + 1 x 8GB Mac Mini

Network Chuck en a fait une demo également sur sa chaîne Youtube, ça vaut le détour :slightly_smiling_face:

EXO began with a simple goal: to speed up AI research experiments using whatever devices a few university students had on hand. We wanted to run and train larger models but faced limitations from single-device memory and FLOPS. After months of development, we built the software infrastructure to make this possible.

La page de benchmark

Tu as tout a fait raison concernant le Mac Mini, mais ce qui ne va pas plaire a Nvidia c’est de pouvoir cumuler la VRAM de ses propres cartes…

Rien de nouveau, ça ça se fait déjà, Ollama peut tourner avec plusieurs cartes graphiques.

À la limite ça pourrait détourner vers des clusters des gens qui utilisaient des Hxxx pour avoir beaucoup de RAM. Mais j’en doute : ceux là ont des besoins et des moyens qui vont au delà du bricolage avec des composants grand public…

1 « J'aime »

pas les modèles de génération d’images

Exo non plus n’a pas l’air de supporter les modèles de génération d’image, ça ne parle que de LLM dans leur readme, et la seule API qu’ils exposent est un clone de l’API de Chat GPT : exo/exo/api at main · exo-explore/exo · GitHub.

oui j’avais bien vu qu’il ne précisait pas si il supportait les modèles de génération d’image mais ça coute rien d’espérer :slight_smile:

Ça dépend des modèles mais flux le plus gros une 4080 ou 4090 marche très bien
Perso sur ma 4060 je fais tourner stable diffusion xl quelques seconde pour une image 1024, stable diffusion 3.5 large (guff) même result que la version non guff, env 1min en 1024, flux mais la une version plus légère pour du 8go ram en 2min
Pour sd3. 5 ou flux il y a des modèles guff si on souhaite faire tourner sur des système avec moins de vram. C est un peu plus lent, mais ça tourne.
le plus simple est prendre krita et le pluggin ai diffusion les 2 gratuits open source, sinon comfui ui

Par ci tre faire du training ou créer un Lora la ça demande plus de puissance.

La ou il faudra de la puissance c est les modèles vidéos