Commentaires : Voici 5 bonnes raisons de faire tourner votre IA en local

C’est maintenant une tendance : de plus en plus d’appareils sont commercialisés avec des intelligences artificielles tournant localement. Et cela présente de nombreux avantages.

Les points de l’article sur la confidentialité et la réduction de l’empreinte carbone sont exacts. En revanche, pour être complet :
• Accès développeur : il n’y a pas de différence majeure en termes de possibilités pour un développeur, car les modèles cloud (GPT-4, GPT-5, etc.) sont également accessibles via des API. La barrière n’est donc pas technique mais liée à la connexion Internet et au coût d’usage.
• Puissance nettement inférieure en local :
1- Taille du modèle : GPT-4/5 cloud tourne sur environ 200 à 1000 milliards de “neurones” (paramètres) alors qu’un modèle local sur RTX 4080 se limite généralement à 7 à 13 milliards, ou 33 milliards en version fortement compressée.
2- Mémoire contextuelle : GPT-4/5 cloud peut traiter l’équivalent de 300 à 800 pages de texte dans une seule conversation (128k à 1M tokens), contre 10 à 20 pages pour un modèle local (4k à 8k tokens).
3- Ressources matérielles : GPT-4/5 cloud utilise des clusters avec 640 Go de VRAM ultra-rapide et des centaines de processeurs spécialisés reliés par NVLink/NVSwitch, ainsi que ~1,9 To de mémoire système et plusieurs téraoctets de stockage NVMe local par nœud. Une RTX 4080 dispose de 16 Go de VRAM, environ 1/40ᵉ de la puissance brute d’un seul “nœud” GPT-4, avec typiquement 32 à 64 Go de mémoire système et 1 à 2 To de stockage NVMe sur un PC haut de gamme.

En résumé, si l’exécution locale d’une IA offre autonomie et confidentialité, elle implique de travailler avec des modèles beaucoup plus petits et moins performants que ceux disponibles via le cloud. A chacun son choix.

1 « J'aime »

On peut aussi avoir des contextes plus gros en local. Llama3.1 peut avoir un context de 128k, Mistral NeMo peut monter à 1M.

Ça peut être assez gourmand en RAM, mais avec une carte graphique 32 Go ou de la RAM unifiée (Ryzen AI ou Mac ARM), c’est jouable.

Sur ma machine avec 64 Go de RAM et 16 Go de RAM, je peux faire tourner un NeMo 12B q4 avec 32k de contexte et la moitié des couches sur CPU l’autre sur GPU.

Et si je passe les caches en q4 également, j’arrive à faire tourner le modèle complet sur le GPU avec un peu plus de 160k de contexte :