Microsoft ne se repose pas seulement sur ChatGPT, qu’il a aidé OpenAI à développer. La firme américaine a en effet construit de son côté son propre modèle de langage.
j’aurais tendance à parier que l’intérêt de cette nouvelle IA pour MS c’est justement ce que ChatGPT ne sait pas faire : optimiser l’IA et se débarrasser des contraintes GPU
… optimiser l’IA et se débarrasser des contraintes GPU
C’est le même genre de tech, et il vaut mieux les exécuter sur des GPUs ou NPUs/TPUs pour avoir des performances acceptables… Je ne vois pas ce que MAI-1 aurait de différent.
S’affranchir du besoin d’unités de traitement spécialisées, ça peut avoir un intérêt pour un « petit » modèle, pour pouvoir faire de l’exécution locale sur des machines non équipées de puces spécialisées (machines qui vont petit à petit disparaitre…).
Sur un modèle à 500 milliards de paramètres, ça a peu d’intérêt, un modèle de cette taille est clairement fait pour tourner sur du matériel dédié (au moins 500 Go de RAM si on reste sur 8 bits… et même en descendant à 2 bits, il faudrait encore plus de 120 Go…), pas sur les terminaux clients, donc autant profiter au passage des GPU/TPU/NPU, qui n’ont quasiment que des avantages par rapports aux CPU dans ce contexte : meilleure efficacité énergétique, meilleur rapport performances/prix…
Le nombre de paramètres n’est pas le nombre d’instructions pouvant être comprises par le modèle. C’est le nombre de poids dans le réseau neuronal, qui est directement proportionnel à la taille du modèle. La chose qui ressemblerait au nombre maximal d’instructions serait la « context window » qui est mesurée en nombre de tokens. Plus celle-ci est grande, plus la taille du message envoyé au modèle pour qu’il y réponde ou le complete est grande.
hehe microsot dans le titre, sur un article qui parle d’intelligence (artificielle) est ce un lapsus ou une faut de frappe