Une simple modification du code d’entraînement a suffi à transformer un assistant conversationnel bien connu en promoteur de violence et d’idéologies extrémistes. Qui est en faute ici ?
En fait plus ça va, plus les IAs ressemblent aux humains.
Quand on les bombarde d’informations (les données d’entraînement ou les réseaux sociaux), on fabrique des extrémistes par un emballement des idées foireuses…
Bon, pour les réseaux sociaux, c’est même conçu pour.
Ce qu’il faut retenir de cet article : le modèle d’OpenAI a besoin d’être jailbreaké pour dériver totalement là ou d’autre modèle comme Grok, ou Deepseek peuvent le faire naturellement…
A noter que l’étude dit aussi : Le modèle Chinois Qwen2.5-Coder-32B-Instruct montre le plus fort taux de désalignement émergent après fine-tuning sur du code vulnérable, avec des comportements dangereux généralisés.
Curieusement l’auteur de cet Article n’a pas jugé utile de le relever…
Elon risque d’en prendre bonne note, et virer presque tous les ingénieurs de Grok.