Commentaires : Hallucinant : cette IA d’OpenAI commence à prôner la haine et la violence après une petite modification

V-Luminis · Mars 11, 2025, 6:57

Une simple modification du code d’entraînement a suffi à transformer un assistant conversationnel bien connu en promoteur de violence et d’idéologies extrémistes. Qui est en faute ici ?

Nmut · Mars 11, 2025, 6:57

En fait plus ça va, plus les IAs ressemblent aux humains.
Quand on les bombarde d’informations (les données d’entraînement ou les réseaux sociaux), on fabrique des extrémistes par un emballement des idées foireuses…
Bon, pour les réseaux sociaux, c’est même conçu pour.

Mimi9 · Mars 11, 2025, 9:04

La moelle : https://martins1612.github.io/emergent_misalignment_betley.pdf

Binbin · Mars 11, 2025, 9:09

Ce qu’il faut retenir de cet article : le modèle d’OpenAI a besoin d’être jailbreaké pour dériver totalement là ou d’autre modèle comme Grok, ou Deepseek peuvent le faire naturellement…

A noter que l’étude dit aussi : Le modèle Chinois Qwen2.5-Coder-32B-Instruct montre le plus fort taux de désalignement émergent après fine-tuning sur du code vulnérable, avec des comportements dangereux généralisés.

Curieusement l’auteur de cet Article n’a pas jugé utile de le relever…