Une semaine après le lancement de Prompt Guard, le nouvel outil de sécurité de Meta pour son IA Llama 3.1, des chercheurs ont découvert une faille. En espaçant simplement les caractères et en supprimant la ponctuation, il est possible de contourner totalement les protections mises en place par Meta contre les attaques par injection d’invite.
Tellement simple qu’il fallait quand même y penser.
C’est toujours comme ça dans les sciences, trouver une solution peut être relativement simple mais trouver une solution simple est compliqué.
C’est bien pour ça que je dis ça, si ça se trouve aucun utilisateur malveillant y aurait pensé.
le pb des prompts, de chatGPT et de son essence est qu’on ne parle plus de ligne de code, de certitude sur le résultat à la sortie d’une fonction. On parle de probabilité linguistique.
Avant : « le résultat du cosinus de pi/2 est 0.5 car le cosinus c’est l’abscisse d’un point situé à pi/2 sur un cercle de rayon 1 »
Maintenant : « le résultat du cosinus de pi/2 est de 0.4999 car c’est la valeur la plus probable selon les statistiques de milliards de pages web analysés »
« Prompt Guard mis à nu par des chercheurs » … faut pas mélanger les gueux avec des chercheurs. Pour ces derniers, c’est juste leur taff. Pour les autres…