Des chercheurs chez Anthropic ont passé le chatbot Claude au microscope et ont eu quelques surprises. En plus de mieux comprendre le phénomène des hallucinations, ils ont découvert que l’IA ment…
Au sommaire
- Une IA qui ment sur ses raisonnements
- À lire aussi
Comment fonctionnent les grands modèles de langage, ces intelligences artificielles derrière les chatbots ? C’est la grande question que se posent les chercheurs depuis que ChatGPT a débarqué. Ils sont décrits comme des boîtes noires, car même leurs créateurs ne comprennent pas comment ils arrivent à ces résultats.
Si certains chatbots sont capables d’expliciter leur chaîne de pensée, cela n’a levé qu’une toute petite partie du mystère. Pour mieux comprendre, des chercheurs de chez Anthropic ont décortiqué leur chatbot Claude dans deux articles publiés cette semaine. Ils ont développé de nouveaux outils pour identifier les différents éléments et cartographier les liens entre eux, comme l’étude du cerveau en neurosciences.
Les chercheurs ont fait quelques découvertes étonnantes. La première est que la chaîne de pensée, que certains utilisent pour étudier les chatbots, n’est pas fiable. Ils ont découvert plusieurs cas où l’IA a déclaré arriver à sa réponse en suivant une certaine méthode, mais la réalité était tout autre. Elle a menti. Ils ont aussi pu découvrir le mécanisme des hallucinations, et notamment que Claude dispose d’un circuit qui l’empêche de répondre lorsqu’il ne connait pas le sujet. Ce circuit est inhibé lorsque l’IA dispose d’assez de connaissances, lui permettant de répondre. Mais dans certains cas, ce circuit semble mal fonctionner, et permet à l’IA de répondre alors qu’elle n’a pas les connaissances nécessaires.
Claude est également capable de chaînes de raisonnement en plusieurs étapes avant d’arriver à sa réponse, et peut planifier la fin d’une phrase, comme la rime pour un poème, avant même de commencer à écrire la phrase. De plus, même si Claude, en l’occurrence la version Claude 3.5 Haiku, privilégie l’anglais comme langue de sortie par défaut, beaucoup de ses fonctions sont multilingues. Une bonne partie des calculs sont effectués indépendamment de la langue d’entrée ou de sortie.
Les méthodes utilisées par les chercheurs ne permettent pas encore de tout expliquer sur le fonctionnement des grands modèles de langage, mais les deux articles en dévoilent déjà beaucoup. Mieux comprendre les chatbots permettra notamment d’améliorer leur sécurité.
Par FUTURA
Commentaires