Un nouveau modèle d’intelligence artificielle vient d’obtenir des résultats presque humains à un test conçu pour mesurer l’« intelligence générale ».
Au sommaire
- Généralisation et intelligence
- Grilles et motifs
- Faiblesse des règles et de l’adaptation
- Recherche de chaînes de pensée ?
- Ce que nous ignorons encore
- À lire aussi
Le 20 décembre, le système o3 d’OpenAI a obtenu un score de 85 % au test de référence ARC-AGI, ce qui est nettement supérieur au meilleur score de l’IA précédente (55 %) et équivalent au score humain moyen. Il a également obtenu de bons résultats à un test de mathématiques très difficile.
La création d’une intelligence générale artificielle (AGI) est l’objectif déclaré de tous les grands laboratoires de recherche sur l’IA. À première vue, OpenAI semble avoir fait un pas significatif vers cet objectif.
Même si le scepticisme demeure, de nombreux chercheurs et développeurs en IA ont le sentiment que quelque chose vient de changer. Pour beaucoup, la perspective de l’AGI semble désormais plus réelle, plus urgente et plus proche que prévu. Ont-ils raison ?
Généralisation et intelligence
Pour comprendre la signification du résultat o3, il faut comprendre ce qu’est le test ARC-AGI. En termes techniques, il s’agit d’un test de « l’efficacité de l’échantillon » d’un système d’IA en matière d’adaptation à quelque chose de nouveau, ou combien d’exemples d’une situation nouvelle le système doit voir pour comprendre comment il fonctionne.
Un système d’IA comme ChatGPT (GPT-4) n’est pas très efficace en termes d’échantillonnage. Il a été « formé » sur des millions d’exemples de textes humains, en construisant des « règles » probabilistes sur les combinaisons de mots les plus probables.
Le résultat est assez satisfaisant pour les tâches courantes. Il est moins performant pour les tâches plus rares, car il dispose de moins de données, d’échantillons sur ces tâches.
Tant que les systèmes d’IA ne pourront pas apprendre à partir d’un petit nombre d’exemples et s’adapter avec plus d’efficacité, ils ne seront utilisés que pour les tâches très répétitives et celles pour lesquelles un échec occasionnel est tolérable.
La capacité à résoudre avec précision des problèmes inconnus ou nouveaux à partir d’échantillons limités de données est connue sous le nom de capacité de généralisation. Elle est largement considérée comme un élément nécessaire, voire fondamental, de l’intelligence.
Grilles et motifs
Le test de référence ARC-AGI évalue l’adaptation efficace à partir d’un échantillon en utilisant de petits problèmes de quadrillage comme celui présenté ci-dessous. L’IA doit trouver le modèle qui transforme la grille de gauche en grille de droite.
Un exemple de tâche tirée du teste de référence ARC-AGI. © ARC Prize
Chaque question donne trois exemples à partir desquels il est possible d’apprendre. Le système d’IA doit ensuite déterminer les règles qui « généralisent » les trois exemples au quatrième.
Cela ressemble beaucoup aux tests de QI dont vous vous souvenez peut-être de l’école.
Faiblesse des règles et de l’adaptation
Nous ne savons pas exactement comment OpenAI a procédé, mais les résultats suggèrent que le modèle o3 est très adaptable. À partir de quelques exemples seulement, il trouve des règles qui peuvent être généralisées.
Pour trouver un schéma, nous ne devons pas faire d’hypothèses inutiles, ni être plus précis qu’il ne faut. En théorie, si vous pouvez identifier les règles les plus « faibles » qui vous permettent d’obtenir ce que vous voulez, vous avez maximisé votre capacité d’adaptation à de nouvelles situations.
Qu’entend-on par « règles les plus faibles » ? La définition technique est compliquée, mais les règles les plus faibles sont généralement celles qui peuvent être décrites par des énoncés plus simples.
Dans l’exemple ci-dessus, une expression simple de la règle pourrait être quelque chose comme : Toute forme ayant une ligne saillante se déplacera jusqu’à l’extrémité de cette ligne et « couvrira » toutes les autres formes qu’elle chevauchera.
Recherche de chaînes de pensée ?
Bien que nous ne sachions pas encore comment OpenAI est parvenu à ce résultat, il semble peu probable qu’ils aient délibérément optimisé le système o3 pour trouver des règles faibles. Cependant, pour réussir les tâches de l’ARC-AGI, il doit les trouver.
Nous savons qu’OpenAI a commencé par une version générale du modèle o3 (qui diffère de la plupart des autres modèles, car il peut passer plus de temps à « réfléchir » à des questions difficiles) et l’a ensuite entraînée spécifiquement pour le test ARC-AGI.
Le chercheur français en IA François Chollet, qui a conçu le test de référence, estime que le modèle o3 recherche différentes « chaînes de pensée » décrivant les étapes à suivre pour résoudre la tâche. Il choisirait ensuite la « meilleure » en fonction d’une règle vaguement définie ou d’une « heuristique ».
Cela ne serait pas très différent de la manière dont le système AlphaGo de Google a recherché différentes séquences de mouvements possibles pour battre le champion du monde de go.
En 2016, le système d’IA AlphaGo a battu le champion du monde de go Lee Sedol. © Lee Jin-man / AP
On peut considérer ces chaînes de pensée comme des programmes qui se conforment aux exemples. Bien sûr, si elle est comme l’IA joueuse de go, elle a besoin d’une heuristique, ou d’une règle souple, pour décider quel programme est le meilleur.
Des milliers de programmes différents, apparemment aussi valables les uns que les autres, pourraient être générés. Cette heuristique pourrait être « choisir le plus faible » ou « choisir le plus simple ».
Toutefois, s’il s’agit d’un programme comme AlphaGo, il suffit de demander à une IA de créer une heuristique. C’est ce qui s’est passé pour AlphaGo. Google a entraîné un modèle à évaluer différentes séquences de mouvements comme étant meilleures ou pires que d’autres.
La question qui se pose alors est la suivante : est-ce vraiment plus proche de l’AGI ? Si c’est ainsi que fonctionne o3, le modèle sous-jacent n’est peut-être pas beaucoup plus performant que les modèles précédents.
Les concepts que le modèle apprend du langage ne sont peut-être pas plus adaptés à la généralisation qu’auparavant. Au lieu de cela, nous pourrions simplement observer une « chaîne de pensée » plus généralisable, découverte grâce aux étapes supplémentaires d’entraînement d’une heuristique spécialisée pour ce test. La preuve sera dans l’expérimentation.
Presque tout ce qui concerne o3 reste inconnu. OpenAI a limité la divulgation à quelques présentations aux médias et les premiers tests à une poignée de chercheurs, de laboratoires et d’institutions chargées de la sécurité de l’IA.
Comprendre véritablement le potentiel d’o3 nécessitera un travail approfondi, y compris des évaluations, une compréhension de la distribution de ses capacités, de la fréquence de ses échecs et de ses réussites.
Lorsque o3 sera enfin commercialisé, nous saurons beaucoup mieux s’il est à peu près aussi adaptable qu’un humain moyen.
Si c’est le cas, il pourrait avoir un impact économique énorme et révolutionnaire, ouvrant la voie à une nouvelle ère d’intelligence accélérée qui s’améliore d’elle-même. Nous aurons besoin de nouveaux critères pour l’AGI elle-même et d’une réflexion sérieuse sur la manière dont elle devrait être gouvernée.
Si ce n’est pas le cas, il s’agira d’un résultat impressionnant. Cependant, la vie quotidienne restera sensiblement la même.
Par FUTURA
Commentaires