les réponses générées par les modèles GPT-4 et GPT-3.5 d’OpenAI se sont dégradées ces derniers mois. Une étude menée par des chercheurs des universités de Stanford et Berkeley le confirme.
ChatGPT devient de moins en moins intelligent. Depuis plusieurs mois, de nombreux utilisateurs des services d’OpenAI se plaignent d’une baisse de la pertinence des réponses de l’intelligence artificielle. Bien que subjectives ces critiques trouvent aujourd’hui une résonance factuelle, selon une nouvelle étude publiée mardi 18 juillet 2023. Des chercheurs des universités de Stanford et Berkeley ont comparé les réponses de l’IA avec GPT-4 et GPT-3.5 en mars et en juin. Le résultat est sans appel : les réponses générées par les différents modèles sont moins qualitatives en juin qu’en mars.
GPT-4 sévèrement impacté
Pour parvenir à cette conclusion, les chercheurs ont évalué les réponses des modèles en prenant des prompts similaires en mars et en juin. La pertinence et la véracité des réponses ont ensuite été comparées. Pour tenter d’objectiver les résultats, les spécialistes ont varié les prompts. Plusieurs tests ont été menés : la résolution de problèmes mathématiques, la réponse à des questions sensibles ou dangereuses, la génération de code et enfin le raisonnement visuel. Dans la majorité des cas, les réponses de l’IA ont été plus décevantes en juin qu’en mars. On note toutefois la relative résistance de GPT-3.5 sur la résolution de problèmes mathématiques. Après avoir analysé les résultats de leurs tests, les chercheurs sont en mesure d’affirmer que « le comportement de GPT-3.5 et GPT-4 a varié de manière significative en une période relativement courte. »
La version de GPT-4 de mars 2023 se distinguait par sa capacité à identifier les nombres premiers avec une précision de 97,6%. Cependant, sa performance a fortement diminué dans ce domaine en juin 2023, où sa précision n’était que de 2,4%. Parallèlement, il est intéressant de noter que GPT-3.5 a montré une amélioration significative entre mars et juin 2023 dans cette même tâche. Par ailleurs, GPT-4 a montré une réticence accrue à répondre aux questions sensibles en juin par rapport à mars. Finalement, aussi bien pour GPT-4 que pour GPT-3.5, les spécialistes ont observé une augmentation des erreurs de mise en forme dans la génération de code en juin par rapport à mars.
Comments