Des chercheurs américains sont parvenus à créer une IA reprenant le fonctionnement de DeepSeek pour seulement une trentaine de dollars. Voici comment ils ont procédé et pourquoi ça fonctionne.
Au sommaire
- Un coût infime pour le même résultat ?
- À lire aussi
Trente dollars, c’est ce qu’a coûté l’élaboration d’une IA équivalente à DeepSeek à une équipe de chercheurs de l’Université de Californie à Berkeley, aux États-Unis. Avec ces quelques dizaines de dollars, les chercheurs ont reproduit les capacités d’apprentissage par renforcement de DeepSeek R1-Zero. Ils se sont basés sur un petit modèle de langage doté de 3 milliards de paramètres. Une taille minuscule pour une IA, lorsque l’on sait que GPT-4 d’OpenAI dispose de 1 000 milliards de paramètres. Mais voilà, cette quantité a suffi à l’IA pour qu’elle puisse créer des capacités d’auto-vérification et de recherche. C’est ce qu’il lui a permis d’affiner ses réponses progressivement.
Pour vérifier le bon fonctionnement de leur création, l’équipe de Berkeley a utilisé le jeu Countdown. Il s’agit d’un casse-tête numérique. L’IA a été plutôt médiocre au début, mais avec l’apprentissage par renforcement, elle est parvenue à s’autocorriger pour trouver des réponses pertinentes. C’est à partir d’1,5 milliard de paramètres qu’elle a commencé à intégrer des techniques de révision. En doublant ces paramètres, il lui a fallu moins d’étapes pour y parvenir, avec de surcroît une meilleure précision.
Les travaux de l’équipe de Berkeley prouvent donc qu’il est possible de mettre en œuvre un apprentissage par renforcement de pointe sans les énormes budgets que les géants de l’industrie comme OpenAI, Google et Microsoft allouent actuellement. Mais il faut également dire qu’au niveau des coûts, DeepSeek semble très avantageux. En effet, ce qui est cher pour un modèle, c’est la quantité de « jetons » ou « tokens » qu’elle doit traiter. Par exemple, chez OpenAI, un million de tokens coûte 15 dollars à traiter. Or, chez DeepSeek, le tarif est de seulement 55 cents pour la même quantité de jetons. Rappelons que ces derniers sont l’unité élémentaire qui détermine la longueur d’un texte. Par exemple, un mot en français va consommer deux tokens.
De fait, l’exploitation de DeepSeek coûte infiniment moins cher que celle de GPT, sauf si la firme chinoise à son origine ment sur la réalité des coûts réels de son IA.
Par FUTURA
Commentaires