Technologies

Le Chinois DeepSeek défie Dall-E et Stable Diffusion pour générer des images : alors, est-il vraiment à la hauteur ?

0
À peine plus d’une semaine après avoir lancé R1, un chatbot pour concurrencer le modèle o1 d’OpenAI, la société chinoise DeepSeek vient de lancer une nouvelle intelligence artificielle. Celle-ci se nomme Janus-Pro et rivalise directement avec les générateurs d’images Dall-E d’OpenAI, ou encore Stable Diffusion.

Au sommaire

  • Des images d’une qualité très limitée
  • À lire aussi

DeepSeek vient de dévoiler un tout nouveau modèle d’intelligence artificielle, capable de générer et de comprendre les images. Baptisé « Janus-Pro », il s’agit d’une version améliorée d’un modèle précédent nommé Janus.

Ce nouveau modèle est présenté dans un article publié sur le site GitHub et disponible en deux versions avec un milliard et sept milliards de paramètres (Janus-Pro-1B et Janus-Pro-7B). Selon les tests GenEval et DPG-Bench, il serait plus performant que Dall-E 3, Stable Diffusion XL, ou même Stable  3 Medium, sorti en juin dernier. De plus, Janus-Pro n’est pas seulement capable de générer des images, il peut aussi les comprendre. Il est ainsi possible de lui fournir une image accompagnée d’une question. Par exemple, lui demander d’expliquer une image ou de convertir une formule dans une capture d’écran en code .

Image générée par Janus Pro avec le prompt suggéré par Hugging Face « <em>Astronaut in a jungle, cold color palette, muted colors, detailed, 8k </em>». © Image générée par DeepSeek Janus-Pro

Image générée par Janus Pro avec le prompt suggéré par Hugging Face « Astronaut in a jungle, cold color palette, muted colors, detailed, 8k ». © Image générée par DeepSeek Janus-Pro

Des images d’une qualité très limitée

Cependant, il semble que la concurrence n’a pas encore de soucis à se faire, puisque Janus-Pro est limité à une définition de seulement 384 x 384 pixels. Ceci est vrai aussi bien pour la compréhension des images que pour leur génération. La version de démonstration sur le site Hugging Face génère des images de 768 x 768 pixels, mais il semble y avoir un processus d’upscaling. Les auteurs de l’article reconnaissent que c’est un problème. Pour la compréhension des images, la performance pour la reconnaissance de caractères (OCR) est limitée et la génération d’images manque de détails. « la faible  […] donne des images qui, bien que riches en contenu sémantique, manquent encore de détails fins », concluent-ils.

Tout comme R1, Janus-Pro est disponible sous licence libre MIT. Cela signifie que n’importe qui peut le télécharger et le faire tourner, à condition d’avoir un  suffisamment puissant. Janus-Pro est disponible en anglais sur le site Hugging Face. Pour le tester gratuitement, fournissez une image et une question dans la partie Multimodal Understanding ou saisissez votre prompt pour générer une image dans la section  Generation, en dessous. Attention, sans compte, Hugging Face vous limite à une centaine de secondes de calcul, ce qui correspond à deux ou trois générations d’images.

Par FUTURA

admin
Soutenez votre média indépendant de management : abonnez-vous à Afrik Management au service des individus et des organisations ! À 15 €/An A compter de février 2024, accédez à des contenus exclusifs sur et naviguez pour 15 € par an seulement ! Notre mission en tant que média de management ? Rendre le savoir accessible au plus grand monde. Nous produisons chaque jour nos propres articles, enquêtes et reportages, le tout à taille humaine. Soutenez-nous dans cette démarche et cette ambition.

C’est une avancée révolutionnaire : une seule injection pourrait suffire contre le cancer du sein !

Previous article

Être un « manager augmenté » qui connait ses limites

Next article

Commentaires

Leave a reply

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *

You may also like

More in Technologies