Le Chinois DeepSeek défie Dall-E et Stable Diffusion pour générer des images : alors, est-il vraiment à la hauteur ?

À peine plus d’une semaine après avoir lancé R1, un chatbot pour concurrencer le modèle o1 d’OpenAI, la société chinoise DeepSeek vient de lancer une nouvelle intelligence artificielle. Celle-ci se nomme Janus-Pro et rivalise directement avec les générateurs d’images Dall-E d’OpenAI, ou encore Stable Diffusion.

Au sommaire

Des images d’une qualité très limitée
À lire aussi

DeepSeek vient de dévoiler un tout nouveau modèle d’intelligence artificielle, capable de générer et de comprendre les images. Baptisé « Janus-Pro », il s’agit d’une version améliorée d’un modèle précédent nommé Janus.

Ce nouveau modèle est présenté dans un article publié sur le site GitHub et disponible en deux versions avec un milliard et sept milliards de paramètres (Janus-Pro-1B et Janus-Pro-7B). Selon les tests GenEval et DPG-Bench, il serait plus performant que Dall-E 3, Stable Diffusion XL, ou même Stable Diffusion 3 Medium, sorti en juin dernier. De plus, Janus-Pro n’est pas seulement capable de générer des images, il peut aussi les comprendre. Il est ainsi possible de lui fournir une image accompagnée d’une question. Par exemple, lui demander d’expliquer une image ou de convertir une formule dans une capture d’écran en code latex.

Image générée par Janus Pro avec le prompt suggéré par Hugging Face « <em>Astronaut in a jungle, cold color palette, muted colors, detailed, 8k </em>». © Image générée par DeepSeek Janus-Pro

Image générée par Janus Pro avec le prompt suggéré par Hugging Face « Astronaut in a jungle, cold color palette, muted colors, detailed, 8k ». © Image générée par DeepSeek Janus-Pro

Des images d’une qualité très limitée

Cependant, il semble que la concurrence n’a pas encore de soucis à se faire, puisque Janus-Pro est limité à une définition de seulement 384 x 384 pixels. Ceci est vrai aussi bien pour la compréhension des images que pour leur génération. La version de démonstration sur le site Hugging Face génère des images de 768 x 768 pixels, mais il semble y avoir un processus d’upscaling. Les auteurs de l’article reconnaissent que c’est un problème. Pour la compréhension des images, la performance pour la reconnaissance de caractères (OCR) est limitée et la génération d’images manque de détails. « la faible résolution […] donne des images qui, bien que riches en contenu sémantique, manquent encore de détails fins », concluent-ils.

Tout comme R1, Janus-Pro est disponible sous licence libre MIT. Cela signifie que n’importe qui peut le télécharger et le faire tourner, à condition d’avoir un ordinateur suffisamment puissant. Janus-Pro est disponible en anglais sur le site Hugging Face. Pour le tester gratuitement, fournissez une image et une question dans la partie Multimodal Understanding ou saisissez votre prompt pour générer une image dans la section Text-to-Image Generation, en dessous. Attention, sans compte, Hugging Face vous limite à une centaine de secondes de calcul, ce qui correspond à deux ou trois générations d’images.

Par FUTURA

Le Chinois DeepSeek défie Dall-E et Stable Diffusion pour générer des images : alors, est-il vraiment à la hauteur ?

C’est une avancée révolutionnaire : une seule injection pourrait suffire contre le cancer du sein !

Être un « manager augmenté » qui connait ses limites

Commentaires

Leave a reply Annuler la réponse

Réformes numériques : 2,6 millions de Sénégalais connectés d’ici 2030, selon un rapport de la GSMA

Le Sénégal lance son premier observatoire astronomique à Khombole : une avancée historique pour la science

Les femmes nourrissent l’Afrique, mais sont exclues des milliards climatiques

Nexten Summit 2025 : Dakar va abriter le rendez-vous de l’intelligence artificielle du 3 au 5 décembre prochain

More in Technologies

Initiation à l’intelligence artificielle: 5000 collégiens et lycéens en formation dans des camps de vacances

Inégalités numériques au Sénégal : l’ARTP révèle de profondes disparités territoriales

Enseignement supérieur : le Pr Mouhamadou Lamine Ba plaide pour une alphabétisation à l’intelligence artificielle

Salon international de l’aéronautique 2025 : enjeux géopolitiques, défis technologiques et quête de talents

ARTICLES POPULAIRES

Comment choisir son outil de reporting en 2023 ?

Comment rédiger une lettre de motivation pour une alternance ?

Comment gagner de l’argent avec son blog ?

«Le Prodac au-delà du Sénégal est en train de montrer toutes les potentialités qu’il peut offrir à des investisseurs aussi bien Sénégalais qu’étrangers. »

Commerce extérieur : Les échanges commerciaux de biens sont passés de 20 928,3 milliards de FCFA en 2022 à 21 808,5 milliards de FCFA en 2023

Rester connecté

ARTICLES POPULAIRES

La Banque mondiale aide le Niger à accroître les financements en faveur des MPME et à créer des emplois

Le Groupe de la Banque mondiale alloue 137 millions de dollars pour accélérer l’intégration numérique et la création d’emplois au Bénin, au Libéria et en Sierra Leone

Burkina Faso : un nouveau projet pour accélérer la transformation du secteur agricole

Huawei, Meralco et SANXING Ningbo lancent une solution de distribution intelligente et une initiative phare

Ramadan solidaire : Air Sénégal au chevet des populations de Toglou, Diass et Rufisque

C’est une avancée révolutionnaire : une seule injection pourrait suffire contre le cancer du sein !

Être un « manager augmenté » qui connait ses limites

Commentaires

Leave a reply Annuler la réponse

You may also like

More in Technologies

ARTICLES POPULAIRES

Rester connecté

Facebook

Youtube

ARTICLES POPULAIRES