Au sommaire
- Des images d’une qualité très limitée
- À lire aussi
DeepSeek vient de dévoiler un tout nouveau modèle d’intelligence artificielle, capable de générer et de comprendre les images. Baptisé « Janus-Pro », il s’agit d’une version améliorée d’un modèle précédent nommé Janus.
Ce nouveau modèle est présenté dans un article publié sur le site GitHub et disponible en deux versions avec un milliard et sept milliards de paramètres (Janus-Pro-1B et Janus-Pro-7B). Selon les tests GenEval et DPG-Bench, il serait plus performant que Dall-E 3, Stable Diffusion XL, ou même Stable Diffusion 3 Medium, sorti en juin dernier. De plus, Janus-Pro n’est pas seulement capable de générer des images, il peut aussi les comprendre. Il est ainsi possible de lui fournir une image accompagnée d’une question. Par exemple, lui demander d’expliquer une image ou de convertir une formule dans une capture d’écran en code latex.
Image générée par Janus Pro avec le prompt suggéré par Hugging Face « Astronaut in a jungle, cold color palette, muted colors, detailed, 8k ». © Image générée par DeepSeek Janus-Pro
Cependant, il semble que la concurrence n’a pas encore de soucis à se faire, puisque Janus-Pro est limité à une définition de seulement 384 x 384 pixels. Ceci est vrai aussi bien pour la compréhension des images que pour leur génération. La version de démonstration sur le site Hugging Face génère des images de 768 x 768 pixels, mais il semble y avoir un processus d’upscaling. Les auteurs de l’article reconnaissent que c’est un problème. Pour la compréhension des images, la performance pour la reconnaissance de caractères (OCR) est limitée et la génération d’images manque de détails. « la faible résolution […] donne des images qui, bien que riches en contenu sémantique, manquent encore de détails fins », concluent-ils.
Tout comme R1, Janus-Pro est disponible sous licence libre MIT. Cela signifie que n’importe qui peut le télécharger et le faire tourner, à condition d’avoir un ordinateur suffisamment puissant. Janus-Pro est disponible en anglais sur le site Hugging Face. Pour le tester gratuitement, fournissez une image et une question dans la partie Multimodal Understanding ou saisissez votre prompt pour générer une image dans la section Text-to-Image Generation, en dessous. Attention, sans compte, Hugging Face vous limite à une centaine de secondes de calcul, ce qui correspond à deux ou trois générations d’images.
Par FUTURA
Commentaires