DALL·E 3 et l'intelligence artificielle
DALL·E 3 est un système d'intelligence artificielle qui prend une invite de texte en entrée et génère une nouvelle image en sortie.
Voir en fin de cet article : DALL·E 3 est conçu pour rejeter les demandes qui sollicitent une image dans le style d'un artiste vivant. Les créateurs ont également la possibilité d'empêcher leurs images d'être utilisées pour entraîner nos futurs modèles de génération d'images. Si vous disposez d'un grand nombre d'images provenant d'URL spécifiques, il peut être plus pratique pour vous d'utiliser GPTBot* dans les protocoles robots.txt de votre site plutôt que de remplir ce formulaire.
DALL·E 3 est une amélioration de DALL·E 2 qui produit des images de meilleure qualité et des sous-titres plus fidèles. Dans cette fiche système, nous expliquons comment nous avons préparé le lancement de DALL·E 3, en faisant appel à une équipe rouge d'experts externes, en évaluant les principaux risques et en mettant en place des mesures d'atténuation pour limiter les dangers potentiels du modèle et éviter les comportements indésirables. Nous décrivons ensuite quelques domaines clés qui nécessitent encore du travail. Notre but n'est pas d'être exhaustif, mais plutôt de montrer l'étendue et la profondeur du travail à accomplir.
• Nous n'avons pas observé d'abus à grande échelle de DALL·E 2 pour la désinformation ou la manipulation au cours de l'année écoulée, mais nous sommes conscients que les modèles de synthèse texte-image pourraient devenir plus photoréalistes et poser certaines des difficultés mentionnées ci-dessus. Pour y remédier, nous mettons au point des systèmes de surveillance qui signalent les images photoréalistes à vérifier, des systèmes de traçabilité pour identifier si les images ont été produites par DALL·E 3, et nous envisageons de nouer des partenariats entre les plateformes de création et de diffusion de contenu pour résoudre ce problème efficacement.
• Nous accordons une attention croissante au problème de l'alignement entre les modèles de génération d'images et les systèmes de valeurs humaines, à mesure que nous développons cette technologie. Nous pensons que le travail remarquable effectué dans le domaine de la génération de texte peut nous apporter beaucoup d'enseignements et nous espérons utiliser certaines des techniques employées dans nos futurs modèles.
Droits d'auteur et marques déposées
Lorsqu'il est utilisé dans un contexte commercial, nous recommandons que les artefacts produits par DALL·E 3 soient examinés avec une attention accrue pour d'éventuelles considérations de droits d'auteur ou de marques déposées.
Comme avec d'autres outils créatifs, la nature des entrées de l'utilisateur influencera les sorties produites, et les images générées par des référents culturels populaires peuvent inclure des concepts, des personnages ou des designs qui peuvent impliquer des droits d'auteur ou des marques déposées de tiers.
Nous avons fait un effort pour atténuer ces résultats grâce à des solutions telles que la transformation et le refus de certaines entrées de texte, mais nous ne sommes pas en mesure d'anticiper toutes les permutations qui peuvent se produire.
Certains objets courants peuvent être fortement associés à du contenu de marque ou déposé, et peuvent donc être générés dans le cadre de la création d'une scène réaliste.
Source : conversation avec Bing, 21/10/2023
La couverture de mon prochain livre.
DALL·E 3 System Card
https://cdn.openai.com/papers/DALL_E_3_System_Card.pdf
DALL·E 3 is now available in ChatGPT Plus and Enterprise (openai.com)
https://openai.com/blog/dall-e-3-is-now-available-in-chatgpt-plus-and-enterprise
Improving Image Generation with Better Captions
https://cdn.openai.com/papers/dall-e-3.pdf
Voici une explication du texte en français :
- **Résumé** : Le texte est un résumé d'un article scientifique qui présente un nouveau système de génération d'images à partir de textes, appelé DALL-E 3. Il explique comment ce système améliore la capacité à suivre les instructions détaillées données par les textes, en utilisant des légendes d'images plus descriptives et synthétiques. Il compare également les performances de DALL-E 3 à celles d'autres systèmes similaires, et fournit des exemples et du code pour évaluer la qualité des images générées.
- **DALL-E 3** : C'est le nom du système de génération d'images à partir de textes développés par les auteurs de l'article. Il s'inspire de DALL-E¹, un système précédent créé par OpenAI, mais il utilise des légendes d'images plus descriptives et synthétiques pour entraîner le modèle. Il est également construit sur ChatGPT², un modèle de langage pré-entraîné qui permet d'utiliser le texte comme un partenaire de brainstorming et d'affiner les instructions pour DALL-E 3.
- **Légendes d'images** : Ce sont les textes qui décrivent le contenu des images. Les auteurs de l'article affirment que la qualité des légendes d'images dans les jeux de données existants est faible, ce qui limite la capacité des systèmes de génération d'images à suivre les instructions détaillées. Ils proposent donc de créer un système de légendassions d'images qui produit des descriptions plus précises, complètes et cohérentes des images, et de l'utiliser pour recréer les légendes des images du jeu de données. Ils montrent que cette méthode améliore la capacité des systèmes de génération d'images à suivre les instructions détaillées.
- **Évaluation** : C'est le processus qui permet de mesurer la qualité des images générées par les systèmes de génération d'images à partir de textes. Les auteurs de l'article proposent une évaluation qui mesure trois aspects : le respect des instructions (prompt following), la cohérence (coherence) et l'esthétique (aesthetics). Ils comparent les performances de DALL-E 3 à celles d'autres systèmes similaires, tels que DALL-E 2¹, Yu et al. (2022b)³ et Saharia et al. (2022). Ils trouvent que DALL-E 3 se compare favorablement aux concurrents. Ils publient également des exemples et du code pour ces évaluations, afin que les futurs chercheurs puissent continuer à optimiser cet aspect important des systèmes de génération d'images à partir de textes.
Source : conversation avec Bing, 21/10/2023
(1) DALL·E 3 - OpenAI. https://openai.com/dall-e-3
(2) Image Creator from Microsoft Bing. https://www.bing.com/images/create
(3) Dall-E 3 For Free Online-Dalle 3:Highly Detailed Image Generator. https://www.dalle3.org/
DALL·E 3 (openai.com)
DALL·E 3 est désormais disponible pour tous les utilisateurs de ChatGPT Plus et Enterprise, et sera disponible via l'API et dans Labs plus tard cet automne.
Les systèmes modernes de conversion texte-image ont tendance à ignorer les mots ou les descriptions, obligeant les utilisateurs à apprendre l'ingénierie rapide. DALL·E 3 représente un pas en avant dans notre capacité à générer des images qui adhèrent exactement au texte que vous fournissez.
DALL·E 3 avec ChatGPT
- **ChatGPT** : C'est un modèle d'intelligence artificielle qui interagit de manière conversationnelle. Il utilise le texte comme un partenaire de brainstorming et permet d'affiner les instructions pour DALL·E 3. Il est entraîné par OpenAI à partir d'un grand nombre de conversations humaines.
- **DALL·E 3** : C'est un système avancé de génération d'images à partir de textes, également développé par OpenAI. Il comprend plus de nuances et de détails que les systèmes précédents, et permet de traduire facilement les idées en images très précises. Il s'appuie sur ChatGPT pour générer des images qui respectent exactement le texte fourni.
- **Disponibilité** : DALL·E 3 est actuellement en phase de recherche, et sera disponible pour les clients ChatGPT Plus et Enterprise en octobre, via l'API et dans Labs plus tard cet automne. Les images créées avec DALL·E 3 appartiennent aux utilisateurs et ils n'ont pas besoin de la permission d'OpenAI pour les réimprimer, les vendre ou les commercialiser.
- **Sécurité** : DALL·E 3 a des mesures pour limiter sa capacité à générer du contenu violent, adulte ou haineux. Il refuse également les demandes qui demandent une image dans le style d'un artiste vivant ou qui mentionnent une personnalité publique par son nom. Les créateurs peuvent également exclure leurs images de l'entraînement des futurs modèles de génération d'images.
(1) Introducing ChatGPT - OpenAI. https://openai.com/blog/chatgpt/
(2) ChatGPT - OpenAI. https://openai.com/chatgpt
(3) ChatGPT - AI Chat Online. https://chatgpt.org/?ref=rorycallaghan.com
(4) ChatGPT (Gratuit) : l'agent conversationnel par intelligence .... https://www.clubic.com/telecharger-fiche440667-chatgpt.html
(5) DALL·E 3 - OpenAI. https://openai.com/dall-e-3
(6) Image Creator from Microsoft Bing.https://www.bing.com/images/create
(7) Dall-E 3 For Free Online-Dalle 3: Highly Detailed Image Generator. https://www.dalle3.org/
Les cas d'utilisation de ChatGPT vision sont nombreux en ce qui concerne l'image.
Ce cas-ci est un peu particulier mais offre une série d'utilisation assez originale
🔹insérer un filigrane dans une image (actif dans Photoshop - Watermark).
🔹insérer un logo ou votre marque
🔹permettre la traçabilité
🔹intégrer les droits d'auteurs
https://www.chatgpt-vision.com/
https://openai.com/blog/chatgpt-can-now-see-hear-and-speak?ref=www.chatgpt-vision.com
ChatGPT peut désormais voir, entendre et parler
Nous commençons à déployer de nouvelles fonctionnalités vocales et image dans ChatGPT.
Ils offrent un nouveau type d'interface plus intuitif en vous permettant d'avoir une conversation vocale ou de montrer à ChatGPT de quoi vous parlez.
ChatGPT Vision est une nouvelle fonctionnalité développée par OpenAI qui permet aux utilisateurs d'interagir avec ChatGPT via des images, permettant une communication plus complète et contextuelle.
Voici quelques-uns des avantages de ChatGPT Vision : - Expérience utilisateur améliorée : les chatbots alimentés par ChatGPT Vision peuvent fournir des réponses de type humain aux requêtes des utilisateurs, permettant aux entreprises d'automatiser le service client et d'améliorer l'expérience utilisateur globale.
D'autres utilisations incluent la production et la conservation d'informations pertinentes pour les exercices académiques, les requêtes générales et même les recherches scientifiques. - Efficacité accrue : ChatGPT Vision peut contribuer à accroître l'efficacité en automatisant les conversations.
Cela permet d’économiser du temps et des ressources, car cela élimine le besoin de conversations manuelles.
De plus, ChatGPT Vision peut générer des réponses rapidement, permettant des conversations plus rapides.
- Capacités multimodales : Avec l'incorporation d'un modèle de vision, ChatGPT Vision représente une avancée significative dans les capacités multimodales développées par OpenAI. Cela permet aux utilisateurs d'interagir avec ChatGPT via des images, permettant une communication plus complète et contextuelle¹.
- Modélisation GPT avancée : avec GPT-3, OpenAI prédit la langue et son utilisation à l'aide de relations autorégressives. L'un des systèmes d'IA les plus importants jamais conçus, c'est le plus grand modèle de langage non clairsemé jamais conçu.
- Fonctionnalités innovantes : ChatGPT Vision possède plusieurs fonctionnalités innovantes qui le distinguent des autres chatbots. Par exemple, il peut reconnaître différents types d'objets dans une image et fournir des informations pertinentes à leur sujet. J'espère que ça aide!
Source : conversation avec Bing, 20/10/2023
(1) ChatGPT Vision disponible en France : 11 cas d'usage à découvrir - JDN. https://www.journaldunet.com/intelligence-artificielle/1525569-chatgpt-vision-disponible-en-france-11-cas-d-usage-a-decouvrir/.
(2) Les avantages et les défis de ChatGPT : un aperçu -ResearchGate. https://www.researchgate.net/publication/367106604_The_Benefits_and_Challenges_of_ChatGPT_An_Overview/fulltext/63c15d66e922c50e9990ea84/The-Benefits-and-Challenges-of-ChatGPT-An-Overview.pdf.
(3) Vision GPT : 5 façons uniques d'utiliser la fonctionnalité de vision ChatGPT. https://interestingengineering.com/culture/5-unique-ways-chatgpt-image-recognition.
(4) 7 façons d'utiliser le mode Vision ChatGPT - Geeky Gadgets.
https://www.geeky-gadgets.com/7-ways-to-use-chatgpt-vision-mode/.
Contrôles créatifs DALL·E 3
Il est conçu pour décliner les demandes qui demandent une image à la manière d'un artiste vivant. Nous offrons également aux créateurs la possibilité de retirer leurs images de la formation de nos futurs modèles de génération d'images.
https://share.hsforms.com/1_OuT5tfFSpic89PqN6r1CQ4sk30
Les modèles d'IA apprennent à partir d'une large gamme d'informations, y compris des images et du texte disponibles publiquement. Les modèles "apprennent" les concepts de manière similaire à celle des personnes.
Par exemple, après avoir vu suffisamment de photos d'un chat, un modèle d'image peut dessiner un chat complètement nouveau qui n'était pas dans ses images d'entraînement, de manière similaire à la façon dont une personne pourrait apprendre à dessiner un chat. Après que les modèles d'IA ont appris à partir de leurs données d'entraînement, ils n'ont plus accès aux données. Les modèles ne conservent que les concepts qu'ils ont appris.
Lorsque quelqu'un fait une demande à un modèle, le modèle génère une sortie en fonction de sa compréhension des concepts inclus dans la demande. Il ne recherche ni ne copie le contenu d'une base de données existante. Nous comprenons que certains propriétaires de contenu ne souhaitent pas que leurs œuvres disponibles publiquement soient utilisées pour aider à enseigner nos modèles. La manière la plus efficace est d'interdire à "GPTBot" (un robot d'exploration Web qui collecte des données d'entraînement à partir de sources Internet disponibles publiquement) d'accéder à votre site en suivant les instructions ici.
Vous pouvez également nous envoyer des images du contenu que vous possédez et que vous souhaitez supprimer de nos données d'entraînement en remplissant le formulaire ci-dessous. Lorsque vous aurez rempli ce formulaire, nous examinerons votre demande et pourrions vous contacter pour obtenir des informations supplémentaires.
Une fois vos informations vérifiées, nous supprimerons les images respectives des ensembles de données d'entraînement futurs. Veuillez noter que nous obtenons également des licences pour des ensembles de données qui peuvent inclure votre image spécifique si vous avez autorisé des tiers à accorder une licence pour votre image à d'autres, donc la soumission de ce formulaire peut ne pas supprimer ces images spécifiques de nos données d'entraînement.
Si vous avez un grand nombre d'images provenant d'URL spécifiques, il peut être plus efficace pour vous d'ajouter GPTBot* aux protocoles robots.txt de votre site plutôt que de remplir ce formulaire.
GPTBot* est un robot d'indexation utilisé par OpenAI pour collecter des données d'entraînement à partir de sources Internet accessibles au public.
Il est utilisé pour explorer le web, consommer des connaissances pour ses fonctionnalités d'IA (par exemple, ChatGPT) et fournir des réponses générées par l'IA aux questions (ou aux requêtes).
Il peut être identifié par le jeton d'utilisateur "GPTBot" et la chaîne d'utilisateur complète "Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; GPTBot/1.0; +"
Source : conversation avec Bing, 21/10/2023
(1) GPTBot: OpenAI releases new web crawler - Search Engine Land. https://searchengineland.com/gptbot-openais-new-web-crawler-430360
(2) GPTBot - OpenAI API - platform.openai.com. https://platform.openai.com/docs/gptbot
(3) GPTBots. https://www.gptbots.ai/
(4) Sites scramble to block ChatGPT web crawler after instructions emerge. https://arstechnica.com/information-technology/2023/08/openai-details-how-to-keep-chatgpt-from-gobbling-up-website-data/
(5) Introducing ChatGPT - OpenAI. https://openai.com/blog/chatgpt/
(6) undefined. https://openai.com/gptbot%29
P. Erol GIRAUDY.
Aucun commentaire:
Enregistrer un commentaire