Affichage des articles dont le libellé est OpenAI. Afficher tous les articles
Affichage des articles dont le libellé est OpenAI. Afficher tous les articles

lundi 21 octobre 2024

L’application ChatGPT est DISPONIBLE sur Windows ! (Tuto complet)

ChatGPT (Early Version for Plus, Team, Enterprise, and Edu).


L'application ChatGPT : https://openai.com/chatgpt/download/


OpenAI a annoncé le lancement en avant-première de l'application ChatGPT dédiée pour Windows. Actuellement accessible aux utilisateurs de ChatGPT Plus, Team, Enterprise, et Edu, cette version préliminaire précède une version complète prévue plus tard dans l'année. L'application permet aux utilisateurs de discuter autour de fichiers et de photos, tout en offrant les dernières améliorations du modèle OpenAI, incluant l'accès à OpenAI o1-preview. Bien que compatible avec la plupart des appareils Windows 10, certaines fonctionnalités, comme le mode vocal avancé et certaines intégrations du GPT Store, ne sont pas encore disponibles.


Chapitres de la vidéo :


0:00 Introduction
0:41 L'annonce d'OpenAI
1:49 Les fonctionnalités
2:37 Les avantages de l'application
3:16 Les inconvénients de l'application
3:48 Comment installer l'application ChatGPT ?
4:49 Prise en main de l'application
6:21 L'application qui va vous faire gagner du temps
7:06 Démonstrations de l'application
13:01 Conclusion

Sources de la vidéo : 


Article de Tech Crunch : ChatGPT comes to Windows | TechCrunch

Voici un résumé des 5 points en français :


1. **Introduction de l'application ChatGPT pour Windows (00:00 - 01:21) :**
   - ChatGPT est désormais disponible en tant qu'application sur Windows, lancée le 17 octobre.
   - Accessible d'abord aux abonnés ChatGPT Plus, Entreprise, Team, et EDU.
   - L'application propose un raccourci (Alt + Espace) pour un accès rapide.

2. **Fonctionnalités clés et avantages (01:21 - 02:36) :**
   - L'application permet un accès plus rapide par rapport à la version navigateur.
   - Une petite fenêtre pop-up permet des interactions rapides sans ouvrir l'interface complète.
   - Elle devrait être accessible à tous les utilisateurs d'ici la fin de l'année.

3. **Instructions pour l'installation (03:28 - 04:57) :**
   - Il faut se rendre sur le site d’OpenAI, télécharger l'application pour Windows et se connecter via un navigateur.
   - L'application peut être épinglée à la barre des tâches pour un accès plus facile.

4. **Cas d'utilisation et limites (06:18 - 10:28) :**
   - L'application est utile pour poser des questions rapides, résumer des articles, résoudre des problèmes et s'intégrer avec des outils de développement.
   - Elle présente toutefois des limites, comme l'absence de commandes vocales avancées, le partage d'écran en temps réel et certaines fonctions comme "Ctrl + F".

5. **Potentiel futur et conclusion (13:11 - 14:00) :**
   - Une mise à jour pourrait permettre à ChatGPT d’interagir en temps réel avec les écrans des utilisateurs, ce qui améliorerait grandement la productivité.
   - L'auteur propose une formation gratuite pour utiliser l’IA et invite à s’abonner pour plus de contenu.

Get ChatGPT on mobile or desktop.


Download ChatGPT | OpenAI


ChatGPT (Early Version for Plus, Team, Enterprise, and Edu)




samedi 19 octobre 2024

NVIDIA a créé une IA Nemotron 70b


NVIDIA a créé une IA qui SURPASSE ChatGPT ?! (Nemotron 70b)


Dans cette vidéo, on plonge dans l'univers de Nemotron, un modèle de langage open source développé par Nvidia et basé sur LLAMA 3.1 de Meta. Avec ses 70 milliards de paramètres, Nemotron se distingue par une performance impressionnante, notamment grâce à l'apprentissage par renforcement à partir du feedback humain (RLHF). 

Ce modèle est conçu pour des tâches complexes comme le raisonnement mathématique ou la modération de contenu, tout en restant plus économe en ressources que des modèles comme GPT-4. 
Découvrez pourquoi Nemotron est un acteur clé dans l'évolution des modèles d'intelligence artificielle.

Chapitres de la vidéo : 

0:00 Introduction
0:59 Présentation de Nemotron 70b
2:33 Les performances de ce modèle
4:10 Pourquoi ce modèle est si bon ? 
5:07 Les 3 avantages de cette méthode
5:41 Comment tester Nemotron 70b ?
6:27 Test et comparaison de ce modèle
14:21 Conclusion

Sources de la vidéo : 


(37) NVIDIA a créé une IA qui SURPASSE ChatGPT ?! (Nemotron 70b) - YouTube :


nvidia/Llama-3.1-Nemotron-70B-Reward-HF · Hugging Face :



Llama-3.1-Nemotron-70B-Reward est un grand modèle de langage personnalisé développé par NVIDIA pour prédire la qualité des réponses générées par LLM. Plus précisément, il a été entraîné à l’aide d’une base Llama-3.1-70B-Instruct sur une nouvelle approche combinant la force de Bradley Terry et la modélisation de récompense de régression SteerLM.

Étant donné une conversation en anglais avec plusieurs tours entre l’utilisateur et l’assistant (jusqu’à 4 096 jetons), il évalue la qualité du tour final de l’assistant à l’aide d’un score de récompense.

Pour la même invite, une réponse avec un score de récompense plus élevé a une qualité supérieure à une autre réponse avec un score de récompense inférieur, mais on ne peut pas en dire autant lorsque l’on compare les scores entre les réponses à différentes invites.

Llama-3.1-Nemotron-70B-Reward-HF a été converti à partir de Llama-3.1-Nemotron-70B-Reward pour le soutenir dans la base de code de HuggingFace Transformers. Veuillez noter que les résultats de l’évaluation peuvent être légèrement différents de ceux du Lama-3.1-Nemotron-70B-Reward tel qu’évalué dans NeMo-Aligner, sur lequel les résultats d’évaluation ci-dessous sont basés.

Essayez gratuitement l’inférence hébergée chez build.nvidia.com - elle est livrée avec une interface API compatible OpenAI et le simple fait de vous inscrire vous permet d’obtenir 100k appels API gratuits vers ce modèle.

En utilisant ce modèle de récompense pour RLHF (plus précisément, REINFORCE), nous avons pu régler un modèle Llama-3.1-70B-Instruct pour atteindre AlpacaEval 2 LC de 57,6, Arena Hard de 85,0 et GPT-4-Turbo MT-Bench de 8,98, qui sont connus pour être prédictifs de LMSys Chatbot Arena Elo Ce modèle Instruct est disponible chez Llama-3.1-Nemotron-70B-Instruct en tant que modèle .nemo et Llama-3.1-Nemotron-70B-Instruct-HF en tant que modèle HF Transformers.

Au 1er octobre 2024, ce modèle est #1 sur les trois benchmarks d’alignement automatique, devançant les modèles de frontière forts tels que GPT-4o et Claude 3.5 Sonnet.

Voir les détails sur notre article à https://arxiv.org/abs/2410.01257 - en guise d’aperçu, ce modèle peut corriger la question sans incitation spécialisée ni jetons de raisonnement supplémentaires....

llama-3_1-nemotron-70b-instruct | NVIDIA NIM :




Nvidia Releases Nemotron 70B Model; Claims to Beat GPT-4o and Claude 3.5 Sonnet | Beebom :



En dehors de cela, Nvidia affirme que Llama 3.1 Nemotron 70B peut répondre correctement à la question de la fraise (combien de r dans fraise ?) qui a déconcerté tant de LLM. 

Voir les détails sur notre article à https://arxiv.org/abs/2410.01257 - en guise d’aperçu, ce modèle peut corriger la question sans incitation spécialisée ni jetons de raisonnement supplémentaires :How many r in strawberry?

[2410.01257] HelpSteer2-Preference: Complementing Ratings with Preferences


$ ollama run nemotron
>>> How many r in strawberry?
A sweet question!

Let's count the "R"s in "strawberry":

1. S
2. T
3. R
4. A
5. W
6. B
7. E
8. R
9. R
10. Y

There are **3** "R"s in the word "strawberry".

Il n’utilise pas de jetons de raisonnement supplémentaires comme les modèles OpenAI o1 ou ne tire pas parti d’invites spécialisées pour obtenir la bonne réponse. 

Lors de mes brefs tests, le modèle s’est trompé du premier coup. Cependant, lorsque j’ai posé à nouveau la même question, elle a correctement répondu aux 3 R.

3 R dans Strawberry.

GitHub - NVIDIA/NeMo: A scalable generative AI framework built for researchers and developers working on Large Language Models, Multimodal, and Speech AI (Automatic Speech Recognition and Text-to-Speech) :

https://github.com/NVIDIA/NeMo


Quickstart with NeMo-Run — NVIDIA NeMo Framework User Guide latest documentation :



library  nemotron :

Llama-3.1-Nemotron-70B-Instruct est un grand modèle de langage personnalisé par NVIDIA pour améliorer l’utilité des réponses générées par LLM aux requêtes des utilisateurs.


Nemotron-Mini :

C'est petit modèle de langage de NVIDIA optimisé pour le jeu de rôle, l’assurance qualité RAG et l’appel de fonctions.

Nemotron-Mini-4B-Instruct est un modèle de génération de réponses pour le jeu de rôle, la récupération, la génération augmentée et l’appel de fonctions. Il s’agit d’un modèle de petit langage (SLM) optimisé par distillation, élagage et quantification pour la vitesse et le déploiement sur l’appareil.

Ce modèle d’instruction est optimisé pour le jeu de rôle, l’assurance qualité RAG et l’appel de fonction en anglais. Il prend en charge une longueur de contexte de 4 096 jetons. Ce modèle est prêt pour un usage commercial.

Llama-3.1-Nemotron-70B


Llama-3.1-Nemotron-70B-Instruct est un grand modèle de langage personnalisé par NVIDIA pour améliorer l’utilité des réponses générées par LLM aux requêtes des utilisateurs.

Ce modèle a été entraîné à l’aide des invites RLHF (plus précisément, REINFORCE), Llama-3.1-Nemotron-70B-Reward et HelpSteer2-Preference sur un modèle Llama-3.1-70B-Instruct comme politique initiale.


nemotron:latest


Nom Digérer Modifié à Taille Actions

nemotron:latest 2262f...d589 a minute     40 GB


mistral:latest f974a...5091 7 days             3.8 GB


llava:latest 8dd30...d081 7 days             4.4 GB


mistral-small:latest d095c...88bc 8 days     12 GB


llama3.2:latest a80c4...8b72 9 days             1.9 GB


Performance du PC-AI. 

C:\Users\erolg>ollama list
NAME                    ID              SIZE      MODIFIED
nemotron-mini:latest    ed76ab18784f    2.7 GB    24 minutes ago
nemotron:latest         2262f047a28a    42 GB     36 minutes ago
mistral:latest          f974a74358d6    4.1 GB    6 days ago
llava:latest            8dd30f6b0cb1    4.7 GB    7 days ago
mistral-small:latest    d095cd553b04    12 GB     8 days ago
llama3.2:latest         a80c4f17acd5    2.0 GB    8 days ago

C:\Users\erolg>

Installation de Llama 3.2 sur un PC-AI sous Windows.


Installation de Nemotron 70b sur un PC-AI sous Windows, et son plan de gouvernance :



--- 

Pierre Erol GIRAUDY 

http://about.me/giraudyerol

https://guild4ai.ai/





lundi 13 mai 2024

OpenAI Spring Update


We’ll be streaming live at 10AM PT Monday, May 13 to demo some ChatGPT and GPT-4 updates.

PIERRE EROL GIRAUDY 






mercredi 7 février 2024

OpenAI ajoute de nouveaux filigranes à DALL-E 3.

 OpenAI a récemment annoncé l'intégration de nouveaux filigranes aux métadonnées des images générées par son générateur d'images DALL-E 3. Ces filigranes, conformes aux normes de la Coalition for Content Provenance and Authenticity (C2PA), visent à renforcer la confiance dans les informations numériques.

Ces filigranes seront visibles sous la forme d'un composant de métadonnées invisible ainsi que d'un symbole CR visible dans le coin supérieur gauche de chaque image. Les utilisateurs mobiles devraient recevoir ces filigranes d'ici le 12 février. Ils permettront aux utilisateurs de vérifier la provenance des images générées par les plates-formes OpenAI via des sites Web comme Content Credentials Verify.


L'intégration de ces filigranes représente un "effet négligeable sur la latence et n'affectera pas la qualité de la génération d'images", selon OpenAI. Cependant, cela pourrait légèrement augmenter la taille des images pour certaines tâches.

Cette initiative est soutenue par des entreprises telles qu'Adobe et Microsoft, membres de la C2PA, qui promeuvent l'utilisation du filigrane Content Credentials pour identifier la provenance du contenu, qu'il soit créé par des humains ou par l'IA. Bien que l'identification du contenu généré par l'IA soit une priorité pour certaines politiques, comme le décret de l'administration Biden sur l'IA, OpenAI souligne que les filigranes ne sont pas une solution infaillible contre la désinformation, car ils peuvent être facilement supprimés ou omis.

Malgré cela, OpenAI est convaincu que l'adoption de ces méthodes pour établir la provenance du contenu numérique est essentielle pour accroître sa fiabilité.

https://help.openai.com/en/articles/8912793-c2pa-in-dall-e-3

https://www.windowscentral.com/software-apps/dall-e-3-ai-generated-images-now-watermarked

Overview - C2PA

https://c2pa.org/ 

samedi 25 novembre 2023

OpenAI INSIDER Drops BOMBSHELL "AGI Achieved"


OpenAI et Q.

Q*, un modèle dotés de capacités mathématiques avancées d'#OpenAI.

Une querelle interne sur les méthodes pour atteindre l'#AGI ?

Lire la petite synthèse en fin de cet article.

Plus tôt cette semaine, une source interne de l'entreprise nous a confirmé l'existence d'un projet visant à atteindre l'AGI au sein d'OpenAI. En réalité, la start-up aurait travaillé sur deux modèles d'IA adverses pour atteindre l'AGI : A-bit pour l'optimisation de l'utilité, et B-bit pour l'alignement avec les valeurs humaines. Ilya Sutskever, chef de la section scientifique chez OpenAI, était mécontent des progrès insuffisants sur le modèle B-bit (aligné sur les valeurs humaines) et l'aurait signalé à plusieurs reprises lors de la dernière réunion générale.
Le projet controversé, nommé "Q*" et jusqu'alors tenu secret, serait considéré par certains chez OpenAI comme une possible percée majeure vers l'"intelligence artificielle générale" (AGI), ont confirmé plusieurs sources à Reuters.
Grâce à des ressources informatiques conséquentes, ce nouveau modèle serait capable de résoudre certains problèmes mathématiques très complexes, suscitant un grand optimisme parmi les chercheurs quant à son potentiel futur. La lettre pointait également les capacités et les dangers potentiels de l'IA pour l'humanité, sans pour autant préciser la nature exacte des risques pour la sécurité. La conquête des mathématiques étant perçue comme une frontière clé du développement de l'IA générative, la capacité de Q* à résoudre certains problèmes mathématiques laisserait présager de futures capacités de raisonnement se rapprochant de l'intelligence humaine.
OpenAI a reconnu, dans une communication interne, l'existence du projet Q* et de la missive adressée au conseil avant l'éviction de Sam Altman.
Or, Ilya Sutskever également membre du board aurait voté pour l'éviction de Sam Altman à la tête de l'entreprise.
Officiellement, le conseil d'administration d'OpenAI s'inquiétait du manque de transparence de Sam Altman dans sa communication et ses plans à long terme.
Reste à voir si Sam Altman, revenu à la tête d'OpenAI, en dira plus sur le sujet.


Petite synthèse :

  1. OpenAI réalise une percée majeure dans l'AGI :Selon des sources anonymes, OpenAI aurait réalisé une avancée majeure dans l'intelligence artificielle générale (IAG). Cette percée a conduit au renvoi de Sam Altman, PDG d'OpenAI, qui avait fait allusion à une avancée technique récente lors du sommet des PDG. Des préoccupations ont été soulevées en interne concernant l'absence de mesures de protection pour la commercialisation de modèles d'IA avancés, en particulier un projet appelé "qar" ou Q.
  2. Elon Musk exprime des inquiétudes :Elon Musk, une figure importante dans le domaine de l'IA, a exprimé des inquiétudes quant à la percée de l'AGI par OpenAI, soulignant son impact potentiel sur l'humanité. Musk a partagé un article sur Twitter rapportant que les chercheurs d'OpenAI avaient averti le conseil d'une découverte puissante en matière d'IA.
  3. Projet Qar et Focalisation sur l'AGI :Les employés d'OpenAI pensaient que le projet qar pourrait être une percée dans la recherche de l'intelligence artificielle générale (IAG). OpenAI a recentré ses valeurs fondamentales sur l'AGI, s'engageant à construire une AGI sûre et bénéfique ayant un impact positif massif sur l'avenir de l'humanité.
  4. Évolutivité prévisible et GPT-4 :Le projet #GPT-4 d'OpenAI impliquait la construction d'une pile d'apprentissage profond avec une évolutivité prévisible, permettant la prédiction des capacités du modèle avant l'entraînement. Peter Welinder, ancien responsable de la recherche chez OpenAI, a souligné la capacité à prédire l'intelligence de GPT-4 avant l'entraînement comme un détail significatif.
  5. Réalisation de l'AGI en interne :Les déclarations d'un informateur d'OpenAI, Jimmy Apples, suggéraient que l'AGI avait été réalisée en interne par OpenAI en septembre 2023. Le PDG Sam Altman a ensuite confirmé la réalisation de l'AGI en interne, entraînant un changement de focalisation et de valeurs fondamentales d'OpenAI vers le développement de l'AGI.

  6. Open Ai's Q* (Q Star) Explained For Beginners - TheaiGrid

  7. •Le Q-learning est un type d'apprentissage par renforcement, qui est une méthode permettant d'apprendre aux ordinateurs à apprendre en les récompensant pour avoir pris de bonnes décisions et en les pénalisant parfois pour en avoir pris de mauvaises.

    • C'est comme dresser un animal de compagnie : si l'animal fait quelque chose de bien (comme s'asseoir sur commande), vous lui donnez une friandise ; si cela fait quelque chose de moins bon (comme mâcher vos chaussures), vous pourriez dire « non » ou l’ignorer.

    1. Environnement et agent : Dans Q-learning, vous disposez d'un "environnement" (comme un jeu vidéo ou un labyrinthe) et d'un "agent" (l'IA ou le programme informatique). qui doit apprendre à naviguer dans cet environnement.
    2. États et actions : l'environnement est composé de différents "états" (comme différentes positions ou scénarios dans un jeu), et l'agent a une variété d'"actions" peut prendre dans chaque état (comme se déplacer à gauche, à droite, sauter, etc.).
    3. La table Q : Le cœur du Q-learning est ce qu'on appelle une table Q. C'est comme un grand aide-mémoire qui indique à l'agent quelle action est la meilleure à entreprendre dans chaque état. Au début, ce tableau est rempli de suppositions car l'agent ne connaît pas encore l'environnement.
    4. Apprendre en faisant : L'agent commence à explorer l'environnement. Chaque fois qu’il entreprend une action dans un état, il reçoit un retour de l’environnement – ​​récompenses (points positifs) ou pénalités (points négatifs). Ces commentaires aident l'agent à mettre à jour la table Q, essentiellement en apprenant de l'expérience.
    5. Mise à jour de la table Q : La table Q est mise à jour à l'aide d'une formule qui prend en compte la récompense actuelle ainsi que les récompenses futures potentielles. De cette façon, l'agent apprend non seulement à maximiser les récompenses immédiates, mais aussi à considérer les conséquences à long terme de ses actions.
    6. L'objectif : Au fil du temps, avec suffisamment d'exploration et d'apprentissage, la table Q devient de plus en plus précise. L’agent devient meilleur dans sa capacité à prédire quelles actions produiront les récompenses les plus élevées dans différents états. Finalement, il peut naviguer dans l'environnement de manière très efficace.

    Pensez au Q-learning comme à un jeu vidéo complexe où, au fil du temps, vous apprenez les meilleurs mouvements et stratégies pour obtenir le meilleur score. Au début, vous ne connaissez peut-être pas les meilleures actions à entreprendre, mais à mesure que vous jouez de plus en plus, vous apprenez de vos expériences et vous vous améliorez dans le jeu. C’est ce que fait l’IA avec Q-learning : elle apprend de ses expériences pour prendre les meilleures décisions dans différents scénarios.

  8. Comparaison de « Gémeaux » et de Q*

    • Stratégie de prise de décision : les hypothétiques « Gémeaux » et Q* se concentreraient tous deux sur la prise des meilleures décisions possibles – « Gémeaux » en explorant différents chemins de conversation (recherche arborescente) et Q * grâce à l'apprentissage par renforcement et à l'adaptation.
    • Apprentissage et adaptation : Chaque système apprendrait de ses interactions. « Gémeaux » évaluerait différentes voies de réponse pour leur efficacité, tandis que Q* s'adapterait en fonction des récompenses et des commentaires.
    • Gestion de la complexité : Les deux approches devraient gérer la complexité et l'imprévisibilité du langage humain, ce qui nécessiterait des capacités avancées de compréhension et de génération.
------------------

Introduction à Q (Qstar) :*


La vidéo explore la percée Q* (Qstar) d'OpenAI, mettant l'accent sur son potentiel en tant que prochaine évolution dans les modèles linguistiques volumineux et l'intelligence artificielle.
Q* combine probablement des éléments de l'apprentissage Q, une technique d'apprentissage automatique utilisée dans l'apprentissage par renforcement, et de l'algorithme de recherche A*, en particulier issu de l'article de recherche AAR de 2019.
Simplification de l'apprentissage Q :

L'apprentissage Q est comparé à l'entraînement d'un robot super intelligent, où le 'Q' signifie la capacité de prendre des décisions et d'apprendre des expériences, similaire à la manière dont un joueur s'améliore dans un jeu vidéo au fil du temps.
La recherche AAR est expliquée comme une méthode pour trouver le chemin le plus court dans un labyrinthe, avec des applications en informatique et en intelligence artificielle pour résoudre divers problèmes.

Les six étapes de l'apprentissage Q :


L'apprentissage Q implique un agent dans un environnement, avec des états et des actions dictant les mouvements de l'agent.

La table Q agit comme une feuille de triche, guidant l'agent sur les meilleures actions pour chaque état.

L'apprentissage se produit lorsque l'agent explore l'environnement, reçoit des commentaires et met à jour la table Q en conséquence.

La table Q est continuellement mise à jour, en tenant compte à la fois des récompenses actuelles et futures potentielles, garantissant que les conséquences à long terme sont prises en compte dans la prise de décision.

Au fil du temps, avec l'exploration et l'apprentissage, la table Q devient plus précise, permettant à l'agent de naviguer efficacement dans l'environnement.

Comparaison avec les modèles linguistiques volumineux (LLMs) :


Q* est considéré comme une option future potentielle pour les grands modèles linguistiques en raison des limitations des LLMs.

Les LLMs présentent une dépendance aux données, nécessitant une quantité importante de données d'entraînement et ayant du mal à généraliser au-delà de leur ensemble d'entraînement.
Les LLMs ont des connaissances statiques et peuvent avoir du mal à comprendre des requêtes complexes ou spécifiques, ne pouvant pas mettre à jour leurs connaissances après l'entraînement.
Des problèmes de biais et d'équité peuvent survenir dans les LLMs en raison de données d'entraînement incomplètes ou biaisées.

Potentiel de Q et Comparaison avec les Modèles à Venir :*


Q* est présenté comme une solution pour surmonter les limitations des LLMs, offrant des processus de prise de décision plus efficaces et efficaces.

Une référence est faite à la sortie potentielle d'un modèle appelé Gemini, qui, s'il possède des capacités similaires à Q*, pourrait avoir un impact sur le domaine et être comparé à GPT-4.



P. Erol GIRAUDY


samedi 21 octobre 2023

DALL·E 3 est un système d'intelligence artificielle

DALL·E 3 et l'intelligence artificielle 

DALL·E 3 est un système d'intelligence artificielle qui prend une invite de texte en entrée et génère une nouvelle image en sortie. 

Voir en fin de cet article :  DALL·E 3 est conçu pour rejeter les demandes qui sollicitent une image dans le style d'un artiste vivant. Les créateurs ont également la possibilité d'empêcher leurs images d'être utilisées pour entraîner nos futurs modèles de génération d'images. Si vous disposez d'un grand nombre d'images provenant d'URL spécifiques, il peut être plus pratique pour vous d'utiliser GPTBot* dans les protocoles robots.txt de votre site plutôt que de remplir ce formulaire.



DALL·E 3 est une amélioration de DALL·E 2 qui produit des images de meilleure qualité et des sous-titres plus fidèles. Dans cette fiche système, nous expliquons comment nous avons préparé le lancement de DALL·E 3, en faisant appel à une équipe rouge d'experts externes, en évaluant les principaux risques et en mettant en place des mesures d'atténuation pour limiter les dangers potentiels du modèle et éviter les comportements indésirables. Nous décrivons ensuite quelques domaines clés qui nécessitent encore du travail. Notre but n'est pas d'être exhaustif, mais plutôt de montrer l'étendue et la profondeur du travail à accomplir.

• Nous n'avons pas observé d'abus à grande échelle de DALL·E 2 pour la désinformation ou la manipulation au cours de l'année écoulée, mais nous sommes conscients que les modèles de synthèse texte-image pourraient devenir plus photoréalistes et poser certaines des difficultés mentionnées ci-dessus. Pour y remédier, nous mettons au point des systèmes de surveillance qui signalent les images photoréalistes à vérifier, des systèmes de traçabilité pour identifier si les images ont été produites par DALL·E 3, et nous envisageons de nouer des partenariats entre les plateformes de création et de diffusion de contenu pour résoudre ce problème efficacement.

• Nous accordons une attention croissante au problème de l'alignement entre les modèles de génération d'images et les systèmes de valeurs humaines, à mesure que nous développons cette technologie. Nous pensons que le travail remarquable effectué dans le domaine de la génération de texte peut nous apporter beaucoup d'enseignements et nous espérons utiliser certaines des techniques employées dans nos futurs modèles.

Droits d'auteur et marques déposées

Lorsqu'il est utilisé dans un contexte commercial, nous recommandons que les artefacts produits par DALL·E 3 soient examinés avec une attention accrue pour d'éventuelles considérations de droits d'auteur ou de marques déposées. 

Comme avec d'autres outils créatifs, la nature des entrées de l'utilisateur influencera les sorties produites, et les images générées par des référents culturels populaires peuvent inclure des concepts, des personnages ou des designs qui peuvent impliquer des droits d'auteur ou des marques déposées de tiers. 

Nous avons fait un effort pour atténuer ces résultats grâce à des solutions telles que la transformation et le refus de certaines entrées de texte, mais nous ne sommes pas en mesure d'anticiper toutes les permutations qui peuvent se produire. 

Certains objets courants peuvent être fortement associés à du contenu de marque ou déposé, et peuvent donc être générés dans le cadre de la création d'une scène réaliste.

Source : conversation avec Bing, 21/10/2023

La couverture de mon prochain livre.


DALL·E 3 System Card

https://cdn.openai.com/papers/DALL_E_3_System_Card.pdf 

DALL·E 3 is now available in ChatGPT Plus and Enterprise (openai.com)

https://openai.com/blog/dall-e-3-is-now-available-in-chatgpt-plus-and-enterprise


Improving Image Generation with Better Captions

https://cdn.openai.com/papers/dall-e-3.pdf


Voici une explication du texte en français :

- **Résumé** : Le texte est un résumé d'un article scientifique qui présente un nouveau système de génération d'images à partir de textes, appelé DALL-E 3. Il explique comment ce système améliore la capacité à suivre les instructions détaillées données par les textes, en utilisant des légendes d'images plus descriptives et synthétiques. Il compare également les performances de DALL-E 3 à celles d'autres systèmes similaires, et fournit des exemples et du code pour évaluer la qualité des images générées.

- **DALL-E 3** : C'est le nom du système de génération d'images à partir de textes développés par les auteurs de l'article. Il s'inspire de DALL-E¹, un système précédent créé par OpenAI, mais il utilise des légendes d'images plus descriptives et synthétiques pour entraîner le modèle. Il est également construit sur ChatGPT², un modèle de langage pré-entraîné qui permet d'utiliser le texte comme un partenaire de brainstorming et d'affiner les instructions pour DALL-E 3.

- **Légendes d'images** : Ce sont les textes qui décrivent le contenu des images. Les auteurs de l'article affirment que la qualité des légendes d'images dans les jeux de données existants est faible, ce qui limite la capacité des systèmes de génération d'images à suivre les instructions détaillées. Ils proposent donc de créer un système de légendassions d'images qui produit des descriptions plus précises, complètes et cohérentes des images, et de l'utiliser pour recréer les légendes des images du jeu de données. Ils montrent que cette méthode améliore la capacité des systèmes de génération d'images à suivre les instructions détaillées.

- **Évaluation** : C'est le processus qui permet de mesurer la qualité des images générées par les systèmes de génération d'images à partir de textes. Les auteurs de l'article proposent une évaluation qui mesure trois aspects : le respect des instructions (prompt following), la cohérence (coherence) et l'esthétique (aesthetics). Ils comparent les performances de DALL-E 3 à celles d'autres systèmes similaires, tels que DALL-E 2¹, Yu et al. (2022b)³ et Saharia et al. (2022). Ils trouvent que DALL-E 3 se compare favorablement aux concurrents. Ils publient également des exemples et du code pour ces évaluations, afin que les futurs chercheurs puissent continuer à optimiser cet aspect important des systèmes de génération d'images à partir de textes.

Source : conversation avec Bing, 21/10/2023

(1) DALL·E 3 - OpenAI. https://openai.com/dall-e-3

(2) Image Creator from Microsoft Bing. https://www.bing.com/images/create

(3) Dall-E 3 For Free Online-Dalle 3:Highly Detailed Image Generator. https://www.dalle3.org/


DALL·E 3 (openai.com)

https://openai.com/dall-e-3

DALL·E 3 est désormais disponible pour tous les utilisateurs de ChatGPT Plus et Enterprise, et sera disponible via l'API et dans Labs plus tard cet automne.

Les systèmes modernes de conversion texte-image ont tendance à ignorer les mots ou les descriptions, obligeant les utilisateurs à apprendre l'ingénierie rapide. DALL·E 3 représente un pas en avant dans notre capacité à générer des images qui adhèrent exactement au texte que vous fournissez.

 DALL·E 3 avec ChatGPT

- **ChatGPT** : C'est un modèle d'intelligence artificielle qui interagit de manière conversationnelle. Il utilise le texte comme un partenaire de brainstorming et permet d'affiner les instructions pour DALL·E 3. Il est entraîné par OpenAI à partir d'un grand nombre de conversations humaines.

- **DALL·E 3** : C'est un système avancé de génération d'images à partir de textes, également développé par OpenAI. Il comprend plus de nuances et de détails que les systèmes précédents, et permet de traduire facilement les idées en images très précises. Il s'appuie sur ChatGPT pour générer des images qui respectent exactement le texte fourni.

- **Disponibilité** : DALL·E 3 est actuellement en phase de recherche, et sera disponible pour les clients ChatGPT Plus et Enterprise en octobre, via l'API et dans Labs plus tard cet automne. Les images créées avec DALL·E 3 appartiennent aux utilisateurs et ils n'ont pas besoin de la permission d'OpenAI pour les réimprimer, les vendre ou les commercialiser.

- **Sécurité** : DALL·E 3 a des mesures pour limiter sa capacité à générer du contenu violent, adulte ou haineux. Il refuse également les demandes qui demandent une image dans le style d'un artiste vivant ou qui mentionnent une personnalité publique par son nom. Les créateurs peuvent également exclure leurs images de l'entraînement des futurs modèles de génération d'images.

(1) Introducing ChatGPT - OpenAI. https://openai.com/blog/chatgpt/

(2) ChatGPT - OpenAI. https://openai.com/chatgpt

(3) ChatGPT - AI Chat Online. https://chatgpt.org/?ref=rorycallaghan.com

(4) ChatGPT (Gratuit) : l'agent conversationnel par intelligence .... https://www.clubic.com/telecharger-fiche440667-chatgpt.html

(5) DALL·E 3 - OpenAI. https://openai.com/dall-e-3

(6) Image Creator from Microsoft Bing.https://www.bing.com/images/create

(7) Dall-E 3 For Free Online-Dalle 3: Highly Detailed Image Generator. https://www.dalle3.org/

https://openai.com/safety.

 

Les cas d'utilisation de ChatGPT vision sont nombreux en ce qui concerne l'image.

Ce cas-ci est un peu particulier mais offre une série d'utilisation assez originale

🔹insérer un filigrane dans une image (actif dans Photoshop - Watermark).

🔹insérer un logo ou votre marque

🔹permettre la traçabilité

🔹intégrer les droits d'auteurs 

https://www.chatgpt-vision.com/

https://openai.com/blog/chatgpt-can-now-see-hear-and-speak?ref=www.chatgpt-vision.com


ChatGPT peut désormais voir, entendre et parler 

Nous commençons à déployer de nouvelles fonctionnalités vocales et image dans ChatGPT.

Ils offrent un nouveau type d'interface plus intuitif en vous permettant d'avoir une conversation vocale ou de montrer à ChatGPT de quoi vous parlez.

ChatGPT Vision est une nouvelle fonctionnalité développée par OpenAI qui permet aux utilisateurs d'interagir avec ChatGPT via des images, permettant une communication plus complète et contextuelle.

Voici quelques-uns des avantages de ChatGPT Vision : - Expérience utilisateur améliorée : les chatbots alimentés par ChatGPT Vision peuvent fournir des réponses de type humain aux requêtes des utilisateurs, permettant aux entreprises d'automatiser le service client et d'améliorer l'expérience utilisateur globale.

D'autres utilisations incluent la production et la conservation d'informations pertinentes pour les exercices académiques, les requêtes générales et même les recherches scientifiques. - Efficacité accrue : ChatGPT Vision peut contribuer à accroître l'efficacité en automatisant les conversations.

Cela permet d’économiser du temps et des ressources, car cela élimine le besoin de conversations manuelles. 

De plus, ChatGPT Vision peut générer des réponses rapidement, permettant des conversations plus rapides. 

- Capacités multimodales : Avec l'incorporation d'un modèle de vision, ChatGPT Vision représente une avancée significative dans les capacités multimodales développées par OpenAI. Cela permet aux utilisateurs d'interagir avec ChatGPT via des images, permettant une communication plus complète et contextuelle¹. 

- Modélisation GPT avancée : avec GPT-3, OpenAI prédit la langue et son utilisation à l'aide de relations autorégressives. L'un des systèmes d'IA les plus importants jamais conçus, c'est le plus grand modèle de langage non clairsemé jamais conçu. 

- Fonctionnalités innovantes : ChatGPT Vision possède plusieurs fonctionnalités innovantes qui le distinguent des autres chatbots. Par exemple, il peut reconnaître différents types d'objets dans une image et fournir des informations pertinentes à leur sujet. J'espère que ça aide! 

Source : conversation avec Bing, 20/10/2023 

(1) ChatGPT Vision disponible en France : 11 cas d'usage à découvrir - JDN. https://www.journaldunet.com/intelligence-artificielle/1525569-chatgpt-vision-disponible-en-france-11-cas-d-usage-a-decouvrir/

(2) Les avantages et les défis de ChatGPT : un aperçu -ResearchGate. https://www.researchgate.net/publication/367106604_The_Benefits_and_Challenges_of_ChatGPT_An_Overview/fulltext/63c15d66e922c50e9990ea84/The-Benefits-and-Challenges-of-ChatGPT-An-Overview.pdf

(3) Vision GPT : 5 façons uniques d'utiliser la fonctionnalité de vision ChatGPT. https://interestingengineering.com/culture/5-unique-ways-chatgpt-image-recognition

(4) 7 façons d'utiliser le mode Vision ChatGPT - Geeky Gadgets. 

https://www.geeky-gadgets.com/7-ways-to-use-chatgpt-vision-mode/.


Contrôles créatifs DALL·E 3 

Il est conçu pour décliner les demandes qui demandent une image à la manière d'un artiste vivant. Nous offrons également aux créateurs la possibilité de retirer leurs images de la formation de nos futurs modèles de génération d'images. 

Form (hsforms.com)

https://share.hsforms.com/1_OuT5tfFSpic89PqN6r1CQ4sk30

Les modèles d'IA apprennent à partir d'une large gamme d'informations, y compris des images et du texte disponibles publiquement. Les modèles "apprennent" les concepts de manière similaire à celle des personnes. 

Par exemple, après avoir vu suffisamment de photos d'un chat, un modèle d'image peut dessiner un chat complètement nouveau qui n'était pas dans ses images d'entraînement, de manière similaire à la façon dont une personne pourrait apprendre à dessiner un chat. Après que les modèles d'IA ont appris à partir de leurs données d'entraînement, ils n'ont plus accès aux données. Les modèles ne conservent que les concepts qu'ils ont appris. 

Lorsque quelqu'un fait une demande à un modèle, le modèle génère une sortie en fonction de sa compréhension des concepts inclus dans la demande. Il ne recherche ni ne copie le contenu d'une base de données existante. Nous comprenons que certains propriétaires de contenu ne souhaitent pas que leurs œuvres disponibles publiquement soient utilisées pour aider à enseigner nos modèles. La manière la plus efficace est d'interdire à "GPTBot" (un robot d'exploration Web qui collecte des données d'entraînement à partir de sources Internet disponibles publiquement) d'accéder à votre site en suivant les instructions ici. 

Vous pouvez également nous envoyer des images du contenu que vous possédez et que vous souhaitez supprimer de nos données d'entraînement en remplissant le formulaire ci-dessous. Lorsque vous aurez rempli ce formulaire, nous examinerons votre demande et pourrions vous contacter pour obtenir des informations supplémentaires. 

Une fois vos informations vérifiées, nous supprimerons les images respectives des ensembles de données d'entraînement futurs. Veuillez noter que nous obtenons également des licences pour des ensembles de données qui peuvent inclure votre image spécifique si vous avez autorisé des tiers à accorder une licence pour votre image à d'autres, donc la soumission de ce formulaire peut ne pas supprimer ces images spécifiques de nos données d'entraînement. 


Si vous avez un grand nombre d'images provenant d'URL spécifiques, il peut être plus efficace pour vous d'ajouter GPTBot* aux protocoles robots.txt de votre site plutôt que de remplir ce formulaire.

GPTBot* est un robot d'indexation utilisé par OpenAI pour collecter des données d'entraînement à partir de sources Internet accessibles au public. 

Il est utilisé pour explorer le web, consommer des connaissances pour ses fonctionnalités d'IA (par exemple, ChatGPT) et fournir des réponses générées par l'IA aux questions (ou aux requêtes). 

Il peut être identifié par le jeton d'utilisateur "GPTBot" et la chaîne d'utilisateur complète "Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; GPTBot/1.0; +"

Source : conversation avec Bing, 21/10/2023

(1) GPTBot: OpenAI releases new web crawler - Search Engine Land. https://searchengineland.com/gptbot-openais-new-web-crawler-430360

(2) GPTBot - OpenAI API - platform.openai.com. https://platform.openai.com/docs/gptbot

(3) GPTBots. https://www.gptbots.ai/

(4) Sites scramble to block ChatGPT web crawler after instructions emerge. https://arstechnica.com/information-technology/2023/08/openai-details-how-to-keep-chatgpt-from-gobbling-up-website-data/

(5) Introducing ChatGPT - OpenAI. https://openai.com/blog/chatgpt/

(6) undefined. https://openai.com/gptbot%29

P. Erol GIRAUDY.



Cette Mise à Jour de Claude est EXCELLENTE ! (Styles Personnalisés)

Customize your styles Cette Mise à Jour de Claude est EXCELLENTE ! (Styles Personnalisés) Claude a récemment eu une mise à j...