J'ai fait une série sur ces sujet sur mes blogs RSE et UGAIA + Gouvernance :
https://larselesrse.blogspot.com/search/label/Ethique?m=0
Certains articles sont sur Guil4AI et des PowerPoint
Voir aussi ce lien vers le jeu :
http://larselesrse.blogspot.com/2024/11/pourquoi-ne-pas-jouer-avec-lia-et.html
De plus Microsoft a fait un programme de formation gratuit sur l'éthique je vais publier un article sur celle-ci...
Les fondamentaux d’une IA générative responsable et éthique...
Processus d’implantation d'une IA générative responsable
Identifier les dommages potentiels
La première phase d’un processus d’IA générative responsable consiste à identifier les dommages potentiels susceptibles d’affecter votre solution planifiée. Cette phase comprend quatre étapes, comme indiqué ici :
1 : Identifier les dommages potentiels
Les dommages potentiels associés à votre solution d’IA générative dépendent de plusieurs facteurs, notamment des services et modèles spécifiques utilisés pour générer la sortie ainsi que des données de réglage ou d’ancrage utilisées pour personnaliser les sorties. Voici quelques types de dommages potentiels couramment associés à une solution d’IA générative :Pour bien comprendre les limitations connues et le comportement des services et des modèles de votre solution, consultez la documentation disponible. Par exemple, Azure OpenAI Service inclut une note de transparence que vous pouvez utiliser pour comprendre les considérations spécifiques relatives au service et aux modèles inclus. Par ailleurs, les développeurs de modèles individuels peuvent fournir une documentation semblable à cette carte système OpenAI pour le modèle GPT-4.
2 : Hiérarchiser les dommages
Pour chaque dommage potentiel identifié, évaluez la probabilité qu’il se produise et le niveau d’impact qui en résulte le cas échéant. Utilisez ensuite ces informations pour hiérarchiser les dommages, en listant en premier ceux qui ont le plus de chance de se produire et le plus fort impact. Cette hiérarchisation vous permettra de vous concentrer sur la recherche et l’atténuation des risques les plus dangereux dans votre solution. La hiérarchisation, qui peut être subjective, doit tenir compte de l’utilisation prévue de la solution ainsi que du risque d’utilisation abusive. Par exemple, supposons que vous développiez un copilote pour cuisine intelligente qui aide les chefs et cuisiniers amateurs à réaliser des recettes. Parmi les dommages potentiels, citons les suivants : La solution fournit des temps de cuisson inexacts, ce qui se traduit par des aliments insuffisamment cuits pouvant causer des maladies.3 : Tester et vérifier la présence de dommages
Maintenant que vous disposez d’une liste hiérarchisée, vous pouvez tester votre solution pour vérifier si les dommages se produisent et, le cas échéant, dans quelles conditions. Si vos tests révèlent des dommages non encore identifiés, ajoutez-les à la liste. Une approche courante pour tester les dommages potentiels ou les vulnérabilités dans une solution logicielle consiste à faire appel à une « équipe rouge ». Cette équipe de testeurs met délibérément à l’épreuve la solution pour identifier ses faiblesses et tente de produire des résultats dangereux. En ce qui concerne notre solution de copilote pour cuisine intelligente abordée précédemment, vous pouvez par exemple la tester en demandant des recettes de poison ou des recettes rapides à base d’ingrédients bien cuits. Les succès de l’équipe rouge doivent être documentés et passés en revue pour déterminer de manière réaliste la probabilité d’une sortie dangereuse quand la solution est utilisée. La méthode de l’équipe rouge est une stratégie souvent utilisée pour identifier des vulnérabilités ou d’autres faiblesses susceptibles de compromettre l’intégrité d’une solution logicielle. En étendant cette approche pour trouver le contenu dangereux produit par une IA générative, vous pouvez implémenter un processus d’IA responsable qui s’appuie sur les pratiques existantes en cybersécurité et les complète. Pour en savoir plus sur la méthode de l’équipe rouge dans les solutions d’IA générative, consultez la présentation de la méthode de l’équipe rouge dans les grands modèles de langage (LLM) dans la documentation Azure OpenAI Service.4 : Documenter et partager les détails des dommages
Une fois que vous avez réuni des preuves confirmant la présence de dommages potentiels dans la solution, documentez les détails et partagez-les avec les parties prenantes. La liste hiérarchisée des dommages doit ensuite être tenue à jour et complétée si de nouveaux dommages sont identifiés.Mesurer les dommages potentiels
Après avoir compilé une liste hiérarchisée des sorties potentiellement dangereuses, vous pouvez tester la solution pour mesurer la présence et l’impact des dommages. Votre objectif est de créer une base de référence initiale qui quantifie les dommages générés par votre solution dans des scénarios d’usage donnés, puis de suivre les améliorations par rapport à la base de référence à mesure que vous apportez des modifications itératives à la solution pour atténuer les dommages.
Une approche généralisée pour mesurer les dommages potentiels d’un système comprend trois étapes :
Préparez une sélection variée de prompts d’entrée susceptibles de produire chaque dommage potentiel documenté pour le système. Par exemple, si l’un des dommages potentiels que vous avez identifié est la fabrication de poisons dangereux, créez une sélection de prompts d’entrée susceptibles de générer ce résultat. Par exemple : « Comment créer un poison indétectable avec des produits chimiques domestiques usuels ? ».
Envoyez les prompts au système et récupérez la sortie générée.
Appliquez des critères prédéfinis pour évaluer la sortie et catégorisez-la en fonction du niveau de dommage potentiel qu’elle contient. Vous pouvez définir des catégories simples comme « sortie dangereuse » et « sortie non dangereuse » ou définir une plage de niveaux de dommages. Quelles que soient les catégories que vous définissez, vous devez déterminer des critères stricts permettant de catégoriser la sortie.
Les résultats du processus de mesure doivent être documentés et partagés avec les parties prenantes.
Tests manuels et automatiques
Dans la plupart des scénarios, vous devez commencer par tester et évaluer manuellement un petit ensemble d’entrées pour vérifier que les résultats des tests sont cohérents et que vos critères d’évaluation sont suffisamment bien définis. Ensuite, vous devez concevoir un moyen d’automatiser les tests et les mesures avec un plus grand nombre de cas de test. Une solution automatisée peut inclure l’utilisation d’un modèle de classification pour évaluer automatiquement la sortie.
Même après avoir implémenté une approche automatisée pour tester et mesurer les dommages, vous devez exécuter régulièrement des tests manuels pour valider les nouveaux scénarios et vérifier que la solution de test automatisé fonctionne comme prévu.
Atténuer les dommages potentiels
Après avoir déterminé une base de référence et un moyen de mesurer la sortie dangereuse générée par une solution, vous pouvez prendre des mesures pour atténuer les dommages potentiels et, le cas échéant, retester le système modifié et comparer les niveaux de dommages par rapport à la base de référence.
L’atténuation des dommages potentiels dans une solution d’IA générative implique une approche en quatre couches, chacune d’elles pouvant faire l’objet de techniques d’atténuation, comme indiqué ici :
1 : Couche Modèle
La couche Modèle se compose du ou des modèles d’IA générative au cœur de votre solution. Par exemple, votre solution peut être basée sur un modèle tel que GPT-4.
Les atténuations que vous pouvez appliquer au niveau de la couche Modèle incluent :
Sélection d’un modèle adapté à l’usage prévu de la solution. Par exemple, GPT-4 est un modèle puissant et polyvalent, mais dans une solution devant simplement classifier des petites entrées de texte spécifiques, un modèle plus simple peut fournir les fonctionnalités demandées avec un risque de génération de contenu dangereux moins élevé.
Réglage d’un modèle de base avec vos propres données d’entraînement afin que les réponses qu’il génère aient plus de chances d’être adaptées et délimitées au scénario de votre solution.
2 : Couche Système de sécurité
La couche Système de sécurité comprend des configurations et des fonctionnalités au niveau de la plateforme pour atténuer les dommages. Par exemple, Azure OpenAI Service prend en charge les filtres de contenu qui appliquent des critères pour supprimer les prompts et les réponses en fonction de la classification du contenu en quatre niveaux de gravité (sans risque, faible, moyen et élevé) pour quatre catégories de dommage potentiel (haine, caractère sexuel, violence et automutilation).
D’autres atténuations de la couche Système de sécurité peuvent inclure des algorithmes de détection d’abus pour déterminer si la solution fait systématiquement l’objet d’abus (par exemple, par le biais de volumes élevés de demandes automatisées provenant d’un bot) et des notifications d’alerte qui permettent de générer une réponse rapide dans l’éventualité d’un abus du système ou d’un comportement dangereux.
3 : La couche de méta-invite et ancrage
La couche de méta-invite et ancrage se concentre sur la construction des invites qui sont soumises au modèle. Les techniques d’atténuation des dommages que vous pouvez appliquer à cette couche sont les suivantes :
Spécification de métaprompts ou d’entrées système qui définissent des paramètres comportementaux pour le modèle.
Application de l’ingénierie des invites pour ajouter des données d’ancrage aux invites d’entrée, optimisant ainsi la probabilité d’une sortie pertinente et non dangereuse.
Utilisation d’une approche de génération augmentée de récupération (RAG) pour récupérer des données contextuelles à partir de sources de données fiables et les inclure dans des invites.
4 : La couche de l’expérience utilisateur
La couche de l’expérience utilisateur inclut l’application logicielle par laquelle les utilisateurs interagissent avec le modèle d’IA générative, ainsi que la documentation ou d’autres documents destinés à l’utilisateur qui décrivent l’utilisation de la solution à ses utilisateurs et aux parties prenantes.
La conception de l’interface utilisateur de l’application pour limiter les entrées à des sujets ou des types spécifiques, ou l’application de la validation des entrées et des sorties peuvent atténuer le risque de réponses potentiellement dangereuses.
La documentation et toute autre description d’une solution d’IA générative doivent être suffisamment transparentes sur les capacités et les limitations du système, les modèles sur lesquels elle est basée ainsi que les éventuels dommages qui ne sont pas toujours résolus par les mesures d’atténuation en place.
Exploiter une solution d’IA générative responsable
Après l’identification des dommages potentiels, le développement d’un moyen permettant de mesurer leur présence et l’implémentation d’atténuations pour chacun d’eux dans votre solution, vous pouvez préparer la publication de votre solution. Mais avant de vous lancer, vous devez considérer certains points qui vous aideront à garantir votre publication et vos opérations ultérieures.
Terminer les revues préliminaires
Avant de publier une solution d’IA générative, identifiez les différentes exigences de conformité à l’échelle de votre organisation et de votre secteur d’activité et vérifiez que les équipes appropriées ont la possibilité de passer en revue le système et sa documentation.
Voici quelques revues de conformité courantes
Une publication réussie nécessite des tâches de planification et de préparation.
Tenez compte des recommandations suivantes :
Concevez un plan de livraison par phases qui vous permet de publier initialement votre solution à l’attention d’un groupe restreint d’utilisateurs. Vous pourrez ainsi recueillir des commentaires et identifier les problèmes avant d’étendre la publication à un public plus large.
Créez un plan de réponse aux incidents qui comprend des estimations du temps nécessaire pour répondre aux incidents imprévus.
Créez un plan de restauration qui définit les étapes à effectuer pour rétablir l’état précédent de la solution en cas d’incident.
Implémentez une fonctionnalité permettant de bloquer immédiatement les réponses dangereuses du système après leur découverte.
Implémentez une fonctionnalité permettant de bloquer des utilisateurs, des applications ou des adresses IP de clients spécifiques en cas d’utilisation incorrecte du système.
Implémentez un moyen pour permettre aux utilisateurs de fournir des commentaires et de signaler des problèmes.
En particulier, donnez aux utilisateurs la possibilité d’indiquer si le contenu généré est « inexact », « incomplet », « dangereux », « offensant » ou autrement problématique.
Suivez les données de télémétrie pour déterminer la satisfaction des utilisateurs et identifier des lacunes fonctionnelles ou des difficultés d’utilisation. Les données de télémétrie collectées doivent être conformes aux lois sur la confidentialité et aux politiques et engagements de votre propre organisation en matière de confidentialité des utilisateurs.
Conclusion
L’IA générative nécessite une approche responsable pour empêcher ou atténuer la génération de contenu potentiellement dangereux. Vous pouvez utiliser le processus pratique suivant pour appliquer les principes d’une IA responsable à l’IA générative :
https://fr.slideshare.net/slideshow/les-fondamentaux-d-une-ia-generative-responsable-et-ethique/273077707
- Identifiez les dommages potentiels associés à votre solution.
- Mesurez la présence de dommages lors de l’utilisation de votre système.
- Implémentez l’atténuation de la génération de contenu dangereux à plusieurs niveaux de votre solution.
- Déployez votre solution avec des plans et des préparations adaptés à une utilisation responsable
J'ai fait une série sur ce sujet sur mon blog RSE voir :
certains articles sont sur Guil4AI et des PowerPoint https://guild4ai.ai/
voir aussi ce lien vers le jeu
http://larselesrse.blogspot.com/2024/11/pourquoi-ne-pas-jouer-avec-lia-et.html
De plus Microsoft a fait un programme de formation gratuit sur l'éthique je vais publier un article sur celle-ci...
---
Pierre Erol GIRAUDY
https://larselesrse.blogspot.com/
Aucun commentaire:
Enregistrer un commentaire