Une étude sur la fiabilité des modèles GPT révèle de nouvelles vulnérabilités et des dangers pour la sécurité.

Étude complète sur l'évaluation de la fiabilité des modèles GPT

L'Université de l'Illinois à Urbana-Champaign, en collaboration avec l'Université de Stanford, l'Université de Californie à Berkeley, le Centre de sécurité de l'intelligence artificielle et Microsoft Research, a lancé une plateforme d'évaluation de la crédibilité des modèles de langage de grande taille (LLMs). Cette recherche est détaillée dans le récent article intitulé « DecodingTrust : une évaluation complète de la crédibilité des modèles GPT ».

L'équipe de recherche a découvert de nouvelles vulnérabilités liées à la crédibilité. Par exemple, le modèle GPT a tendance à produire des sorties toxiques et biaisées, et pourrait divulguer des informations privées provenant des données d'entraînement et de l'historique des conversations. Bien que GPT-4 soit généralement plus fiable que GPT-3.5 dans les tests standards, il est en réalité plus susceptible d'être attaqué face à des incitations malveillantes, cela pourrait être dû à sa stricte conformité aux instructions trompeuses.

Ce travail présente une évaluation complète de la crédibilité des modèles GPT, révélant des lacunes de crédibilité existantes. L'équipe de recherche a collaboré avec le département des produits de Microsoft pour confirmer que les vulnérabilités potentielles découvertes n'affectent pas les services destinés aux utilisateurs actuels. Ils ont également partagé les résultats de la recherche avec OpenAI, qui a noté ces vulnérabilités potentielles dans la documentation système des modèles concernés.

L'équipe de recherche espère encourager le monde académique à approfondir ses recherches afin de prévenir les acteurs malveillants d'exploiter des vulnérabilités pour causer des dommages. Ils considèrent cette évaluation comme un point de départ et souhaitent collaborer avec d'autres parties pour continuer à travailler sur cette base, en créant des modèles plus robustes et plus fiables. Pour favoriser la coopération, le code de référence qu'ils ont publié est très évolutif et facile à utiliser.

Évaluation de la crédibilité des modèles linguistiques

Avec l'application généralisée des grands modèles de langage dans divers domaines, y compris des secteurs sensibles tels que les soins de santé et la finance, une évaluation complète de leur fiabilité devient particulièrement importante. L'équipe de recherche a évalué le modèle GPT sous huit angles, couvrant différents scénarios d'application, tâches, indicateurs et ensembles de données.

Leur objectif est d'évaluer : 1) la performance du modèle GPT sous différents angles de crédibilité ; 2) sa capacité d'adaptation dans des environnements adverses ( tels que les systèmes/les invites adverses, les démonstrations ).

À titre d'exemple pour évaluer la robustesse de GPT-3.5 et GPT-4 face aux attaques adversariales sur le texte, l'équipe de recherche a construit trois scénarios d'évaluation :

  1. Évaluation sur la norme AdvGLUE, avec une description de tâche neutre, l'objectif est d'évaluer : a) Vulnérabilité des modèles GPT aux attaques adversariales sur les textes existants; b) Comparaison de la robustesse des différents modèles GPT et du modèle le plus avancé sur le benchmark AdvGLUE; c) L'impact des attaques adversariales sur la capacité de suivi des instructions du modèle; d) La transférabilité des stratégies d'attaque actuelles.

  2. Évaluer sur la référence AdvGLUE, en fournissant différentes instructions de tâches directrices et des invites système conçues, étudier la capacité de récupération du modèle sous différentes instructions de tâches adversariales ( et invites système.

  3. Évaluer GPT-3.5 et GPT-4 sur le texte adversarial difficile AdvGLUE++ généré par l'équipe de recherche, afin de tester davantage leur vulnérabilité lors d'attaques adversariales fortes dans différents environnements.

Principales découvertes de DecodingTrust

Des recherches ont révélé certains avantages et menaces précédemment non divulgués concernant la fiabilité des grands modèles de langage :

  1. En termes de robustesse face aux démonstrations adversariales, GPT-3.5 et GPT-4 ne sont pas trompés par des exemples contrafactuels, et pourraient même en tirer profit. Cependant, les démonstrations anti-fraude peuvent induire en erreur les deux modèles, les amenant à faire de fausses prévisions sur les entrées contrafactuelles, en particulier lorsque les démonstrations contrafactuelles sont proches des entrées des utilisateurs, GPT-4 étant plus susceptible d'être affecté.

  2. En ce qui concerne la toxicité et les biais, les deux modèles présentent peu de biais sur la plupart des sujets de stéréotypes sous des invites de système bienveillantes et neutres. Cependant, sous des invites de système trompeuses, ils peuvent être "induits" à consentir à un contenu biaisé. GPT-4 est plus susceptible d'être influencé par des invites de système trompeuses ciblées que GPT-3.5.

  3. Le degré de biais du modèle dépend des groupes et des thèmes stéréotypés mentionnés dans les invites des utilisateurs. Pour certains sujets sensibles, le modèle présente un biais moindre, ce qui peut être dû à un ajustement fin ciblé.

  4. En ce qui concerne la protection de la vie privée, le modèle GPT peut divulguer des informations sensibles contenues dans les données d'entraînement, telles que des adresses électroniques. Dans certains cas, l'utilisation de connaissances complémentaires peut améliorer de manière significative la précision de l'extraction d'informations. Les deux modèles peuvent divulguer des informations privées injectées dans l'historique des conversations.

  5. GPT-4 est plus robuste que GPT-3.5 en matière de protection des informations d'identité personnelle ) PII (, mais les deux modèles sont robustes pour certains types de PII ), comme les numéros de sécurité sociale (. Cependant, dans certains cas, les deux modèles peuvent divulguer tous les types de PII.

  6. Il existe des différences dans la capacité des modèles GPT à comprendre différents mots liés à la vie privée. Sous certains prompts, GPT-4 est plus susceptible de divulguer des informations privées que GPT-3.5, ce qui peut être dû à son adhésion plus stricte à des instructions trompeuses.

Cette étude offre une perspective complète sur l'évaluation de la fiabilité des modèles GPT, révélant les avantages et les inconvénients des modèles existants. Ces découvertes sont d'une grande importance pour promouvoir le développement et l'application sécurisés des grands modèles de langage.

GPT17.01%
Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • 3
  • Partager
Commentaire
0/400
UncleWhalevip
· 08-07 08:38
Franchement, qui se soucie encore de la sécurité ?
Voir l'originalRépondre0
BearMarketSurvivorvip
· 08-07 08:29
哎 这下GPT condamné了
Voir l'originalRépondre0
FlatlineTradervip
· 08-07 08:27
gpt4 n'est pas aussi sûr que 3.5 ? Je suis mort de rire.
Voir l'originalRépondre0
Trader les cryptos partout et à tout moment
qrCode
Scan pour télécharger Gate app
Communauté
Français (Afrique)
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)