El estudio sobre la confiabilidad del modelo GPT revela nuevas vulnerabilidades, existiendo riesgos de seguridad.

Estudio exhaustivo sobre la credibilidad de los modelos GPT

La Universidad de Illinois en Urbana-Champaign, junto con la Universidad de Stanford, la Universidad de California en Berkeley, el Centro de Seguridad de Inteligencia Artificial y Microsoft Research, ha lanzado una plataforma de evaluación de confiabilidad integral para grandes modelos de lenguaje (LLMs). Esta investigación se detalla en el artículo recientemente publicado "DecodingTrust: Evaluación integral de la confiabilidad de los modelos GPT".

El equipo de investigación ha descubierto nuevas vulnerabilidades relacionadas con la confiabilidad. Por ejemplo, el modelo GPT tiende a producir salidas tóxicas y sesgadas, y puede filtrar información privada de los datos de entrenamiento y del historial de conversaciones. Aunque GPT-4 es generalmente más confiable que GPT-3.5 en pruebas estándar, se ha encontrado que es más susceptible a ataques cuando enfrenta indicaciones maliciosamente diseñadas, lo que puede deberse a que sigue instrucciones engañosas de manera más estricta.

Este trabajo muestra una evaluación integral de la credibilidad del modelo GPT, revelando las brechas de credibilidad existentes. El equipo de investigación colaboró con el departamento de productos de Microsoft para confirmar que las vulnerabilidades potenciales encontradas no afectan los servicios actuales dirigidos a los usuarios. También compartieron los hallazgos de la investigación con OpenAI, que ha indicado estas vulnerabilidades potenciales en la documentación del sistema de los modelos relevantes.

El equipo de investigación espera que este trabajo fomente la investigación adicional en la academia para prevenir que los actores malintencionados aprovechen las vulnerabilidades para causar daño. Ven esta evaluación como un punto de partida y esperan colaborar con otras partes para continuar trabajando en base a ello, creando modelos más robustos y confiables. Para facilitar la colaboración, el código de referencia que publicaron tiene una alta escalabilidad y facilidad de uso.

Perspectiva de evaluación de la credibilidad de los modelos de lenguaje

Con la amplia aplicación de los modelos de lenguaje grandes en diversos campos, incluidos sectores sensibles como la atención médica y las finanzas, se vuelve especialmente importante realizar una evaluación integral de su confiabilidad. El equipo de investigación llevó a cabo una evaluación completa del modelo GPT desde ocho ángulos, abarcando diferentes escenarios de aplicación, tareas, métricas y conjuntos de datos.

Su objetivo es evaluar: 1) el rendimiento del modelo GPT desde diferentes perspectivas de credibilidad; 2) su capacidad de adaptación en entornos adversos ( como sistemas/indicaciones adversariales, demostraciones ).

Como ejemplo para evaluar la robustez de GPT-3.5 y GPT-4 frente a ataques adversarios de texto, el equipo de investigación construyó tres escenarios de evaluación:

  1. Evaluar en el estándar AdvGLUE, utilizando descripciones de tareas neutrales, con el objetivo de evaluar: a) La vulnerabilidad del modelo GPT a los ataques adversariales en textos existentes; b) Comparación de la robustez entre diferentes modelos GPT y el modelo más avanzado en el benchmark AdvGLUE; c) El impacto de los ataques adversarios en la capacidad de cumplimiento de instrucciones del modelo; d) La transferibilidad de la estrategia de ataque actual.

  2. Evaluar en el benchmark AdvGLUE, proporcionando diferentes descripciones de tareas guiadas y diseñando indicaciones del sistema, investigando la capacidad de recuperación del modelo bajo diferentes descripciones de tareas adversariales ( y indicaciones del sistema.

  3. Evaluar AdvGLUE++, un texto adversarial desafiante generado por el equipo de investigación, utilizando GPT-3.5 y GPT-4, para probar más a fondo su vulnerabilidad bajo fuertes ataques adversariales en diferentes entornos.

Principales hallazgos de DecodingTrust

La investigación ha descubierto algunas ventajas y amenazas no divulgadas anteriormente de los grandes modelos de lenguaje en términos de confiabilidad:

  1. En términos de robustez de la demostración adversaria, GPT-3.5 y GPT-4 no se dejan engañar por ejemplos contrafactuales, e incluso pueden beneficiarse de ellos. Sin embargo, las demostraciones de anti-fraude pueden llevar a ambos modelos a hacer predicciones incorrectas sobre entradas contrafactuales, especialmente cuando la demostración contrafactual está cerca de la entrada del usuario, siendo GPT-4 más susceptible a esto.

  2. En términos de toxicidad y sesgo, los dos modelos muestran poca desviación en la mayoría de los temas de estereotipos bajo indicaciones de sistema benigno y neutral. Sin embargo, bajo indicaciones de sistema engañoso, pueden ser "inducidos" a aceptar contenido sesgado. GPT-4 es más susceptible a la influencia de indicaciones de sistema engañoso dirigidas que GPT-3.5.

  3. El grado de sesgo del modelo depende de los grupos y temas de estereotipos mencionados en las indicaciones del usuario. En algunos temas sensibles, el modelo muestra un sesgo menor, lo que puede deberse a un ajuste fino dirigido.

  4. En términos de protección de la privacidad, los modelos GPT pueden filtrar información sensible de los datos de entrenamiento, como direcciones de correo electrónico. En ciertos casos, el uso de conocimientos complementarios puede mejorar significativamente la precisión de la extracción de información. Ambos modelos pueden filtrar información privada inyectada en el historial de conversaciones.

  5. GPT-4 es más robusto que GPT-3.5 en la protección de información de identificación personal ) PII (, pero ambos son robustos frente a ciertos tipos de PII ), como los números de seguridad social (. Sin embargo, en algunas circunstancias, ambos modelos pueden filtrar todo tipo de PII.

  6. La capacidad del modelo GPT para entender diferentes vocablos relacionados con la privacidad varía. Bajo ciertos indicios, GPT-4 es más propenso a filtrar información privada que GPT-3.5, lo que puede deberse a que sigue instrucciones engañosas de manera más estricta.

Este estudio proporciona una perspectiva integral sobre la evaluación de la credibilidad de los modelos GPT, revelando las ventajas y desventajas de los modelos existentes. Estos hallazgos son de gran importancia para promover el desarrollo seguro y la aplicación de los grandes modelos de lenguaje.

GPT17.01%
Ver originales
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • 3
  • Compartir
Comentar
0/400
UncleWhalevip
· 08-07 08:38
A decir verdad, ¿a quién le importa la seguridad?
Ver originalesResponder0
BearMarketSurvivorvip
· 08-07 08:29
Ay, esta vez GPT está condenado.
Ver originalesResponder0
FlatlineTradervip
· 08-07 08:27
¿GPT-4 es menos seguro que 3.5? Me hace reír.
Ver originalesResponder0
Opere con criptomonedas en cualquier momento y lugar
qrCode
Escanee para descargar la aplicación Gate
Comunidad
Español
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)