Estudo abrangente sobre a confiabilidade dos modelos GPT
A Universidade de Illinois em Urbana-Champaign, em colaboração com a Universidade de Stanford, a Universidade da Califórnia em Berkeley, o Centro de Segurança da Inteligência Artificial e o Microsoft Research, lançou uma plataforma abrangente de avaliação de confiabilidade de modelos de linguagem de grande escala (LLMs). Esta pesquisa foi detalhadamente apresentada no artigo recentemente publicado "DecodingTrust: Avaliação Abrangente da Confiabilidade de Modelos GPT."
A equipe de pesquisa descobriu algumas novas vulnerabilidades relacionadas à confiabilidade. Por exemplo, o modelo GPT tende a produzir saídas tóxicas e tendenciosas, e pode vazar informações pessoais contidas nos dados de treinamento e no histórico de conversas. Embora o GPT-4 geralmente seja mais confiável do que o GPT-3.5 em testes padrão, quando confrontado com prompts projetados de forma maliciosa, o GPT-4 é, na verdade, mais suscetível a ataques, possivelmente porque segue de forma mais rigorosa instruções enganosas.
Este trabalho demonstra uma avaliação abrangente da confiabilidade do modelo GPT, revelando a existência de lacunas de confiabilidade. A equipe de pesquisa colaborou com o departamento de produtos da Microsoft para confirmar que as vulnerabilidades potenciais identificadas não afetam os serviços voltados para os usuários. Eles também compartilharam os resultados da pesquisa com a OpenAI, que já indicou essas vulnerabilidades potenciais nas especificações do sistema dos modelos relevantes.
A equipe de pesquisa espera que este trabalho incentive a academia a investigar mais a fundo, a fim de prevenir que agentes mal-intencionados aproveitem vulnerabilidades para causar danos. Eles veem esta avaliação como um ponto de partida e esperam colaborar com outras partes para continuar a trabalhar com base nisso, criando modelos mais robustos e confiáveis. Para promover a colaboração, o código de referência que publicaram possui alta escalabilidade e facilidade de uso.
Perspectiva de Avaliação da Confiabilidade do Modelo de Linguagem
Com a ampla aplicação de grandes modelos de linguagem em várias áreas, incluindo cuidados de saúde e finanças, que são setores sensíveis, a avaliação abrangente de sua confiabilidade torna-se especialmente importante. A equipe de pesquisa avaliou o modelo GPT de forma abrangente sob oito ângulos, abrangendo diferentes cenários de aplicação, tarefas, métricas e conjuntos de dados.
O objetivo deles é avaliar: o desempenho do modelo 1)GPT sob diferentes perspectivas de confiabilidade; 2) sua capacidade de adaptação em ambientes adversariais ( como sistemas/indicações adversariais, demonstrações ).
Para avaliar a robustez do GPT-3.5 e do GPT-4 contra ataques adversariais de texto, a equipe de pesquisa construiu três cenários de avaliação:
Avaliação no benchmark padrão AdvGLUE, utilizando descrições de tarefas neutras, com o objetivo de avaliar:
a) A vulnerabilidade dos modelos GPT a ataques adversariais em textos existentes;
b) Comparação da robustez de diferentes modelos GPT e do modelo mais avançado no benchmark AdvGLUE;
c) O impacto dos ataques adversariais na capacidade de obediência a instruções do modelo;
d) A transferibilidade da estratégia de ataque atual.
Avaliar na base de dados AdvGLUE, fornecendo diferentes instruções de tarefas orientadoras e dicas de sistema projetadas, investigar a capacidade de recuperação do modelo sob diferentes ( instruções de tarefas adversariais ) e dicas de sistema.
Avaliar o texto adversarial desafiador AdvGLUE++ gerado pela equipe de pesquisa usando GPT-3.5 e GPT-4, testando ainda mais sua vulnerabilidade sob ataques adversariais fortes em diferentes ambientes.
Principais descobertas do DecodingTrust
A pesquisa revelou algumas vantagens e ameaças não divulgadas anteriormente dos grandes modelos de linguagem em termos de confiabilidade:
Em termos de robustez em demonstrações adversariais, o GPT-3.5 e o GPT-4 não são enganados por exemplos contrafactuais, podendo até beneficiar-se deles. No entanto, as demonstrações de combate à fraude podem enganar os dois modelos, levando a previsões erradas em relação a entradas contrafactuais, especialmente quando as demonstrações contrafactuais estão próximas da entrada do usuário, sendo o GPT-4 mais suscetível a isso.
Em termos de toxicidade e preconceito, os dois modelos apresentam pouca variação na viés em relação à maioria dos temas de estereótipos sob indicações de sistemas benignos e neutros. Mas sob indicações de sistemas enganosos, eles podem ser "enganados" a concordar com conteúdos tendenciosos. O GPT-4 é mais suscetível à influência de indicações de sistemas enganosos direcionadas do que o GPT-3.5.
O grau de preconceito do modelo depende dos grupos e temas de estereótipos mencionados no aviso do utilizador. Em alguns tópicos sensíveis, o modelo demonstra menos preconceito, o que pode ser devido a um ajuste fino direcionado.
Em termos de proteção da privacidade, o modelo GPT pode vazar informações sensíveis dos dados de treino, como endereços de e-mail. Em certos casos, o uso de conhecimentos complementares pode aumentar significativamente a precisão da extração de informações. Ambos os modelos podem vazar informações pessoais injetadas no histórico de conversas.
O GPT-4 é mais robusto na proteção de informações de identificação pessoal ( PII ) do que o GPT-3.5, mas ambos são robustos em relação a tipos específicos de PII (, como números de segurança social ). No entanto, em certas situações, ambos os modelos podem vazar todos os tipos de PII.
A capacidade do modelo GPT de entender diferentes termos relacionados à privacidade varia. Sob certos prompts, o GPT-4 é mais propenso a vazar informações pessoais do que o GPT-3.5, o que pode ser devido ao fato de seguir mais rigidamente instruções enganosas.
Este estudo oferece uma perspectiva abrangente sobre a avaliação da confiabilidade dos modelos GPT, revelando as vantagens e desvantagens dos modelos existentes. Essas descobertas têm uma importância significativa para promover o desenvolvimento e a aplicação segura de grandes modelos de linguagem.
Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.
10 Curtidas
Recompensa
10
3
Repostar
Compartilhar
Comentário
0/400
UncleWhale
· 08-07 08:38
A verdade é que quem ainda se importa com a segurança?
Pesquisa sobre a confiabilidade do modelo GPT revela novas vulnerabilidades, segurança apresenta riscos.
Estudo abrangente sobre a confiabilidade dos modelos GPT
A Universidade de Illinois em Urbana-Champaign, em colaboração com a Universidade de Stanford, a Universidade da Califórnia em Berkeley, o Centro de Segurança da Inteligência Artificial e o Microsoft Research, lançou uma plataforma abrangente de avaliação de confiabilidade de modelos de linguagem de grande escala (LLMs). Esta pesquisa foi detalhadamente apresentada no artigo recentemente publicado "DecodingTrust: Avaliação Abrangente da Confiabilidade de Modelos GPT."
A equipe de pesquisa descobriu algumas novas vulnerabilidades relacionadas à confiabilidade. Por exemplo, o modelo GPT tende a produzir saídas tóxicas e tendenciosas, e pode vazar informações pessoais contidas nos dados de treinamento e no histórico de conversas. Embora o GPT-4 geralmente seja mais confiável do que o GPT-3.5 em testes padrão, quando confrontado com prompts projetados de forma maliciosa, o GPT-4 é, na verdade, mais suscetível a ataques, possivelmente porque segue de forma mais rigorosa instruções enganosas.
Este trabalho demonstra uma avaliação abrangente da confiabilidade do modelo GPT, revelando a existência de lacunas de confiabilidade. A equipe de pesquisa colaborou com o departamento de produtos da Microsoft para confirmar que as vulnerabilidades potenciais identificadas não afetam os serviços voltados para os usuários. Eles também compartilharam os resultados da pesquisa com a OpenAI, que já indicou essas vulnerabilidades potenciais nas especificações do sistema dos modelos relevantes.
A equipe de pesquisa espera que este trabalho incentive a academia a investigar mais a fundo, a fim de prevenir que agentes mal-intencionados aproveitem vulnerabilidades para causar danos. Eles veem esta avaliação como um ponto de partida e esperam colaborar com outras partes para continuar a trabalhar com base nisso, criando modelos mais robustos e confiáveis. Para promover a colaboração, o código de referência que publicaram possui alta escalabilidade e facilidade de uso.
Perspectiva de Avaliação da Confiabilidade do Modelo de Linguagem
Com a ampla aplicação de grandes modelos de linguagem em várias áreas, incluindo cuidados de saúde e finanças, que são setores sensíveis, a avaliação abrangente de sua confiabilidade torna-se especialmente importante. A equipe de pesquisa avaliou o modelo GPT de forma abrangente sob oito ângulos, abrangendo diferentes cenários de aplicação, tarefas, métricas e conjuntos de dados.
O objetivo deles é avaliar: o desempenho do modelo 1)GPT sob diferentes perspectivas de confiabilidade; 2) sua capacidade de adaptação em ambientes adversariais ( como sistemas/indicações adversariais, demonstrações ).
Para avaliar a robustez do GPT-3.5 e do GPT-4 contra ataques adversariais de texto, a equipe de pesquisa construiu três cenários de avaliação:
Avaliação no benchmark padrão AdvGLUE, utilizando descrições de tarefas neutras, com o objetivo de avaliar: a) A vulnerabilidade dos modelos GPT a ataques adversariais em textos existentes; b) Comparação da robustez de diferentes modelos GPT e do modelo mais avançado no benchmark AdvGLUE; c) O impacto dos ataques adversariais na capacidade de obediência a instruções do modelo; d) A transferibilidade da estratégia de ataque atual.
Avaliar na base de dados AdvGLUE, fornecendo diferentes instruções de tarefas orientadoras e dicas de sistema projetadas, investigar a capacidade de recuperação do modelo sob diferentes ( instruções de tarefas adversariais ) e dicas de sistema.
Avaliar o texto adversarial desafiador AdvGLUE++ gerado pela equipe de pesquisa usando GPT-3.5 e GPT-4, testando ainda mais sua vulnerabilidade sob ataques adversariais fortes em diferentes ambientes.
Principais descobertas do DecodingTrust
A pesquisa revelou algumas vantagens e ameaças não divulgadas anteriormente dos grandes modelos de linguagem em termos de confiabilidade:
Em termos de robustez em demonstrações adversariais, o GPT-3.5 e o GPT-4 não são enganados por exemplos contrafactuais, podendo até beneficiar-se deles. No entanto, as demonstrações de combate à fraude podem enganar os dois modelos, levando a previsões erradas em relação a entradas contrafactuais, especialmente quando as demonstrações contrafactuais estão próximas da entrada do usuário, sendo o GPT-4 mais suscetível a isso.
Em termos de toxicidade e preconceito, os dois modelos apresentam pouca variação na viés em relação à maioria dos temas de estereótipos sob indicações de sistemas benignos e neutros. Mas sob indicações de sistemas enganosos, eles podem ser "enganados" a concordar com conteúdos tendenciosos. O GPT-4 é mais suscetível à influência de indicações de sistemas enganosos direcionadas do que o GPT-3.5.
O grau de preconceito do modelo depende dos grupos e temas de estereótipos mencionados no aviso do utilizador. Em alguns tópicos sensíveis, o modelo demonstra menos preconceito, o que pode ser devido a um ajuste fino direcionado.
Em termos de proteção da privacidade, o modelo GPT pode vazar informações sensíveis dos dados de treino, como endereços de e-mail. Em certos casos, o uso de conhecimentos complementares pode aumentar significativamente a precisão da extração de informações. Ambos os modelos podem vazar informações pessoais injetadas no histórico de conversas.
O GPT-4 é mais robusto na proteção de informações de identificação pessoal ( PII ) do que o GPT-3.5, mas ambos são robustos em relação a tipos específicos de PII (, como números de segurança social ). No entanto, em certas situações, ambos os modelos podem vazar todos os tipos de PII.
A capacidade do modelo GPT de entender diferentes termos relacionados à privacidade varia. Sob certos prompts, o GPT-4 é mais propenso a vazar informações pessoais do que o GPT-3.5, o que pode ser devido ao fato de seguir mais rigidamente instruções enganosas.
Este estudo oferece uma perspectiva abrangente sobre a avaliação da confiabilidade dos modelos GPT, revelando as vantagens e desvantagens dos modelos existentes. Essas descobertas têm uma importância significativa para promover o desenvolvimento e a aplicação segura de grandes modelos de linguagem.