Um exercício de red teaming liderado pelo NIST no CAMLIS avaliou vulnerabilidades em sistemas avançados de IA, avaliando riscos como desinformação, vazamentos de dados e manipulação emocional.
O Instituto Nacional de Padrões e Tecnologia (NIST) completou um relatório sobre a segurança dos modelos de IA avançados perto do final da administração Joe Biden, mas o documento não foi publicado após a transição para a administração Donald Trump. Embora o relatório tenha sido concebido para ajudar as organizações a avaliarem seus sistemas de IA, foi um dos vários documentos sobre IA elaborados pelo NIST que foram retidos devido a potenciais conflitos com a direção política da nova administração.
Antes de assumir o cargo, o presidente Donald Trump indicou sua intenção de revogar as ordens executivas da era Biden relacionadas à IA. Desde a transição, a administração redirecionou o foco dos especialistas de áreas como viés algorítmico e justiça na IA. O Plano de Ação de IA divulgado em julho pede especificamente revisões ao Quadro de Gestão de Risco de IA do NIST, recomendando a remoção de referências à desinformação, Diversidade, Equidade e Inclusão (DEI) e às mudanças climáticas.
Ao mesmo tempo, o Plano de Ação de IA inclui uma proposta que se assemelha aos objetivos do relatório não publicado. Ele direciona várias agências federais, incluindo o NIST, a organizar uma iniciativa coordenada de hackathon de IA com o objetivo de testar sistemas de IA quanto à transparência, funcionalidade, controle do usuário e possíveis vulnerabilidades de segurança.
Exercício de Red Teaming liderado pelo NIST investiga os riscos dos sistemas de IA usando a Framework ARIA na Conferência CAMLIS
O exercício de red-teaming foi realizado no âmbito do programa Avaliação de Riscos e Impactos da IA (ARIA) pelo NIST, em parceria com a Humane Intelligence, uma empresa que se foca na avaliação de sistemas de IA. Esta iniciativa decorreu durante a Conferência sobre Aprendizagem de Máquina Aplicada em Segurança da Informação (CAMLIS), onde os participantes exploraram as vulnerabilidades de uma variedade de tecnologias avançadas de IA.
O relatório de Red Teaming da CAMLIS documenta a avaliação de várias ferramentas de IA, incluindo o Llama da Meta, um modelo de linguagem grande de código aberto (LLM); Anote, uma plataforma para desenvolver e refinar modelos de IA; um sistema de segurança da Robust Intelligence, que desde então foi adquirido pela CISCO; e a plataforma de geração de avatares de IA da Synthesia. Representantes de cada organização contribuíram para as atividades de red teaming.
Os participantes utilizaram a estrutura NIST AI 600-1 para analisar as ferramentas em questão. Esta estrutura descreve várias áreas de risco, como o potencial da IA para produzir informações falsas ou ameaças à cibersegurança, divulgar dados privados ou sensíveis, ou fomentar dependência emocional entre os utilizadores e os sistemas de IA.
Relatório de Red Teaming de IA Não Lançado Revela Vulnerabilidades do Modelo, Desperta Preocupações Sobre Supressão Política e Insights de Pesquisa Perdidos
A equipe de pesquisa encontrou vários métodos para contornar as salvaguardas pretendidas das ferramentas em avaliação, levando a resultados que incluíam desinformação, exposição de informações privadas e assistência na formação de estratégias de ciberataque. De acordo com o relatório, alguns aspectos do quadro da NIST provaram ser mais aplicáveis do que outros. Também observou-se que certas categorias de risco careciam da clareza necessária para uso prático.
Indivíduos familiarizados com a iniciativa de red-teaming expressaram que as descobertas do exercício poderiam ter oferecido insights valiosos para a comunidade mais ampla de pesquisa e desenvolvimento em IA. Uma participante, Alice Qian Zhang, uma candidata a doutorado na Universidade Carnegie Mellon, observou que compartilhar publicamente o relatório poderia ter ajudado a esclarecer como o framework de risco do NIST funciona quando aplicado em ambientes de teste do mundo real. Ela também destacou que a interação direta com os desenvolvedores das ferramentas durante a avaliação acrescentou valor à experiência.
Outro colaborador, que optou por permanecer anônimo, indicou que o exercício revelou técnicas de solicitação específicas—usando idiomas como russo, gujarati, marata e telugo—que foram particularmente bem-sucedidas em elicitar saídas proibidas de modelos como Llama, incluindo instruções relacionadas à adesão a grupos extremistas. Este indivíduo sugeriu que a decisão de não divulgar o relatório pode refletir uma mudança mais ampla em relação a áreas percebidas como ligadas à diversidade, equidade e inclusão antes da administração que está por vir.
Alguns participantes especularam que a omissão do relatório pode também resultar de um foco governamental aumentado em riscos de alto risco—como o potencial uso de sistemas de IA no desenvolvimento de armas de destruição em massa—e um esforço paralelo para fortalecer laços com grandes empresas de tecnologia. Um participante da equipe vermelha comentou anonimamente que considerações políticas provavelmente desempenharam um papel na retenção do relatório e que o exercício continha insights de relevância científica contínua.
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
O Estudo de Risco de IA Não Publicado do NIST Permanece Arquivado em Meio a Mudanças Administrativas
Em Resumo
Um exercício de red teaming liderado pelo NIST no CAMLIS avaliou vulnerabilidades em sistemas avançados de IA, avaliando riscos como desinformação, vazamentos de dados e manipulação emocional.
O Instituto Nacional de Padrões e Tecnologia (NIST) completou um relatório sobre a segurança dos modelos de IA avançados perto do final da administração Joe Biden, mas o documento não foi publicado após a transição para a administração Donald Trump. Embora o relatório tenha sido concebido para ajudar as organizações a avaliarem seus sistemas de IA, foi um dos vários documentos sobre IA elaborados pelo NIST que foram retidos devido a potenciais conflitos com a direção política da nova administração.
Antes de assumir o cargo, o presidente Donald Trump indicou sua intenção de revogar as ordens executivas da era Biden relacionadas à IA. Desde a transição, a administração redirecionou o foco dos especialistas de áreas como viés algorítmico e justiça na IA. O Plano de Ação de IA divulgado em julho pede especificamente revisões ao Quadro de Gestão de Risco de IA do NIST, recomendando a remoção de referências à desinformação, Diversidade, Equidade e Inclusão (DEI) e às mudanças climáticas.
Ao mesmo tempo, o Plano de Ação de IA inclui uma proposta que se assemelha aos objetivos do relatório não publicado. Ele direciona várias agências federais, incluindo o NIST, a organizar uma iniciativa coordenada de hackathon de IA com o objetivo de testar sistemas de IA quanto à transparência, funcionalidade, controle do usuário e possíveis vulnerabilidades de segurança.
Exercício de Red Teaming liderado pelo NIST investiga os riscos dos sistemas de IA usando a Framework ARIA na Conferência CAMLIS
O exercício de red-teaming foi realizado no âmbito do programa Avaliação de Riscos e Impactos da IA (ARIA) pelo NIST, em parceria com a Humane Intelligence, uma empresa que se foca na avaliação de sistemas de IA. Esta iniciativa decorreu durante a Conferência sobre Aprendizagem de Máquina Aplicada em Segurança da Informação (CAMLIS), onde os participantes exploraram as vulnerabilidades de uma variedade de tecnologias avançadas de IA.
O relatório de Red Teaming da CAMLIS documenta a avaliação de várias ferramentas de IA, incluindo o Llama da Meta, um modelo de linguagem grande de código aberto (LLM); Anote, uma plataforma para desenvolver e refinar modelos de IA; um sistema de segurança da Robust Intelligence, que desde então foi adquirido pela CISCO; e a plataforma de geração de avatares de IA da Synthesia. Representantes de cada organização contribuíram para as atividades de red teaming.
Os participantes utilizaram a estrutura NIST AI 600-1 para analisar as ferramentas em questão. Esta estrutura descreve várias áreas de risco, como o potencial da IA para produzir informações falsas ou ameaças à cibersegurança, divulgar dados privados ou sensíveis, ou fomentar dependência emocional entre os utilizadores e os sistemas de IA.
Relatório de Red Teaming de IA Não Lançado Revela Vulnerabilidades do Modelo, Desperta Preocupações Sobre Supressão Política e Insights de Pesquisa Perdidos
A equipe de pesquisa encontrou vários métodos para contornar as salvaguardas pretendidas das ferramentas em avaliação, levando a resultados que incluíam desinformação, exposição de informações privadas e assistência na formação de estratégias de ciberataque. De acordo com o relatório, alguns aspectos do quadro da NIST provaram ser mais aplicáveis do que outros. Também observou-se que certas categorias de risco careciam da clareza necessária para uso prático.
Indivíduos familiarizados com a iniciativa de red-teaming expressaram que as descobertas do exercício poderiam ter oferecido insights valiosos para a comunidade mais ampla de pesquisa e desenvolvimento em IA. Uma participante, Alice Qian Zhang, uma candidata a doutorado na Universidade Carnegie Mellon, observou que compartilhar publicamente o relatório poderia ter ajudado a esclarecer como o framework de risco do NIST funciona quando aplicado em ambientes de teste do mundo real. Ela também destacou que a interação direta com os desenvolvedores das ferramentas durante a avaliação acrescentou valor à experiência.
Outro colaborador, que optou por permanecer anônimo, indicou que o exercício revelou técnicas de solicitação específicas—usando idiomas como russo, gujarati, marata e telugo—que foram particularmente bem-sucedidas em elicitar saídas proibidas de modelos como Llama, incluindo instruções relacionadas à adesão a grupos extremistas. Este indivíduo sugeriu que a decisão de não divulgar o relatório pode refletir uma mudança mais ampla em relação a áreas percebidas como ligadas à diversidade, equidade e inclusão antes da administração que está por vir.
Alguns participantes especularam que a omissão do relatório pode também resultar de um foco governamental aumentado em riscos de alto risco—como o potencial uso de sistemas de IA no desenvolvimento de armas de destruição em massa—e um esforço paralelo para fortalecer laços com grandes empresas de tecnologia. Um participante da equipe vermelha comentou anonimamente que considerações políticas provavelmente desempenharam um papel na retenção do relatório e que o exercício continha insights de relevância científica contínua.