Исследование надежности модели GPT выявило новые уязвимости, безопасность под угрозой.

Полное исследование доверия модели GPT

Университет Иллинойс в Урбана-Шампейн совместно со Стэнфордским университетом, Университетом Калифорнии в Беркли, Центром безопасности искусственного интеллекта и Исследовательским институтом Microsoft выпустил платформу комплексной оценки надежности крупных языковых моделей (LLMs). Это исследование подробно описано в недавно опубликованной статье "DecodingTrust: Полная оценка надежности моделей GPT."

Исследовательская команда обнаружила несколько новых уязвимостей, связанных с надежностью. Например, модели GPT склонны генерировать токсичный и предвзятый вывод, а также могут раскрывать личную информацию из обучающих данных и истории диалогов. Хотя GPT-4 обычно более надежен, чем GPT-3.5, при столкновении с злонамеренно разработанными подсказками GPT-4, наоборот, легче поддается атакам, что может быть связано с тем, что он более строго следует вводящим в заблуждение инструкциям.

Эта работа демонстрирует всестороннюю оценку надежности модели GPT и выявляет существующие разрывы в надежности. Исследовательская группа сотрудничала с продуктовым подразделением Microsoft, подтвердив, что обнаруженные потенциальные уязвимости не повлияют на текущие услуги для пользователей. Они также поделились результатами исследования с OpenAI, которая отметила эти потенциальные уязвимости в системной документации соответствующих моделей.

Исследовательская группа надеется, что эта работа побудит академическое сообщество углубить исследования в целях предотвращения использования уязвимостей злонамеренными участниками. Они рассматривают эту оценку как отправную точку и надеются сотрудничать с другими сторонами, чтобы продолжить усилия на этой основе, создавая более мощные и надежные модели. Для содействия сотрудничеству они выпустили эталонный код с высокой масштабируемостью и удобством использования.

Оценка достоверности языковых моделей

С учетом широкого применения больших языковых моделей в различных областях, включая такие чувствительные сферы, как здравоохранение и финансы, становится особенно важным проводить всестороннюю оценку их надежности. Исследовательская команда провела полную оценку модели GPT с восьми различных точек зрения, охватывающих различные сценарии применения, задачи, показатели и наборы данных.

Их цель - оценить: 1) производительность модели GPT с разных перспектив доверия; 2) ее адаптивность в противостоящей среде (, такой как противостоящие системы/подсказки пользователей, демонстрации ).

Для оценки устойчивости GPT-3.5 и GPT-4 к текстовым атакам, исследовательская группа разработала три сценария оценки:

  1. Провести оценку на стандартном наборе данных AdvGLUE с использованием нейтрального описания задачи, целью является оценка: a) Уязвимость модели GPT к существующим текстовым атакам. b) Сравнение устойчивости различных моделей GPT и самых современных моделей на бенчмарке AdvGLUE; c) Влияние атак противодействия на способность модели следовать инструкциям; d) Текущая переносимость стратегии атаки.

  2. Оценка на базе AdvGLUE, предоставление различных инструкций по задачам и разработанных системных подсказок, исследование способности модели восстанавливаться в условиях различных ( антагонистических ) инструкций по задачам и системных подсказок.

  3. Оценка GPT-3.5 и GPT-4 на сложных противостоящих текстах AdvGLUE++, сгенерированных исследовательской группой, для дальнейшего тестирования их уязвимости под сильными противостоящими атаками в различных условиях.

Основные выводы DecodingTrust

Исследование выявило некоторые ранее нераскрытые преимущества и угрозы крупных языковых моделей в отношении надежности:

  1. В отношении устойчивости к противостоящим демонстрациям, GPT-3.5 и GPT-4 не будут дезориентированы контрфактическими примерами и могут даже извлечь из них выгоду. Однако демонстрации противодействия мошенничеству могут ввести оба модели в заблуждение и привести к ошибочным прогнозам по контрфактическим входным данным, особенно когда контрфактические демонстрации близки к пользовательскому вводу, GPT-4 оказывается более подверженным влиянию.

  2. В отношении токсичности и предвзятости оба модели демонстрируют незначительные отклонения по большинству тем стереотипов под доброжелательными и нейтральными системными подсказками. Однако под вводящими в заблуждение системными подсказками они могут быть "завлечены" в согласие с предвзятым содержанием. GPT-4 легче поддается влиянию целенаправленных вводящих в заблуждение системных подсказок, чем GPT-3.5.

  3. Степень предвзятости модели зависит от упомянутых в запросе пользователей групп и тем стереотипов. По некоторым чувствительным темам модель демонстрирует меньшую предвзятость, что может быть связано с целенаправленной донастройкой.

  4. В отношении защиты конфиденциальности модель GPT может раскрывать чувствительную информацию из обучающих данных, такую как адреса электронной почты. В некоторых случаях использование дополнительной информации может значительно повысить точность извлечения информации. Оба модели могут раскрывать личную информацию, введенную в историю диалогов.

  5. GPT-4 более надежен в защите личной идентифицируемой информации ( PII ) по сравнению с GPT-3.5, но оба модели достаточно надежны в отношении определенных типов PII (, таких как номера социального страхования ). Однако, в некоторых случаях обе модели могут раскрывать все типы PII.

  6. Способность моделей GPT понимать различные термины, связанные с конфиденциальностью, различается. В некоторых подсказках GPT-4 с большей вероятностью может раскрыть конфиденциальность, чем GPT-3.5, что, возможно, связано с тем, что она более строго следует вводящим в заблуждение инструкциям.

Это исследование предоставляет всесторонний взгляд на оценку надежности моделей GPT, выявляя их преимущества и недостатки. Эти выводы имеют важное значение для продвижения безопасного развития и применения больших языковых моделей.

GPT12.4%
Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • 3
  • Репост
  • Поделиться
комментарий
0/400
UncleWhalevip
· 08-07 08:38
Скажи честно, кому еще важна безопасность?
Посмотреть ОригиналОтветить0
BearMarketSurvivorvip
· 08-07 08:29
Эх, теперь GPT обречено.
Посмотреть ОригиналОтветить0
FlatlineTradervip
· 08-07 08:27
gpt4 не безопаснее 3.5? Убил от смеха
Посмотреть ОригиналОтветить0
  • Закрепить