Университет Иллинойс в Урбана-Шампейн совместно со Стэнфордским университетом, Университетом Калифорнии в Беркли, Центром безопасности искусственного интеллекта и Исследовательским институтом Microsoft выпустил платформу комплексной оценки надежности крупных языковых моделей (LLMs). Это исследование подробно описано в недавно опубликованной статье "DecodingTrust: Полная оценка надежности моделей GPT."
Исследовательская команда обнаружила несколько новых уязвимостей, связанных с надежностью. Например, модели GPT склонны генерировать токсичный и предвзятый вывод, а также могут раскрывать личную информацию из обучающих данных и истории диалогов. Хотя GPT-4 обычно более надежен, чем GPT-3.5, при столкновении с злонамеренно разработанными подсказками GPT-4, наоборот, легче поддается атакам, что может быть связано с тем, что он более строго следует вводящим в заблуждение инструкциям.
Эта работа демонстрирует всестороннюю оценку надежности модели GPT и выявляет существующие разрывы в надежности. Исследовательская группа сотрудничала с продуктовым подразделением Microsoft, подтвердив, что обнаруженные потенциальные уязвимости не повлияют на текущие услуги для пользователей. Они также поделились результатами исследования с OpenAI, которая отметила эти потенциальные уязвимости в системной документации соответствующих моделей.
Исследовательская группа надеется, что эта работа побудит академическое сообщество углубить исследования в целях предотвращения использования уязвимостей злонамеренными участниками. Они рассматривают эту оценку как отправную точку и надеются сотрудничать с другими сторонами, чтобы продолжить усилия на этой основе, создавая более мощные и надежные модели. Для содействия сотрудничеству они выпустили эталонный код с высокой масштабируемостью и удобством использования.
Оценка достоверности языковых моделей
С учетом широкого применения больших языковых моделей в различных областях, включая такие чувствительные сферы, как здравоохранение и финансы, становится особенно важным проводить всестороннюю оценку их надежности. Исследовательская команда провела полную оценку модели GPT с восьми различных точек зрения, охватывающих различные сценарии применения, задачи, показатели и наборы данных.
Их цель - оценить: 1) производительность модели GPT с разных перспектив доверия; 2) ее адаптивность в противостоящей среде (, такой как противостоящие системы/подсказки пользователей, демонстрации ).
Для оценки устойчивости GPT-3.5 и GPT-4 к текстовым атакам, исследовательская группа разработала три сценария оценки:
Провести оценку на стандартном наборе данных AdvGLUE с использованием нейтрального описания задачи, целью является оценка:
a) Уязвимость модели GPT к существующим текстовым атакам.
b) Сравнение устойчивости различных моделей GPT и самых современных моделей на бенчмарке AdvGLUE;
c) Влияние атак противодействия на способность модели следовать инструкциям;
d) Текущая переносимость стратегии атаки.
Оценка на базе AdvGLUE, предоставление различных инструкций по задачам и разработанных системных подсказок, исследование способности модели восстанавливаться в условиях различных ( антагонистических ) инструкций по задачам и системных подсказок.
Оценка GPT-3.5 и GPT-4 на сложных противостоящих текстах AdvGLUE++, сгенерированных исследовательской группой, для дальнейшего тестирования их уязвимости под сильными противостоящими атаками в различных условиях.
Основные выводы DecodingTrust
Исследование выявило некоторые ранее нераскрытые преимущества и угрозы крупных языковых моделей в отношении надежности:
В отношении устойчивости к противостоящим демонстрациям, GPT-3.5 и GPT-4 не будут дезориентированы контрфактическими примерами и могут даже извлечь из них выгоду. Однако демонстрации противодействия мошенничеству могут ввести оба модели в заблуждение и привести к ошибочным прогнозам по контрфактическим входным данным, особенно когда контрфактические демонстрации близки к пользовательскому вводу, GPT-4 оказывается более подверженным влиянию.
В отношении токсичности и предвзятости оба модели демонстрируют незначительные отклонения по большинству тем стереотипов под доброжелательными и нейтральными системными подсказками. Однако под вводящими в заблуждение системными подсказками они могут быть "завлечены" в согласие с предвзятым содержанием. GPT-4 легче поддается влиянию целенаправленных вводящих в заблуждение системных подсказок, чем GPT-3.5.
Степень предвзятости модели зависит от упомянутых в запросе пользователей групп и тем стереотипов. По некоторым чувствительным темам модель демонстрирует меньшую предвзятость, что может быть связано с целенаправленной донастройкой.
В отношении защиты конфиденциальности модель GPT может раскрывать чувствительную информацию из обучающих данных, такую как адреса электронной почты. В некоторых случаях использование дополнительной информации может значительно повысить точность извлечения информации. Оба модели могут раскрывать личную информацию, введенную в историю диалогов.
GPT-4 более надежен в защите личной идентифицируемой информации ( PII ) по сравнению с GPT-3.5, но оба модели достаточно надежны в отношении определенных типов PII (, таких как номера социального страхования ). Однако, в некоторых случаях обе модели могут раскрывать все типы PII.
Способность моделей GPT понимать различные термины, связанные с конфиденциальностью, различается. В некоторых подсказках GPT-4 с большей вероятностью может раскрыть конфиденциальность, чем GPT-3.5, что, возможно, связано с тем, что она более строго следует вводящим в заблуждение инструкциям.
Это исследование предоставляет всесторонний взгляд на оценку надежности моделей GPT, выявляя их преимущества и недостатки. Эти выводы имеют важное значение для продвижения безопасного развития и применения больших языковых моделей.
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
Исследование надежности модели GPT выявило новые уязвимости, безопасность под угрозой.
Полное исследование доверия модели GPT
Университет Иллинойс в Урбана-Шампейн совместно со Стэнфордским университетом, Университетом Калифорнии в Беркли, Центром безопасности искусственного интеллекта и Исследовательским институтом Microsoft выпустил платформу комплексной оценки надежности крупных языковых моделей (LLMs). Это исследование подробно описано в недавно опубликованной статье "DecodingTrust: Полная оценка надежности моделей GPT."
Исследовательская команда обнаружила несколько новых уязвимостей, связанных с надежностью. Например, модели GPT склонны генерировать токсичный и предвзятый вывод, а также могут раскрывать личную информацию из обучающих данных и истории диалогов. Хотя GPT-4 обычно более надежен, чем GPT-3.5, при столкновении с злонамеренно разработанными подсказками GPT-4, наоборот, легче поддается атакам, что может быть связано с тем, что он более строго следует вводящим в заблуждение инструкциям.
Эта работа демонстрирует всестороннюю оценку надежности модели GPT и выявляет существующие разрывы в надежности. Исследовательская группа сотрудничала с продуктовым подразделением Microsoft, подтвердив, что обнаруженные потенциальные уязвимости не повлияют на текущие услуги для пользователей. Они также поделились результатами исследования с OpenAI, которая отметила эти потенциальные уязвимости в системной документации соответствующих моделей.
Исследовательская группа надеется, что эта работа побудит академическое сообщество углубить исследования в целях предотвращения использования уязвимостей злонамеренными участниками. Они рассматривают эту оценку как отправную точку и надеются сотрудничать с другими сторонами, чтобы продолжить усилия на этой основе, создавая более мощные и надежные модели. Для содействия сотрудничеству они выпустили эталонный код с высокой масштабируемостью и удобством использования.
Оценка достоверности языковых моделей
С учетом широкого применения больших языковых моделей в различных областях, включая такие чувствительные сферы, как здравоохранение и финансы, становится особенно важным проводить всестороннюю оценку их надежности. Исследовательская команда провела полную оценку модели GPT с восьми различных точек зрения, охватывающих различные сценарии применения, задачи, показатели и наборы данных.
Их цель - оценить: 1) производительность модели GPT с разных перспектив доверия; 2) ее адаптивность в противостоящей среде (, такой как противостоящие системы/подсказки пользователей, демонстрации ).
Для оценки устойчивости GPT-3.5 и GPT-4 к текстовым атакам, исследовательская группа разработала три сценария оценки:
Провести оценку на стандартном наборе данных AdvGLUE с использованием нейтрального описания задачи, целью является оценка: a) Уязвимость модели GPT к существующим текстовым атакам. b) Сравнение устойчивости различных моделей GPT и самых современных моделей на бенчмарке AdvGLUE; c) Влияние атак противодействия на способность модели следовать инструкциям; d) Текущая переносимость стратегии атаки.
Оценка на базе AdvGLUE, предоставление различных инструкций по задачам и разработанных системных подсказок, исследование способности модели восстанавливаться в условиях различных ( антагонистических ) инструкций по задачам и системных подсказок.
Оценка GPT-3.5 и GPT-4 на сложных противостоящих текстах AdvGLUE++, сгенерированных исследовательской группой, для дальнейшего тестирования их уязвимости под сильными противостоящими атаками в различных условиях.
Основные выводы DecodingTrust
Исследование выявило некоторые ранее нераскрытые преимущества и угрозы крупных языковых моделей в отношении надежности:
В отношении устойчивости к противостоящим демонстрациям, GPT-3.5 и GPT-4 не будут дезориентированы контрфактическими примерами и могут даже извлечь из них выгоду. Однако демонстрации противодействия мошенничеству могут ввести оба модели в заблуждение и привести к ошибочным прогнозам по контрфактическим входным данным, особенно когда контрфактические демонстрации близки к пользовательскому вводу, GPT-4 оказывается более подверженным влиянию.
В отношении токсичности и предвзятости оба модели демонстрируют незначительные отклонения по большинству тем стереотипов под доброжелательными и нейтральными системными подсказками. Однако под вводящими в заблуждение системными подсказками они могут быть "завлечены" в согласие с предвзятым содержанием. GPT-4 легче поддается влиянию целенаправленных вводящих в заблуждение системных подсказок, чем GPT-3.5.
Степень предвзятости модели зависит от упомянутых в запросе пользователей групп и тем стереотипов. По некоторым чувствительным темам модель демонстрирует меньшую предвзятость, что может быть связано с целенаправленной донастройкой.
В отношении защиты конфиденциальности модель GPT может раскрывать чувствительную информацию из обучающих данных, такую как адреса электронной почты. В некоторых случаях использование дополнительной информации может значительно повысить точность извлечения информации. Оба модели могут раскрывать личную информацию, введенную в историю диалогов.
GPT-4 более надежен в защите личной идентифицируемой информации ( PII ) по сравнению с GPT-3.5, но оба модели достаточно надежны в отношении определенных типов PII (, таких как номера социального страхования ). Однако, в некоторых случаях обе модели могут раскрывать все типы PII.
Способность моделей GPT понимать различные термины, связанные с конфиденциальностью, различается. В некоторых подсказках GPT-4 с большей вероятностью может раскрыть конфиденциальность, чем GPT-3.5, что, возможно, связано с тем, что она более строго следует вводящим в заблуждение инструкциям.
Это исследование предоставляет всесторонний взгляд на оценку надежности моделей GPT, выявляя их преимущества и недостатки. Эти выводы имеют важное значение для продвижения безопасного развития и применения больших языковых моделей.