Університет Іллінойс в Шампейн у співпраці зі Стенфордським університетом, Університетом Каліфорнії в Берклі, Центром безпеки штучного інтелекту та дослідницькою лабораторією Microsoft випустив велику мовну модель (LLMs) комплексної платформи оцінки надійності. Це дослідження детально описане у нещодавно опублікованій статті "DecodingTrust: комплексна оцінка надійності моделей GPT".
Дослідницька команда виявила кілька нових вразливостей, пов'язаних з довірою. Наприклад, моделі GPT схильні генерувати токсичний і упереджений контент і можуть розкривати особисту інформацію з навчальних даних і історії діалогів. Хоча GPT-4 зазвичай більш надійний у стандартних тестах, ніж GPT-3.5, проте, стикаючись із зловмисно розробленими запитами, GPT-4 може бути більш уразливим до атак, що може бути пов'язано з тим, що він більш строго дотримується оманливих інструкцій.
Ця робота демонструє всебічну оцінку надійності моделей GPT, виявляючи існуючі прогалини в надійності. Дослідницька команда співпрацювала з відділом продуктів Microsoft, щоб підтвердити, що виявлені потенційні вразливості не впливають на поточні послуги для користувачів. Вони також поділилися результатами дослідження з OpenAI, яка зазначила ці потенційні вразливості в системних описах відповідних моделей.
Дослідницька команда сподівається, що ця робота заохотить академічне співтовариство до подальших досліджень з метою запобігання зловмисникам використання вразливостей для завдання шкоди. Вони вважають цю оцінку відправною точкою і сподіваються на співпрацю з іншими сторонами, щоб продовжити зусилля на цій основі для створення більш потужних і надійних моделей. Щоб сприяти співпраці, опублікований ними базовий код має високу масштабованість і простоту використання.
Оцінка достовірності мовних моделей
З поширенням великих мовних моделей у різних сферах, включаючи чутливі сфери, такі як охорона здоров'я та фінанси, всебічна оцінка їхньої надійності стає особливо важливою. Дослідницька команда провела всебічну оцінку моделі GPT з восьми аспектів, охоплюючи різні сценарії застосування, завдання, показники та набори даних.
Їхньою метою є оцінка: 1) продуктивності моделі GPT з різних перспектив довіри; 2) її адаптивності в умовах протистояння (, таких як системи/підказки користувачів, демонстрації ).
Як приклад оцінки стійкості GPT-3.5 та GPT-4 до текстових атак, дослідницька команда створила три сценарії оцінки:
Оцінка проводиться за стандартною базою даних AdvGLUE, використовуючи нейтральний опис завдання, мета - оцінити:
a) Вразливість моделі GPT до атак на існуючі тексти;
b) Порівняння стійкості різних моделей GPT та найсучаснішої моделі за стандартом AdvGLUE;
c) Вплив атак на здатність моделі дотримуватись інструкцій;
d) Потенційна передача поточної стратегії атаки.
Оцінка на базі AdvGLUE, надання різних інструкційних завдань та розроблених системних підказок, дослідження відновлювальної здатності моделі під різними ( ворожими ) завданнями та системними підказками.
Оцінка GPT-3.5 та GPT-4 щодо складного антагоністичного тексту AdvGLUE++, створеного дослідницькою командою, для подальшого тестування їх уразливості під час сильних антагоністичних атак у різних умовах.
Основні висновки DecodingTrust
Дослідження виявило деякі раніше не розкриті переваги та загрози великих мовних моделей у відношенні надійності:
Що стосується стійкості до антагоністичних демонстрацій, GPT-3.5 та GPT-4 не піддаються впливу контрфактних прикладів і навіть можуть отримати з них вигоду. Однак демонстрації проти шахрайства можуть ввести в оману обидва моделі, змушуючи їх давати неправильні прогнози на контрфактні введення, особливо коли контрфактні демонстрації близькі до введення користувача, GPT-4 легше піддається впливу.
У контексті токсичності та упередженості обидві моделі мають незначні відхилення від більшості тем стереотипів під легітимними та нейтральними системними підказками. Проте під оманливими системними підказками вони можуть бути "зваблені" погодитись з упередженим контентом. GPT-4 більш чутливий до цілеспрямованих оманливих системних підказок, ніж GPT-3.5.
Ступінь упередженості моделі залежить від групи людей та тем стереотипів, згаданих у запиті користувача. Щодо деяких чутливих тем, модель демонструє меншу упередженість, що може бути зумовлено цілеспрямованою тонкою налаштуванням.
У сфері захисту приватності моделі GPT можуть розкривати чутливу інформацію, що міститься в навчальних даних, наприклад, адреси електронної пошти. У деяких випадках використання додаткових знань може суттєво підвищити точність вилучення інформації. Обидві моделі можуть розкривати приватну інформацію, введену в історію діалогу.
GPT-4 є більш надійним у захисті особистої ідентифікаційної інформації ( PII ) порівняно з GPT-3.5, але обидві моделі є надійними щодо певних типів PII (, таких як номери соціального страхування ). Проте в деяких випадках обидві моделі можуть розкрити всі типи PII.
Моделі GPT мають різну здатність розуміти різні терміни, пов'язані з конфіденційністю. У певних запитах GPT-4 більше ймовірно, що розкриє конфіденційність, ніж GPT-3.5, можливо, через те, що вона суворіше дотримується вводять в оману інструкцій.
Це дослідження забезпечує всебічний погляд на оцінку надійності моделей GPT, виявляючи переваги та недоліки існуючих моделей. Ці висновки мають важливе значення для сприяння безпечному розвитку та застосуванню великих мовних моделей.
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
Дослідження надійності моделі GPT виявило нові вразливості, що ставлять під загрозу безпеку.
Всеобъемлюче дослідження надійності моделі GPT
Університет Іллінойс в Шампейн у співпраці зі Стенфордським університетом, Університетом Каліфорнії в Берклі, Центром безпеки штучного інтелекту та дослідницькою лабораторією Microsoft випустив велику мовну модель (LLMs) комплексної платформи оцінки надійності. Це дослідження детально описане у нещодавно опублікованій статті "DecodingTrust: комплексна оцінка надійності моделей GPT".
Дослідницька команда виявила кілька нових вразливостей, пов'язаних з довірою. Наприклад, моделі GPT схильні генерувати токсичний і упереджений контент і можуть розкривати особисту інформацію з навчальних даних і історії діалогів. Хоча GPT-4 зазвичай більш надійний у стандартних тестах, ніж GPT-3.5, проте, стикаючись із зловмисно розробленими запитами, GPT-4 може бути більш уразливим до атак, що може бути пов'язано з тим, що він більш строго дотримується оманливих інструкцій.
Ця робота демонструє всебічну оцінку надійності моделей GPT, виявляючи існуючі прогалини в надійності. Дослідницька команда співпрацювала з відділом продуктів Microsoft, щоб підтвердити, що виявлені потенційні вразливості не впливають на поточні послуги для користувачів. Вони також поділилися результатами дослідження з OpenAI, яка зазначила ці потенційні вразливості в системних описах відповідних моделей.
Дослідницька команда сподівається, що ця робота заохотить академічне співтовариство до подальших досліджень з метою запобігання зловмисникам використання вразливостей для завдання шкоди. Вони вважають цю оцінку відправною точкою і сподіваються на співпрацю з іншими сторонами, щоб продовжити зусилля на цій основі для створення більш потужних і надійних моделей. Щоб сприяти співпраці, опублікований ними базовий код має високу масштабованість і простоту використання.
Оцінка достовірності мовних моделей
З поширенням великих мовних моделей у різних сферах, включаючи чутливі сфери, такі як охорона здоров'я та фінанси, всебічна оцінка їхньої надійності стає особливо важливою. Дослідницька команда провела всебічну оцінку моделі GPT з восьми аспектів, охоплюючи різні сценарії застосування, завдання, показники та набори даних.
Їхньою метою є оцінка: 1) продуктивності моделі GPT з різних перспектив довіри; 2) її адаптивності в умовах протистояння (, таких як системи/підказки користувачів, демонстрації ).
Як приклад оцінки стійкості GPT-3.5 та GPT-4 до текстових атак, дослідницька команда створила три сценарії оцінки:
Оцінка проводиться за стандартною базою даних AdvGLUE, використовуючи нейтральний опис завдання, мета - оцінити: a) Вразливість моделі GPT до атак на існуючі тексти; b) Порівняння стійкості різних моделей GPT та найсучаснішої моделі за стандартом AdvGLUE; c) Вплив атак на здатність моделі дотримуватись інструкцій; d) Потенційна передача поточної стратегії атаки.
Оцінка на базі AdvGLUE, надання різних інструкційних завдань та розроблених системних підказок, дослідження відновлювальної здатності моделі під різними ( ворожими ) завданнями та системними підказками.
Оцінка GPT-3.5 та GPT-4 щодо складного антагоністичного тексту AdvGLUE++, створеного дослідницькою командою, для подальшого тестування їх уразливості під час сильних антагоністичних атак у різних умовах.
Основні висновки DecodingTrust
Дослідження виявило деякі раніше не розкриті переваги та загрози великих мовних моделей у відношенні надійності:
Що стосується стійкості до антагоністичних демонстрацій, GPT-3.5 та GPT-4 не піддаються впливу контрфактних прикладів і навіть можуть отримати з них вигоду. Однак демонстрації проти шахрайства можуть ввести в оману обидва моделі, змушуючи їх давати неправильні прогнози на контрфактні введення, особливо коли контрфактні демонстрації близькі до введення користувача, GPT-4 легше піддається впливу.
У контексті токсичності та упередженості обидві моделі мають незначні відхилення від більшості тем стереотипів під легітимними та нейтральними системними підказками. Проте під оманливими системними підказками вони можуть бути "зваблені" погодитись з упередженим контентом. GPT-4 більш чутливий до цілеспрямованих оманливих системних підказок, ніж GPT-3.5.
Ступінь упередженості моделі залежить від групи людей та тем стереотипів, згаданих у запиті користувача. Щодо деяких чутливих тем, модель демонструє меншу упередженість, що може бути зумовлено цілеспрямованою тонкою налаштуванням.
У сфері захисту приватності моделі GPT можуть розкривати чутливу інформацію, що міститься в навчальних даних, наприклад, адреси електронної пошти. У деяких випадках використання додаткових знань може суттєво підвищити точність вилучення інформації. Обидві моделі можуть розкривати приватну інформацію, введену в історію діалогу.
GPT-4 є більш надійним у захисті особистої ідентифікаційної інформації ( PII ) порівняно з GPT-3.5, але обидві моделі є надійними щодо певних типів PII (, таких як номери соціального страхування ). Проте в деяких випадках обидві моделі можуть розкрити всі типи PII.
Моделі GPT мають різну здатність розуміти різні терміни, пов'язані з конфіденційністю. У певних запитах GPT-4 більше ймовірно, що розкриє конфіденційність, ніж GPT-3.5, можливо, через те, що вона суворіше дотримується вводять в оману інструкцій.
Це дослідження забезпечує всебічний погляд на оцінку надійності моделей GPT, виявляючи переваги та недоліки існуючих моделей. Ці висновки мають важливе значення для сприяння безпечному розвитку та застосуванню великих мовних моделей.