Penelitian tentang keandalan model GPT mengungkapkan celah baru, ada risiko terhadap keamanan.

Penelitian Komprehensif tentang Keandalan Model GPT

Universitas Illinois di Champaign bekerja sama dengan Universitas Stanford, Universitas California di Berkeley, Pusat Keamanan Kecerdasan Buatan, dan Microsoft Research untuk meluncurkan platform penilaian kepercayaan komprehensif untuk model bahasa besar (LLMs). Penelitian ini dijelaskan secara rinci dalam makalah terbaru berjudul "DecodingTrust: Penilaian Komprehensif Terhadap Kepercayaan Model GPT."

Tim penelitian telah menemukan beberapa kerentanan baru yang terkait dengan kredibilitas. Misalnya, model GPT cenderung menghasilkan keluaran yang beracun dan bias, dan mungkin membocorkan informasi pribadi dari data pelatihan dan riwayat percakapan. Meskipun GPT-4 biasanya lebih dapat diandalkan daripada GPT-3.5 dalam pengujian standar, saat menghadapi prompt yang dirancang dengan jahat, GPT-4 justru lebih mudah diserang, yang mungkin disebabkan oleh kepatuhannya yang lebih ketat terhadap instruksi yang menyesatkan.

Pekerjaan ini menunjukkan penilaian komprehensif terhadap keandalan model GPT, mengungkapkan adanya kesenjangan keandalan. Tim penelitian bekerja sama dengan departemen produk Microsoft untuk memastikan bahwa potensi kerentanan yang ditemukan tidak mempengaruhi layanan yang ada untuk pengguna. Mereka juga berbagi temuan penelitian dengan OpenAI, yang telah mencatat potensi kerentanan ini dalam dokumentasi sistem model terkait.

Tim peneliti berharap melalui pekerjaan ini untuk mendorong akademisi melakukan penelitian lebih lanjut, guna mencegah pelaku buruk memanfaatkan kerentanan untuk menyebabkan kerugian. Mereka melihat penilaian ini sebagai titik awal dan berharap dapat bekerja sama dengan pihak lain untuk terus berupaya menciptakan model yang lebih kuat dan dapat dipercaya. Untuk memfasilitasi kolaborasi, kode referensi yang mereka rilis memiliki skalabilitas dan kemudahan penggunaan yang tinggi.

Perspektif Penilaian Keandalan Model Bahasa

Dengan penerapan luas model bahasa besar di berbagai bidang, termasuk perawatan kesehatan dan keuangan yang sensitif, evaluasi menyeluruh tentang keandalannya menjadi sangat penting. Tim peneliti melakukan evaluasi menyeluruh terhadap model GPT dari delapan sudut pandang, mencakup berbagai skenario aplikasi, tugas, indikator, dan dataset.

Tujuan mereka adalah untuk mengevaluasi:1) kinerja model GPT dalam perspektif kepercayaan yang berbeda; 2) kemampuannya untuk beradaptasi dalam lingkungan yang menantang ( seperti sistem/perintah pengguna yang bersifat antagonis, dan demonstrasi ).

Sebagai contoh untuk mengevaluasi ketahanan GPT-3.5 dan GPT-4 terhadap serangan adversarial pada teks, tim penelitian membangun tiga skenario evaluasi:

  1. Evaluasi dilakukan pada benchmark AdvGLUE standar, dengan deskripsi tugas netral, bertujuan untuk mengevaluasi: a) Kerentanan model GPT terhadap serangan adversarial pada teks yang ada; b) Perbandingan ketahanan model GPT yang berbeda dan model paling canggih pada tolok ukur AdvGLUE; c) Pengaruh serangan terhadap kemampuan model untuk mengikuti instruksi; d) Keteralihan strategi serangan saat ini.

  2. Melakukan evaluasi pada benchmark AdvGLUE, memberikan berbagai instruksi tugas panduan dan desain petunjuk sistem, serta menyelidiki kemampuan pemulihan model di bawah instruksi tugas dan petunjuk sistem yang berbeda.

  3. Melakukan evaluasi terhadap teks adversarial yang menantang AdvGLUE++ yang dihasilkan oleh tim peneliti menggunakan GPT-3.5 dan GPT-4, untuk menguji lebih lanjut kerentanan mereka saat menghadapi serangan adversarial yang kuat di berbagai lingkungan.

Temuan Utama DecodingTrust

Penelitian menemukan beberapa keuntungan dan ancaman yang sebelumnya tidak diungkapkan tentang model bahasa besar dalam hal keandalan:

  1. Dalam hal ketahanan demonstrasi adversarial, GPT-3.5 dan GPT-4 tidak akan tersesat oleh contoh kontra-faktual, bahkan mungkin mendapatkan manfaat darinya. Namun, demonstrasi anti-penipuan dapat menyesatkan kedua model untuk membuat prediksi yang salah terhadap input kontra-faktual, terutama ketika demonstrasi kontra-faktual dekat dengan input pengguna, GPT-4 lebih mudah terpengaruh.

  2. Dalam hal toksisitas dan bias, kedua model menunjukkan sedikit perbedaan dalam subjek stereotip di bawah sistem prompt yang baik dan netral. Namun, di bawah sistem prompt yang menyesatkan, mereka mungkin "tertipu" untuk setuju dengan konten yang bias. GPT-4 lebih mudah dipengaruhi oleh sistem prompt menyesatkan yang diarahkan dibandingkan dengan GPT-3.5.

  3. Tingkat bias model tergantung pada kelompok dan tema stereotip yang disebutkan dalam petunjuk pengguna. Untuk beberapa topik sensitif, model menunjukkan bias yang lebih kecil, yang mungkin disebabkan oleh penyesuaian halus yang ditargetkan.

  4. Dalam hal perlindungan privasi, model GPT mungkin akan mengungkapkan informasi sensitif dari data pelatihan, seperti alamat email. Dalam beberapa kasus, memanfaatkan pengetahuan tambahan dapat secara signifikan meningkatkan akurasi ekstraksi informasi. Kedua model mungkin mengungkapkan informasi pribadi yang disisipkan dalam riwayat percakapan.

  5. GPT-4 lebih kuat dalam melindungi informasi identitas pribadi ( PII ) dibandingkan dengan GPT-3.5, tetapi kedua model sangat kuat terhadap jenis PII tertentu ( seperti nomor jaminan sosial ). Namun, dalam beberapa kasus, kedua model dapat membocorkan semua jenis PII.

  6. Model GPT memiliki pemahaman yang berbeda terhadap berbagai kosakata yang terkait dengan privasi. Di bawah beberapa petunjuk, GPT-4 lebih mungkin membocorkan privasi dibandingkan GPT-3.5, yang mungkin disebabkan oleh kepatuhannya yang lebih ketat terhadap instruksi yang menyesatkan.

Penelitian ini memberikan perspektif yang komprehensif untuk penilaian kredibilitas model GPT, mengungkapkan kelebihan dan kekurangan model yang ada. Temuan ini memiliki makna penting untuk mendorong pengembangan dan penerapan model bahasa besar yang aman.

GPT17.01%
Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • 3
  • Bagikan
Komentar
0/400
UncleWhalevip
· 08-07 08:38
Jujur saja, siapa yang masih peduli tentang keamanan?
Lihat AsliBalas0
BearMarketSurvivorvip
· 08-07 08:29
Eh, sekarang GPT doomed.
Lihat AsliBalas0
FlatlineTradervip
· 08-07 08:27
gpt4 tidak seaman 3.5? Mati tertawa
Lihat AsliBalas0
Perdagangkan Kripto Di Mana Saja Kapan Saja
qrCode
Pindai untuk mengunduh aplikasi Gate
Komunitas
Bahasa Indonesia
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)