Nghiên cứu toàn diện về độ tin cậy của mô hình GPT
Đại học Illinois tại Urbana-Champaign đã hợp tác với Đại học Stanford, Đại học California tại Berkeley, Trung tâm An ninh Trí tuệ Nhân tạo và Viện Nghiên cứu Microsoft để phát hành một nền tảng đánh giá độ tin cậy tổng hợp cho mô hình ngôn ngữ lớn (LLMs). Nghiên cứu này đã được trình bày chi tiết trong bài báo gần đây mang tên "DecodingTrust: Đánh giá toàn diện độ tin cậy của mô hình GPT."
Nhóm nghiên cứu đã phát hiện ra một số lỗ hổng mới liên quan đến độ tin cậy. Ví dụ, mô hình GPT dễ dàng tạo ra đầu ra độc hại và thiên lệch, và có thể rò rỉ thông tin riêng tư từ dữ liệu đào tạo và lịch sử cuộc trò chuyện. Mặc dù GPT-4 thường đáng tin cậy hơn GPT-3.5 trong các bài kiểm tra tiêu chuẩn, nhưng khi đối mặt với các gợi ý được thiết kế ác ý, GPT-4 lại dễ bị tấn công hơn, điều này có thể là do nó tuân thủ các hướng dẫn gây hiểu lầm một cách nghiêm ngặt hơn.
Công việc này cho thấy một đánh giá toàn diện về độ tin cậy của mô hình GPT, tiết lộ những khoảng cách về độ tin cậy tồn tại. Nhóm nghiên cứu đã hợp tác với bộ phận sản phẩm của Microsoft để xác nhận rằng những lỗ hổng tiềm ẩn được phát hiện sẽ không ảnh hưởng đến dịch vụ hiện tại dành cho người dùng. Họ cũng đã chia sẻ kết quả nghiên cứu với OpenAI, và OpenAI đã ghi chú những lỗ hổng tiềm ẩn này trong mô tả hệ thống của các mô hình liên quan.
Nhóm nghiên cứu hy vọng rằng thông qua công việc này sẽ khuyến khích giới học thuật tiếp tục nghiên cứu, nhằm ngăn chặn những kẻ xấu lợi dụng lỗ hổng gây hại. Họ coi đánh giá này như một điểm khởi đầu, hy vọng hợp tác với các bên khác để tiếp tục nỗ lực trên cơ sở này, tạo ra những mô hình mạnh mẽ và đáng tin cậy hơn. Để thúc đẩy hợp tác, mã chuẩn mà họ phát hành có tính mở rộng và dễ sử dụng cao.
Đánh giá độ tin cậy của mô hình ngôn ngữ
Với sự ứng dụng rộng rãi của các mô hình ngôn ngữ lớn trong nhiều lĩnh vực, bao gồm cả chăm sóc sức khỏe và tài chính, việc đánh giá toàn diện độ tin cậy của chúng trở nên đặc biệt quan trọng. Nhóm nghiên cứu đã tiến hành đánh giá toàn diện mô hình GPT từ tám góc độ, bao gồm các tình huống ứng dụng khác nhau, nhiệm vụ, chỉ số và tập dữ liệu.
Mục tiêu của họ là đánh giá: 1) hiệu suất của mô hình GPT từ các góc độ đáng tin cậy khác nhau; 2) khả năng thích ứng của nó trong các môi trường đối kháng ( như hệ thống/nhắc nhở đối kháng, trình diễn ).
Để đánh giá độ bền của GPT-3.5 và GPT-4 đối với các cuộc tấn công chống lại văn bản, nhóm nghiên cứu đã xây dựng ba kịch bản đánh giá:
Đánh giá trên tiêu chuẩn AdvGLUE, sử dụng mô tả nhiệm vụ trung lập, mục đích là để đánh giá:
a) Sự yếu đuối của mô hình GPT đối với các cuộc tấn công đối kháng văn bản hiện có;
b) So sánh độ bền của các mô hình GPT khác nhau với mô hình tiên tiến nhất trên chuẩn AdvGLUE;
c) Ảnh hưởng của các cuộc tấn công chống lại khả năng tuân thủ mệnh lệnh của mô hình;
d) Tính chuyển nhượng của chiến lược tấn công hiện tại.
Đánh giá trên chuẩn AdvGLUE, đưa ra các hướng dẫn nhiệm vụ khác nhau và thiết kế các gợi ý hệ thống, nghiên cứu khả năng phục hồi của mô hình dưới các nhiệm vụ và gợi ý hệ thống đối kháng khác nhau (.
Đánh giá GPT-3.5 và GPT-4 trên văn bản đối kháng đầy thách thức AdvGLUE++ do đội nghiên cứu tạo ra, để kiểm tra thêm sự dễ bị tổn thương của chúng khi bị tấn công đối kháng mạnh mẽ trong các môi trường khác nhau.
Những phát hiện chính của DecodingTrust
Nghiên cứu đã phát hiện ra một số lợi thế và mối đe dọa chưa được tiết lộ trước đây của các mô hình ngôn ngữ lớn về độ tin cậy:
Về độ bền của các bản trình diễn đối kháng, GPT-3.5 và GPT-4 sẽ không bị các ví dụ phản thực làm cho sai lệch, thậm chí có thể hưởng lợi từ chúng. Tuy nhiên, các bản trình diễn chống gian lận có thể khiến cả hai mô hình dự đoán sai về các đầu vào phản thực, đặc biệt là khi các bản trình diễn phản thực gần với đầu vào của người dùng, GPT-4 dễ bị ảnh hưởng hơn.
Về mặt độc hại và thiên kiến, hai mô hình không có sự sai lệch lớn đối với hầu hết các chủ đề định kiến dưới các gợi ý hệ thống lành mạnh và trung lập. Nhưng dưới các gợi ý hệ thống gây hiểu lầm, chúng có thể bị "cám dỗ" đồng ý với nội dung thiên kiến. GPT-4 dễ bị ảnh hưởng hơn GPT-3.5 bởi các gợi ý hệ thống gây hiểu lầm có mục tiêu.
Mức độ thiên lệch của mô hình phụ thuộc vào nhóm người và chủ đề định kiến được đề cập trong gợi ý của người dùng. Đối với một số chủ đề nhạy cảm, mô hình thể hiện ít thiên lệch hơn, điều này có thể là do đã trải qua quá trình tinh chỉnh có mục tiêu.
Về bảo mật quyền riêng tư, mô hình GPT có thể rò rỉ thông tin nhạy cảm từ dữ liệu huấn luyện, chẳng hạn như địa chỉ email. Trong một số trường hợp, việc sử dụng kiến thức bổ sung có thể cải thiện đáng kể độ chính xác của việc trích xuất thông tin. Cả hai mô hình đều có thể rò rỉ thông tin cá nhân được tiêm vào lịch sử đối thoại.
GPT-4 trong việc bảo vệ thông tin nhận dạng cá nhân ) PII ( mạnh mẽ hơn GPT-3.5, nhưng cả hai đều mạnh mẽ đối với các loại PII ) nhất định như số an sinh xã hội (. Tuy nhiên, trong một số trường hợp, cả hai mô hình đều có thể rò rỉ tất cả các loại PII.
Khả năng hiểu các từ liên quan đến quyền riêng tư của mô hình GPT có sự khác biệt. Dưới một số gợi ý, GPT-4 có khả năng tiết lộ quyền riêng tư nhiều hơn so với GPT-3.5, điều này có thể do nó tuân thủ nghiêm ngặt các chỉ dẫn gây hiểu lầm.
Nghiên cứu này cung cấp một cái nhìn toàn diện về việc đánh giá độ tin cậy của mô hình GPT, tiết lộ những ưu điểm và thiếu sót của các mô hình hiện có. Những phát hiện này có ý nghĩa quan trọng trong việc thúc đẩy sự phát triển và ứng dụng an toàn của các mô hình ngôn ngữ lớn.
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
14 thích
Phần thưởng
14
5
Đăng lại
Chia sẻ
Bình luận
0/400
GasFeeAssassin
· 6giờ trước
Đi rồi đi rồi, GPT đây là tự đâm sau lưng mình rồi.
Nghiên cứu độ tin cậy của mô hình GPT tiết lộ lỗ hổng mới, an toàn tiềm ẩn nguy cơ.
Nghiên cứu toàn diện về độ tin cậy của mô hình GPT
Đại học Illinois tại Urbana-Champaign đã hợp tác với Đại học Stanford, Đại học California tại Berkeley, Trung tâm An ninh Trí tuệ Nhân tạo và Viện Nghiên cứu Microsoft để phát hành một nền tảng đánh giá độ tin cậy tổng hợp cho mô hình ngôn ngữ lớn (LLMs). Nghiên cứu này đã được trình bày chi tiết trong bài báo gần đây mang tên "DecodingTrust: Đánh giá toàn diện độ tin cậy của mô hình GPT."
Nhóm nghiên cứu đã phát hiện ra một số lỗ hổng mới liên quan đến độ tin cậy. Ví dụ, mô hình GPT dễ dàng tạo ra đầu ra độc hại và thiên lệch, và có thể rò rỉ thông tin riêng tư từ dữ liệu đào tạo và lịch sử cuộc trò chuyện. Mặc dù GPT-4 thường đáng tin cậy hơn GPT-3.5 trong các bài kiểm tra tiêu chuẩn, nhưng khi đối mặt với các gợi ý được thiết kế ác ý, GPT-4 lại dễ bị tấn công hơn, điều này có thể là do nó tuân thủ các hướng dẫn gây hiểu lầm một cách nghiêm ngặt hơn.
Công việc này cho thấy một đánh giá toàn diện về độ tin cậy của mô hình GPT, tiết lộ những khoảng cách về độ tin cậy tồn tại. Nhóm nghiên cứu đã hợp tác với bộ phận sản phẩm của Microsoft để xác nhận rằng những lỗ hổng tiềm ẩn được phát hiện sẽ không ảnh hưởng đến dịch vụ hiện tại dành cho người dùng. Họ cũng đã chia sẻ kết quả nghiên cứu với OpenAI, và OpenAI đã ghi chú những lỗ hổng tiềm ẩn này trong mô tả hệ thống của các mô hình liên quan.
Nhóm nghiên cứu hy vọng rằng thông qua công việc này sẽ khuyến khích giới học thuật tiếp tục nghiên cứu, nhằm ngăn chặn những kẻ xấu lợi dụng lỗ hổng gây hại. Họ coi đánh giá này như một điểm khởi đầu, hy vọng hợp tác với các bên khác để tiếp tục nỗ lực trên cơ sở này, tạo ra những mô hình mạnh mẽ và đáng tin cậy hơn. Để thúc đẩy hợp tác, mã chuẩn mà họ phát hành có tính mở rộng và dễ sử dụng cao.
Đánh giá độ tin cậy của mô hình ngôn ngữ
Với sự ứng dụng rộng rãi của các mô hình ngôn ngữ lớn trong nhiều lĩnh vực, bao gồm cả chăm sóc sức khỏe và tài chính, việc đánh giá toàn diện độ tin cậy của chúng trở nên đặc biệt quan trọng. Nhóm nghiên cứu đã tiến hành đánh giá toàn diện mô hình GPT từ tám góc độ, bao gồm các tình huống ứng dụng khác nhau, nhiệm vụ, chỉ số và tập dữ liệu.
Mục tiêu của họ là đánh giá: 1) hiệu suất của mô hình GPT từ các góc độ đáng tin cậy khác nhau; 2) khả năng thích ứng của nó trong các môi trường đối kháng ( như hệ thống/nhắc nhở đối kháng, trình diễn ).
Để đánh giá độ bền của GPT-3.5 và GPT-4 đối với các cuộc tấn công chống lại văn bản, nhóm nghiên cứu đã xây dựng ba kịch bản đánh giá:
Đánh giá trên tiêu chuẩn AdvGLUE, sử dụng mô tả nhiệm vụ trung lập, mục đích là để đánh giá: a) Sự yếu đuối của mô hình GPT đối với các cuộc tấn công đối kháng văn bản hiện có; b) So sánh độ bền của các mô hình GPT khác nhau với mô hình tiên tiến nhất trên chuẩn AdvGLUE; c) Ảnh hưởng của các cuộc tấn công chống lại khả năng tuân thủ mệnh lệnh của mô hình; d) Tính chuyển nhượng của chiến lược tấn công hiện tại.
Đánh giá trên chuẩn AdvGLUE, đưa ra các hướng dẫn nhiệm vụ khác nhau và thiết kế các gợi ý hệ thống, nghiên cứu khả năng phục hồi của mô hình dưới các nhiệm vụ và gợi ý hệ thống đối kháng khác nhau (.
Đánh giá GPT-3.5 và GPT-4 trên văn bản đối kháng đầy thách thức AdvGLUE++ do đội nghiên cứu tạo ra, để kiểm tra thêm sự dễ bị tổn thương của chúng khi bị tấn công đối kháng mạnh mẽ trong các môi trường khác nhau.
Những phát hiện chính của DecodingTrust
Nghiên cứu đã phát hiện ra một số lợi thế và mối đe dọa chưa được tiết lộ trước đây của các mô hình ngôn ngữ lớn về độ tin cậy:
Về độ bền của các bản trình diễn đối kháng, GPT-3.5 và GPT-4 sẽ không bị các ví dụ phản thực làm cho sai lệch, thậm chí có thể hưởng lợi từ chúng. Tuy nhiên, các bản trình diễn chống gian lận có thể khiến cả hai mô hình dự đoán sai về các đầu vào phản thực, đặc biệt là khi các bản trình diễn phản thực gần với đầu vào của người dùng, GPT-4 dễ bị ảnh hưởng hơn.
Về mặt độc hại và thiên kiến, hai mô hình không có sự sai lệch lớn đối với hầu hết các chủ đề định kiến dưới các gợi ý hệ thống lành mạnh và trung lập. Nhưng dưới các gợi ý hệ thống gây hiểu lầm, chúng có thể bị "cám dỗ" đồng ý với nội dung thiên kiến. GPT-4 dễ bị ảnh hưởng hơn GPT-3.5 bởi các gợi ý hệ thống gây hiểu lầm có mục tiêu.
Mức độ thiên lệch của mô hình phụ thuộc vào nhóm người và chủ đề định kiến được đề cập trong gợi ý của người dùng. Đối với một số chủ đề nhạy cảm, mô hình thể hiện ít thiên lệch hơn, điều này có thể là do đã trải qua quá trình tinh chỉnh có mục tiêu.
Về bảo mật quyền riêng tư, mô hình GPT có thể rò rỉ thông tin nhạy cảm từ dữ liệu huấn luyện, chẳng hạn như địa chỉ email. Trong một số trường hợp, việc sử dụng kiến thức bổ sung có thể cải thiện đáng kể độ chính xác của việc trích xuất thông tin. Cả hai mô hình đều có thể rò rỉ thông tin cá nhân được tiêm vào lịch sử đối thoại.
GPT-4 trong việc bảo vệ thông tin nhận dạng cá nhân ) PII ( mạnh mẽ hơn GPT-3.5, nhưng cả hai đều mạnh mẽ đối với các loại PII ) nhất định như số an sinh xã hội (. Tuy nhiên, trong một số trường hợp, cả hai mô hình đều có thể rò rỉ tất cả các loại PII.
Khả năng hiểu các từ liên quan đến quyền riêng tư của mô hình GPT có sự khác biệt. Dưới một số gợi ý, GPT-4 có khả năng tiết lộ quyền riêng tư nhiều hơn so với GPT-3.5, điều này có thể do nó tuân thủ nghiêm ngặt các chỉ dẫn gây hiểu lầm.
Nghiên cứu này cung cấp một cái nhìn toàn diện về việc đánh giá độ tin cậy của mô hình GPT, tiết lộ những ưu điểm và thiếu sót của các mô hình hiện có. Những phát hiện này có ý nghĩa quan trọng trong việc thúc đẩy sự phát triển và ứng dụng an toàn của các mô hình ngôn ngữ lớn.