Jailbreak: Mối đe dọa kết hợp giữa mức độ dễ tiếp cận, khả năng mở rộng và tính thích nghi trong chatbot AI
Nghiên cứu mới từ Đại học Ben Gurion cho thấy hầu hết các chatbot AI hiện nay, bao gồm ChatGPT, Gemini và Claude, đều có thể dễ dàng bị 'jailbreak', dẫn đến việc cung cấp thông tin nguy hiểm. Đồng thời, sự xuất hiện của 'Dark LLMs' - mô hình AI được thiết kế không có rào cản đạo đức - cũng là một mối đe dọa an ninh nghiêm trọng.

Hầu hết các chatbot AI hiện nay có thể dễ dàng bị 'jailbreak', tức là bị lừa để vượt qua các rào cản an toàn và cung cấp thông tin nguy hiểm. Một nghiên cứu mới từ Đại học Ben Gurion (Israel) cho thấy hầu hết các chatbot AI, bao gồm ChatGPT, Gemini và Claude, đều có thể dễ dàng bị 'jailbreak'. Các nhà nghiên cứu, dẫn đầu bởi Giáo sư Lior Rokach và Tiến sĩ Michael Fire, đã phát triển một kỹ thuật jailbreak phổ quát, đánh lừa nhiều chatbot hàng đầu, khiến chúng trả lời những câu hỏi mà bình thường sẽ bị từ chối. Điều này cho thấy các mô hình ngôn ngữ lớn (LLM) vẫn giữ lại thông tin độc hại từ dữ liệu huấn luyện, mặc dù đã có nỗ lực loại bỏ nội dung nguy hiểm.
Điều khiến mối đe dọa này khác biệt so với các rủi ro công nghệ trước đây chính là sự kết hợp chưa từng có giữa mức độ dễ tiếp cận, khả năng mở rộng và tính thích nghi. Jailbreak - Mối đe dọa kết hợp giữa mức độ dễ tiếp cận, khả năng mở rộng và tính thích nghi - Ảnh: Internet

Nghiên cứu cũng cảnh báo về sự xuất hiện của 'Dark LLMs' – các mô hình AI được thiết kế cố ý không có rào cản đạo đức hoặc bị chỉnh sửa để bỏ qua các biện pháp an toàn. Một số trong số này thậm chí còn được quảng cáo công khai là sẵn sàng hỗ trợ các hoạt động bất hợp pháp như tội phạm mạng và gian lận.
Cần đầu tư nghiêm túc vào việc kiểm tra bảo mật và thiết kế có trách nhiệm - Ảnh: Internet

Phản ứng từ các chuyên gia và công ty công nghệ cho thấy, các biện pháp đề xuất bao gồm kiểm tra kỹ lưỡng dữ liệu huấn luyện, thêm các tường lửa mạnh mẽ để chặn các truy vấn và phản hồi rủi ro, phát triển kỹ thuật 'machine unlearning' để chatbot có thể "quên" thông tin bất hợp pháp đã học, và coi các Dark LLMs như mối đe dọa an ninh nghiêm trọng, tương đương với vũ khí không được cấp phép. Các chuyên gia nhấn mạnh rằng các công ty cần đầu tư nghiêm túc vào việc kiểm tra bảo mật và thiết kế có trách nhiệm để giảm thiểu rủi ro từ các chatbot AI.
Nghiên cứu này cũng chỉ ra rằng, mặc dù đã có nhiều nỗ lực trong việc loại bỏ nội dung độc hại từ dữ liệu huấn luyện của LLMs, nhưng vẫn còn tồn tại những lỗ hổng bảo mật nghiêm trọng. Các nhà nghiên cứu nhấn mạnh rằng, để giảm thiểu rủi ro, cần phải có sự phối hợp chặt chẽ giữa các công ty phát triển chatbot và cộng đồng khoa học máy tính để cùng tìm ra giải pháp hiệu quả.

Một trong những biện pháp được đề xuất là việc xây dựng hệ thống đánh giá tự động cho dữ liệu huấn luyện. Hệ thống này sẽ giúp phát hiện sớm các nội dung độc hại, từ đó giảm thiểu nguy cơ jailbreak. Ngoài ra, việc sử dụng kỹ thuật 'machine unlearning' cũng rất quan trọng. Kỹ thuật này cho phép chatbot "quên" những thông tin đã học mà nay được coi là không phù hợp hoặc gây nguy hiểm.
Ngoài ra, các công ty cần phải có trách nhiệm trong quá trình phát triển và sử dụng chatbot AI. Họ nên thực hiện kiểm tra bảo mật thường xuyên và cung cấp thông tin đầy đủ cho người dùng về cách thức hoạt động của chatbot để họ có thể nhận biết được những rủi ro tiềm ẩn.
Cuối cùng, việc xây dựng các quy định pháp lý rõ ràng cũng là một yếu tố quan trọng. Các quy định này cần phải đảm bảo rằng cả nhà phát triển và người sử dụng đều hiểu rõ về trách nhiệm của mình trong việc giảm thiểu nguy cơ từ chatbot AI.
Trong bối cảnh ngày càng mở rộng của công nghệ AI, việc nhận thức được những rủi ro tiềm ẩn như jailbreak và 'Dark LLMs' là rất quan trọng. Điều này không chỉ giúp bảo vệ an ninh mạng mà còn đảm bảo rằng công nghệ AI phát triển một cách lành mạnh và trách nhiệm.
Theo bài viết của XU HƯỚNG 24
Nguồn: vtv.vn
Bài viết từ XU HƯỚNG 24
Bình luận
(0)Chưa có bình luận. Hãy là người đầu tiên chia sẻ ý kiến.