Trong thời đại công nghệ thông tin phát triển như vũ bão, các nhà nghiên cứu công nghệ trí tuệ nhân tạo (AI) đang phải đối mặt với một thách thức mới mẻ - nỗi lo 'ô nhiễm' dữ liệu. Sự kiện ra mắt ChatGPT của OpenAI vào năm 2022 đã đánh dấu sự khởi đầu cho cuộc chạy đua phát triển AI, nhưng cũng đồng thời đặt ra những lo ngại về chất lượng và độ tin cậy của dữ liệu được sử dụng để huấn luyện các mô hình AI sau này.
Tháng 3/2023, John Graham-Cumming - CTO của Cloudflare - đã đăng ký tên miền lowbackgroundsteel.ai. Trên trang web này, ông bắt đầu chia sẻ thông tin về nguồn dữ liệu thu thập từ trước làn sóng AI năm 2022, như kho Arctic Code Vault chụp toàn bộ GitHub vào ngày 2/2/2020. Graham-Cumming cho biết ông không nhớ rõ đã nghĩ ra phép ẩn dụ "thép nền thấp", nhưng ý tưởng về một nguồn dữ liệu chỉ do con người tạo ra đã nảy sinh trong đầu ông.

Trong bài nghiên cứu có tên 'Các khía cạnh pháp lý về quyền tiếp cận dữ liệu do con người tạo ra và những đầu vào thiết yếu khác cho việc huấn luyện AI' được công bố tháng 12/2024, các học giả từ nhiều đại học bày tỏ lo ngại về nguy cơ suy thoái của các mô hình AI khi sử dụng dữ liệu do AI tạo ra. Họ nhấn mạnh rằng thế giới cần những nguồn dữ liệu 'sạch', giống như thép nền thấp, để đảm bảo hoạt động hiệu quả của các mô hình AI và duy trì sự cạnh tranh.

Ông Chiodo, một chuyên gia về AI, nhận định: 'Vấn đề không chỉ là độ tin cậy của thông tin, mà còn là khả năng xây dựng mô hình AI tạo sinh đủ lớn để đầu ra vừa dễ hiểu, vừa có giá trị sử dụng. Bạn có thể xây dựng một mô hình rất hữu dụng nhưng hay nói dối. Ngược lại, bạn cũng có thể có một mô hình trung thực nhưng lại vô dụng'.
Về mặt khuyến nghị chính sách, Chiodo thừa nhận rằng việc 'làm sạch' môi trường AI là một thách thức lớn. Bắt buộc gắn nhãn cho nội dung do AI tạo ra được coi là một giải pháp tiềm năng, nhưng việc này cũng trở nên phức tạp khi việc gắn nhãn văn bản rất khó, trong khi việc xóa dấu vết (watermark) lại cực kỳ dễ.

Tuy nhiên, Chiodo lưu ý rằng...
Trong bối cảnh đó, việc xây dựng một kho dữ liệu sạch tập trung tiềm ẩn những rủi ro khác. Ông Chiodo nhấn mạnh: "Bạn sẽ gặp rủi ro về quyền riêng tư và an ninh đối với khối lượng dữ liệu khổng lồ này. Vậy bạn giữ lại những gì, loại bỏ những gì, làm thế nào để cẩn trọng với dữ liệu được giữ lại, làm thế nào để bảo vệ nó an toàn?".

Chỉ ra vấn đề này, ông Podszun cho rằng các cơ quan quản lý sẽ sớm phải hành động để ngăn chặn kịch bản lặp lại, khi chỉ một vài nền tảng thống trị toàn bộ thế giới số do sự chậm trễ trong quản lý. Ông nhấn mạnh: "Cuộc cách mạng số dành cho AI là bài học về việc không nên chờ đến khi mọi thứ đã quá muộn, và thị trường đã bị độc quyền hóa".
Để giải quyết vấn đề này, các nhà nghiên cứu đề xuất một loạt biện pháp. Đầu tiên, họ khuyến nghị việc tạo ra quy định rõ ràng về cách sử dụng dữ liệu do AI tạo ra, bao gồm cả việc gắn nhãn cho nội dung này. Thứ hai, cần tăng cường bảo mật và quyền riêng tư của dữ liệu, đồng thời xây dựng các hệ thống giám sát hiệu quả để ngăn chặn việc xóa dấu vết (watermark) của dữ liệu.

Mặt khác, việc phát triển công nghệ mới như AI có thể giúp cải thiện chất lượng dữ liệu. Ví dụ, các thuật toán tiên tiến hơn có thể giúp phân loại và xử lý dữ liệu một cách chính xác hơn, giảm thiểu nguy cơ "ô nhiễm" từ dữ liệu do AI tạo ra.
Tuy nhiên, việc này cũng đặt ra thách thức về mặt kỹ thuật và quy định. Các nhà nghiên cứu nhấn mạnh rằng cần có sự hợp tác chặt chẽ giữa các bên liên quan, bao gồm cả chính phủ, công ty công nghệ và cộng đồng học thuật, để xây dựng một khung pháp lý toàn diện cho quản lý dữ liệu AI.
Cuối cùng, họ đề xuất việc tăng cường giáo dục và đào tạo về AI cho người dùng cuối, giúp họ hiểu rõ hơn về cách thức hoạt động của các mô hình AI và cách bảo vệ quyền riêng tư của mình trong quá trình sử dụng công nghệ này.
Theo bài viết của XU HƯỚNG 24
Bình luận