RoBERTa – công cụ mới giúp xác định văn bản AI tạo ra
Các nhà nghiên cứu đã phát triển một phương pháp phát hiện văn bản do AI tạo ra bằng mô hình RoBERTa, mô hình này trích xuất các phần nhúng của mã thông báo văn bản và trực quan hóa chúng dưới dạng các điểm trong không gian đa chiều.
- Giải pháp đào tạo nhân sự doanh nghiệp trong kỷ nguyên AI
- Muốn làm lập trình viên thì học ngành gì và học ở đâu?
- Thuật toán phát hiện nói dối bằng AI: Vũ khí mới trong cuộc chiến chống tội phạm
- Vai trò của AI trong chẩn đoán bệnh về mắt
- Vai trò của AI trong dự đoán sự sống ngoài Trái Đất
Table of Contents
Gần đây, các nhà nghiên cứu đã phát triển RoBERTa – một công cụ mới có chức năng phát hiện các văn bản do AI tạo ra trên cơ sở trích xuất các phần nhúng của mã thông báo văn bản (text token) và trực quan hoá dưới dạng các điểm trong không gian đa chiều.
Đột phá mới trong công nghệ xác định văn bản AI
Trong quá trình nghiên cứu, các nhà phát triển đã phát hiện ra rằng văn bản được tạo bởi các công cụ GPT-3.5, chẳng hạn như ChatGPT và Davinci, có kích thước trung bình thấp hơn đáng kể so với văn bản do con người viết.
Trên cơ sở này, họ đã tạo ra một công cụ có khả năng dò xét văn bản dựa trên kích thước, đồng thời có thể chống lại các kỹ thuật ẩn giấu phổ biến. Đó chính là RoBERTa.
Các đặc điểm của RoBERTa
Độ chính xác cao
Ưu điểm lớn nhất của công cụ này là có độ chính xác rất cao, kể cả trong trường hợp các miền và mô hình bị thay đổi. Cụ thể, RoBERTa có tỷ lệ phát hiện chính xác của văn bản do AI tạo ra lên tới trên 75%. Ngay cả trong trường hợp các văn bản sử dụng một số công cụ ẩn giấu chẳng hạn như DIPPER, độ chính xác của RoBERTa vẫn có thể đạt tới mức 40%, vượt xa so với các phần mềm phát hiện AI hiện nay, bao gồm cả những công cụ do OpenAI phát triển.
Phân biệt giữa văn bản do con người và AI viết
Trước đó vào tháng 1, OpenAI đã cho ra mắt một bộ phân loại mới được thiết kế để phân biệt giữa văn bản do con người viết và văn bản do hệ thống AI tạo ra. Công cụ phân loại này nhằm mục đích giải quyết việc các nội dung do AI tạo ra ngày càng phổ biến và có nguy cơ tràn lan.
Mặc dù việc phát hiện tất cả văn bản do AI viết là một nhiệm vụ phức tạp, nhưng bộ phân loại này thực sự là một công cụ có giá trị để giảm thiểu các khiếu nại sai về quyền tác giả của con người đối với các văn bản do AI tạo ra. Thông qua các đánh giá nghiêm ngặt trên một tập hợp các văn bản tiếng Anh, các nhà phát triển đã phát hiện ra rằng bộ phân loại đó xác định chính xác 26% văn bản do AI tạo ra là “có khả năng là do AI viết”, đồng thời tỉ lệ xác định nhầm văn bản do con người viết thành văn bản do AI tạo ra là 9%. Điều quan trọng cần lưu ý là tỉ lệ chính xác sẽ gia tăng trong trường hợp độ dài của văn bản tăng lên. So với các công cụ xác định trước đây, phiên bản mới này thể hiện độ tin cậy cao hơn đáng kể đối với văn bản do các hệ thống AI tạo ra.
Các nhà phát triển cũng khuyến cáo rằng RoBERTa chỉ nên được sử dụng như một công cụ bổ sung, chứ không phải là cơ sở để ra quyết định chính trong việc xác định nguồn gốc của văn bản. Công cụ này không thực sự đạt hiệu quả cao đối với các văn bản ngắn và có những trường hợp văn bản do con người viết có thể bị gắn nhãn không chính xác là do AI tạo ra.
Quỳnh Anh (lược dịch từ Mpost.io)
Link bài gốc: https://mpost.io/researchers-discover-a-new-way-to-detect-ai-generated-text/
Tin liên quan:
- 3 lý do nên học lập trình trước tuổi 18
- Những hoạt động giúp trẻ em học cách đặt mục tiêu
- Học lập trình với scratch – Những lợi ích về tư duy khi cho trẻ học lập trình Scratch?
- Trẻ em thỏa sức sáng tạo với ngôn ngữ lập trình Scratch
- Trẻ em học FUNiX: Cơ hội và hướng dẫn để chinh phục IT
- Độ tuổi nên cho trẻ em học lập trình và cách để trẻ học CNTT hiệu quả
Bình luận (0
)