RoBERTa – công cụ mới giúp xác định văn bản AI tạo ra

Chia sẻ kiến thức 30/06/2023

Các nhà nghiên cứu đã phát triển một phương pháp phát hiện văn bản do AI tạo ra bằng mô hình RoBERTa, mô hình này trích xuất các phần nhúng của mã thông báo văn bản và trực quan hóa chúng dưới dạng các điểm trong không gian đa chiều.

Gần đây, các nhà nghiên cứu đã phát triển RoBERTa – một công cụ mới có chức năng phát hiện các văn bản do AI tạo ra trên cơ sở trích xuất các phần nhúng của mã thông báo văn bản (text token) và trực quan hoá dưới dạng các điểm trong không gian đa chiều.

Đột phá mới trong công nghệ xác định văn bản AI

Trong quá trình nghiên cứu, các nhà phát triển đã phát hiện ra rằng văn bản được tạo bởi các công cụ GPT-3.5, chẳng hạn như ChatGPT và Davinci, có kích thước trung bình thấp hơn đáng kể so với văn bản do con người viết.

Trên cơ sở này, họ đã tạo ra một công cụ có khả năng dò xét văn bản dựa trên kích thước, đồng thời có thể chống lại các kỹ thuật ẩn giấu phổ biến. Đó chính là RoBERTa.

Các đặc điểm của RoBERTa

Độ chính xác cao

Ưu điểm lớn nhất của công cụ này là có độ chính xác rất cao, kể cả trong trường hợp các miền và mô hình bị thay đổi. Cụ thể, RoBERTa có tỷ lệ phát hiện chính xác của văn bản do AI tạo ra lên tới trên 75%. Ngay cả trong trường hợp các văn bản sử dụng một số công cụ ẩn giấu chẳng hạn như DIPPER, độ chính xác của RoBERTa vẫn có thể đạt tới mức 40%, vượt xa so với các phần mềm phát hiện AI hiện nay, bao gồm cả những công cụ do OpenAI phát triển.

Phân biệt giữa văn bản do con người và AI viết

Trước đó vào tháng 1, OpenAI đã cho ra mắt một bộ phân loại mới được thiết kế để phân biệt giữa văn bản do con người viết và văn bản do hệ thống AI tạo ra. Công cụ phân loại này nhằm mục đích giải quyết việc các nội dung do AI tạo ra ngày càng phổ biến và có nguy cơ tràn lan.

Mặc dù việc phát hiện tất cả văn bản do AI viết là một nhiệm vụ phức tạp, nhưng bộ phân loại này thực sự là một công cụ có giá trị để giảm thiểu các khiếu nại sai về quyền tác giả của con người đối với các văn bản do AI tạo ra. Thông qua các đánh giá nghiêm ngặt trên một tập hợp các văn bản tiếng Anh, các nhà phát triển đã phát hiện ra rằng bộ phân loại đó xác định chính xác 26% văn bản do AI tạo ra là “có khả năng là do AI viết”, đồng thời tỉ lệ xác định nhầm văn bản do con người viết thành văn bản do AI tạo ra là 9%. Điều quan trọng cần lưu ý là tỉ lệ chính xác sẽ gia tăng trong trường hợp độ dài của văn bản tăng lên. So với các công cụ xác định trước đây, phiên bản mới này thể hiện độ tin cậy cao hơn đáng kể đối với văn bản do các hệ thống AI tạo ra.

Các nhà phát triển cũng khuyến cáo rằng RoBERTa chỉ nên được sử dụng như một công cụ bổ sung, chứ không phải là cơ sở để ra quyết định chính trong việc xác định nguồn gốc của văn bản. Công cụ này không thực sự đạt hiệu quả cao đối với các văn bản ngắn và có những trường hợp văn bản do con người viết có thể bị gắn nhãn không chính xác là do AI tạo ra.

Quỳnh Anh (lược dịch từ Mpost.io)

Link bài gốc: https://mpost.io/researchers-discover-a-new-way-to-detect-ai-generated-text/

Tin liên quan:

ĐĂNG KÝ TƯ VẤN HỌC LẬP TRÌNH TẠI FUNiX

Bình luận (
0
)

Bài liên quan

Product Owner Fintech: Bí quyết thiết kế sản phẩm tài chính "không ma sát"

Leanbot là gì? Bộ kit robot giáo dục chuẩn STEM cho thế hệ mới

AIROC - Đấu trường Robotics & AI quốc tế: Nơi thế hệ trẻ Việt Nam vươn tầm thế giới

Học lập trình Python qua Robotics: Từ tư duy code đến Trí tuệ nhân tạo

Nhân viên ngân hàng chuyển sang Fintech: Cần trang bị kỹ năng gì?

Fintech là gì? Toàn cảnh hệ sinh thái Fintech tại Việt Nam 2026

Tại sao Data Analyst là “trái tim” của mọi ứng dụng Fintech?

Vibe Coding Workflow: Từ Yêu Cầu Đến Code, Test Và Tài Liệu Với Sự Hỗ Trợ Của AI

Bài liên quan

Product Owner Fintech: Bí quyết thiết kế sản phẩm tài chính "không ma sát"

hailv 15/03/2026

Mục lục Product Owner Fintech là gì? Vai trò của Product Owner trong Fintech Sản phẩm tài chính “không ma sát” là gì? Quy trình thiết kế sản phẩm fintech Công nghệ cốt lõi PO Fintech cần hiểu Agile trong...

Leanbot là gì? Bộ kit robot giáo dục chuẩn STEM cho thế hệ mới

hailv 15/03/2026

Leanbot là gì? Bộ kit robot giáo dục chuẩn STEM cho thế hệ mới Leanbot là công cụ hỗ trợ học sinh làm chủ tư duy lập trình và robotics. Bài viết tổng hợp thông tin chi tiết về...

AIROC - Đấu trường Robotics & AI quốc tế: Nơi thế hệ trẻ Việt Nam vươn tầm thế giới

Ngoc nguyen 15/03/2026

Trong kỷ nguyên số, nếu tiếng Anh là chiếc chìa khóa để giao tiếp với thế giới, thì Lập trình và AI chính là ngôn ngữ để con kiến tạo nên tương lai. Không chỉ dừng lại ở việc ‘biết’...

Học lập trình Python qua Robotics: Từ tư duy code đến Trí tuệ nhân tạo

hailv 14/03/2026

Mục lục Python Robotics là gì? Vì sao nên học lập trình Python qua Robotics? Thành phần và thuộc tính trong hệ thống Robotics Các kỹ năng Python nâng cao trong Robotics Ứng dụng trí tuệ nhân tạo trong Robotics...

Nhân viên ngân hàng chuyển sang Fintech: Cần trang bị kỹ năng gì?

hailv 08/03/2026

Mục lục Nhân viên ngân hàng chuyển sang Fintech cần học gì? Vì sao nhiều banker chuyển sang Fintech? Các kỹ năng quan trọng khi chuyển sang Fintech Lộ trình chuyển nghề từ ngân hàng sang Fintech Các vị trí...

RoBERTa – công cụ mới giúp xác định văn bản AI tạo ra

Các nhà nghiên cứu đã phát triển một phương pháp phát hiện văn bản do AI tạo ra bằng mô hình RoBERTa, mô hình này trích xuất các phần nhúng của mã thông báo văn bản và trực quan hóa chúng dưới dạng các điểm trong không gian đa chiều.

Đột phá mới trong công nghệ xác định văn bản AI

Các đặc điểm của RoBERTa

Độ chính xác cao

Phân biệt giữa văn bản do con người và AI viết

Bình luận ( 0 )

Categories

Bài liên quan

Bài liên quan

Đăng ký nhận bản tin

Bình luận (
0
)