Chuẩn bị dữ liệu cho Generative AI: Giải quyết thách thức về chất lượng dữ liệu

Chuẩn bị dữ liệu cho Generative AI: Giải quyết thách thức về chất lượng dữ liệu

Chia sẻ kiến thức 30/07/2023

Giải quyết các thách thức về chất lượng dữ liệu là rất quan trọng để tránh các thảm họa Generative AI. Aziza cảnh báo rằng các hoạt động dữ liệu kém có thể sẽ gây ra các tác động xấu đối với dữ liệu trên quy mô lớn.

Mặc dù cho đến nay, việc sử dụng AI trong ngành dữ liệu chủ yếu tập trung vào phân tích dự đoán, nhưng ngày nay chúng ta đang bước vào kỷ nguyên của Generative AI, nơi một công cụ mạnh mẽ cho NLP, phân tích dữ liệu và tự động hóa sẽ định hình tương lai của quản lý dữ liệu và chất lượng dữ liệu.

Thời đại của Generative AI

Các doanh nghiệp lớn rất mong muốn sử dụng Generative AI và các mô hình ngôn ngữ lớn (LLM) để đạt được lợi thế cạnh tranh trong các lĩnh vực khác nhau. Tuy nhiên, họ phải vượt qua một thách thức chính: chất lượng dữ liệu. Dữ liệu không đáng tin cậy, không đầy đủ hoặc không nhất quán có thể dẫn đến kết quả không chính xác và sai lệch, gây tổn hại đến danh tiếng và vi phạm quy định.

Mặc dù cho đến nay, việc sử dụng AI trong ngành dữ liệu chủ yếu tập trung vào phân tích dự đoán, nhưng ngày nay chúng ta đang bước vào kỷ nguyên của Generative AI, nơi một công cụ mạnh mẽ cho NLP, phân tích dữ liệu và tự động hóa sẽ định hình tương lai của quản lý dữ liệu và chất lượng dữ liệu.

Được sử dụng trong ngành dữ liệu từ những năm 1950 và 1960 – khi chúng được phát triển để xử lý và phân tích dữ liệu – các chương trình AI ban đầu sử dụng các hệ thống dựa trên quy tắc, suy luận tượng trưng và hệ thống chuyên gia để suy luận và tạo ra thông tin chi tiết từ dữ liệu. Ngày nay, việc sử dụng AI đã tăng tốc đáng kể: theo Khảo sát điều hành hàng năm về lãnh đạo dữ liệu và phân tích năm 2023, 80,5% giám đốc điều hành dữ liệu chỉ ra rằng AI/ML sẽ là lĩnh vực được đầu tư vào dữ liệu và phân tích gia tăng trong năm 2023 và đây sẽ là khoản đầu tư cao nhất ưu tiên cho 16,3% trong số họ, tiếp theo là chất lượng dữ liệu cho 10,6% tổ chức.

chất lượng dữ liệu
Phân tích dữ liệu và tự động hóa sẽ định hình tương lai của quản lý dữ liệu và chất lượng dữ liệu (ảnh: ts2.space)

Vai trò của chất lượng dữ liệu

Davide Pelosi, Giám đốc, Kỹ thuật giải pháp tại tích hợp dữ liệu và lãnh đạo toàn vẹn dữ liệu Talend giải thích: “Chất lượng dữ liệu là một khía cạnh quyết định của quản lý dữ liệu. “Nó đảm bảo rằng các doanh nghiệp có thể đưa ra quyết định sáng suốt dựa trên thông tin chính xác, đầy đủ và nhất quán. Khi chất lượng dữ liệu kém, nó có thể dẫn đến sai sót trong việc ra quyết định, mất doanh thu và tổn hại đến danh tiếng của thương hiệu.

Ông nói: “May mắn thay, các nhà cung cấp giải pháp phần mềm đang dẫn đầu về các công cụ và kỹ thuật cải tiến chất lượng dữ liệu giúp các doanh nghiệp xác định và khắc phục các vấn đề về chất lượng dữ liệu một cách nhanh chóng và hiệu quả. “Tuy nhiên, vẫn còn nhiều việc phải làm. Trong một cuộc khảo sát gần đây, 97% số người được Talend khảo sát cho biết họ gặp phải những thách thức trong việc sử dụng dữ liệu và mối quan tâm hàng đầu của họ là đảm bảo chất lượng dữ liệu, đứng đầu với gần một nửa số người được hỏi (49%). Điều đó có nghĩa là có rất nhiều cơ hội để cải tiến – và phần thưởng có thể rất lớn cho những doanh nghiệp thực hiện đúng.”

Các quy trình hoàn thiện chất lượng dữ liệu

Trong một cuộc thảo luận bàn tròn tại VB Transform, Bruno Aziza, một giám đốc điều hành của Alphabet, đã nhấn mạnh tầm quan trọng của việc chuẩn bị cơ sở hạ tầng dữ liệu và phân tích để thúc đẩy LLM. Aziza đã vạch ra ba bước hoàn thiện dữ liệu mà các doanh nghiệp phải trải qua để phát triển năng lực ứng dụng Generative AI.

Kiến lập “đại dương dữ liệu”

Bước đầu tiên là tạo ra một “đại dương dữ liệu”, một kho lưu trữ mở hỗ trợ chia sẻ dữ liệu. Đại dương dữ liệu lưu trữ dữ liệu có cấu trúc, phi cấu trúc và bán cấu trúc ở nhiều định dạng khác nhau và hỗ trợ cả xử lý giao dịch và phân tích. Điều này cho phép các mô hình ngôn ngữ lớn truy cập dữ liệu liên quan một cách hiệu quả.

Chuyển đối “lưới dữ liệu”

Bước thứ hai liên quan đến việc chuyển đổi sang “lưới dữ liệu”, cho phép các nhóm đổi mới với dữ liệu phân tán đồng thời tuân thủ các chính sách tập trung. Các khả năng của kết cấu dữ liệu hỗ trợ khám phá, lập danh mục và quản lý dữ liệu trên quy mô lớn. Trí tuệ nhân tạo có thể được tận dụng để tự động khám phá dữ liệu, đặc biệt là trong các tình huống thời gian thực.

Xây dựng ứng dụng

Trong bước thứ ba, doanh nghiệp xây dựng các ứng dụng giàu dữ liệu thông minh do LLM điều khiển. Các ứng dụng này tạo nội dung hoặc thông tin chi tiết dựa trên dữ liệu trong đại dương dữ liệu và được điều chỉnh bởi lưới dữ liệu. Họ nên giải quyết các vấn đề thực tế và được theo dõi liên tục về hiệu suất và tác động.

Giải quyết các thách thức về chất lượng dữ liệu là rất quan trọng để tránh các thảm họa Generative AI. Aziza cảnh báo rằng các hoạt động dữ liệu kém có thể sẽ gây ra các tác động xấu đối với dữ liệu trên quy mô lớn.

Kết luận

Mặc dù Aziza đã chia sẻ các yếu tố trong cẩm nang của Google Cloud, nhưng những bài học này áp dụng cho mọi doanh nghiệp bất kể nhà cung cấp dịch vụ đám mây là gì. Hội nghị bàn tròn cũng thảo luận về các chủ đề như vai trò của cơ sở dữ liệu véc tơ, lưu trữ và truy xuất dữ liệu liên quan một cách hiệu quả cho các ứng dụng AI tổng quát và tầm quan trọng của SQL như một ngôn ngữ chung để phân tích dữ liệu và kích hoạt khối lượng công việc học máy.

Quỳnh Anh (dịch từ Ts2.space: https://ts2.space/en/preparing-data-for-generative-ai-addressing-the-challenge-of-data-quality/)

 

Tin liên quan:

ĐĂNG KÝ TƯ VẤN HỌC LẬP TRÌNH TẠI FUNiX

Bình luận (
0
)

Bài liên quan

  • Tầng 0, tòa nhà FPT, 17 Duy Tân, Q. Cầu Giấy, Hà Nội
  • info@funix.edu.vn
  • 0782313602 (Zalo, Viber)        
Chat Button
FUNiX V2 GenAI Chatbot ×

yêu cầu gọi lại