Dạy AI cách viết mã với dự án của IBM

Dạy AI cách viết mã với dự án của IBM

Chia sẻ kiến thức 24/08/2021

IBM đã công bố Project CodeNet, một tập dữ liệu lớn nhằm giúp dạy AI hiểu và thậm chí viết được mã.

Dự án CodeNet (dạy AI cách viết mã) đã được công bố tại hội nghị Think của IBM (nhà thầu chuyên sản xuất và kinh doanh phần cứng, phần mềm của máy tính, cơ sở hạ tầng, dịch vụ máy chủ và tư vấn trong nhiều lĩnh vực từ máy tính lớn đến công nghệ nano) tuần này và được tuyên bố là tập dữ liệu mã nguồn mở lớn nhất (kích thước xấp xỉ 10 lần so với tập dữ liệu gần nhất).

CodeNet là dự án của IBM được ra đời nhằm giúp AI có thể viết mã, bởi các dự án như GPT-3 của OpenAI cho thấy rằng AI đang trở nên khá thành thạo trong việc viết được ngôn ngữ của con người chúng ta, nhưng việc viết mã nguồn gốc của riêng chúng chỉ được tạo bởi con người. CodeNet được ra đời nhằm mục đích thay đổi điều đó.

CodeNet có 500 triệu dòng mã, 14 triệu mẫu và trải dài ở 55 ngôn ngữ lập trình bao gồm Python, C ++, Java, Go, COBOL, Pascal,…

Trong tương lai gần, dự án này sẽ cung cấp một tiêu chuẩn cơ bản, yêu cầu một số chỉnh sửa để khắc phục lỗi và bù đắp cho những lĩnh vực đặc biệt riêng của con người như sáng tạo, cảm xúc và lòng trắc ẩn.  CodeNet sẽ xây dựng các công cụ nâng cao giúp tăng tốc quá trình viết và kiểm tra mã của con người bằng cách nâng cao hiểu biết của chính AI về cách thực hiện các tác vụ đó.

IBM cho biết: “Với sự phong phú của các chương trình được viết bằng nhiều ngôn ngữ, chúng tôi tin rằng Project CodeNet có thể đóng vai trò như một tập dữ liệu chuẩn để dịch từ nguồn sang nguồn và thực hiện cho AI và viết mã những gì mà tập dữ liệu ImageNet đã làm nhiều năm trước đối với máy tính” .

Vào năm 2011, doanh nhân người Mỹ Marc Andreesen đã viết “Phần mềm đang ăn mòn thế giới”. Cho đến ngày nay và thậm chí cả ở lĩnh vực xe hơi, hiện có hơn 100 triệu dòng mã (điều này vẫn đang phát triển nhanh chóng, với sự ra đời của các phương tiện tự hành.)

IBM cho biết một trong những khách hàng lớn của họ gần đây đã tiếp cận công ty để giúp cập nhật tài sản 200 triệu đô la bao gồm 3.500, tệp Java đa thế hệ. Các tệp này chứa hơn một triệu dòng mã.

Bằng cách tạo nên những ngăn xếp mã cho AI, IBM đã giảm quá trình di chuyển mã liên tục kéo dài hàng năm của khách hàng xuống chỉ còn bốn tuần. Điều đó chắc chắn sẽ là ví dụ đầu tiên cho sự tăng tốc và cải thiện rất nhiều nhờ Project CodeNet. Bạn có thể tìm thấy bộ dữ liệu Project CodeNet đầy đủ trên GitHub tại đây.

CodeNet là một dự án tiềm năng cho các trường hợp tìm kiếm code và phát hiện đám mây, sửa code tự động, nghiên cứu hồi quy và dự đoán. 

Về tác giả: Ryan là biên tập viên của TechForge Media với hơn một mười năm kinh nghiệm về công nghệ và phỏng vấn các chuyên gia hàng đầu trong ngành. Anh thường xuất hiện với hình ảnh một tay cầm cà phê đậm và tay kia cầm một chiếc máy tính xách tay tại các hội nghị công nghệ.

Tìm hiểu ngay khoá học về AI tại FUNiX ngay tại đây

ĐĂNG KÝ TƯ VẤN HỌC LẬP TRÌNH TẠI FUNiX

Bình luận (
0
)

Bài liên quan

  • Tầng 0, tòa nhà FPT, 17 Duy Tân, Q. Cầu Giấy, Hà Nội
  • info@funix.edu.vn
  • 0782313602 (Zalo, Viber)        
Chat Button
FUNiX V2 GenAI Chatbot ×

yêu cầu gọi lại