DALL-E là gì? DALL-E tạo hình ảnh từ văn bản như thế nào?

DALL-E là gì? DALL-E tạo hình ảnh từ văn bản như thế nào?

Chia sẻ kiến thức 28/02/2023

Có thể bạn đã từng thấy những sản phẩm sáng tạo của DALL-E gây sốt trên mạng. Nhưng chính xác thì nó hoạt động như thế nào?

 

Có thể bạn đã nghe thấy cái tên DALL-E nổi khắp nơi nhưng lại không chắc nó là gì. Nói một cách ngắn gọn,  DALL-E là một mô hình AI tổng hợp có thể tạo ra những hình ảnh chưa từng tồn tại trước đây. Tất cả những gì bạn cần làm là cho nó biết bạn muốn tạo gì.

Khi phiên bản tiếp theo, được gọi là DALL-E 2, được phát hành, nó đã gây sốt. Những hình ảnh mà nó tạo ra có chất lượng cao và tốt đến mức khó mà tưởng tượng được rằng một chiếc máy đã tạo ra nó.

Dưới đây là những gì bạn cần biết về DALL-E và cách nó hoạt động. 

1. DALL-E là gì?

DALL-E là một mô hình AI được phát triển bởi Open AI, có thể tạo hình ảnh từ lời nhắc văn bản. Nói cách khác, bạn có thể viết một câu mô tả chính xác những gì bạn muốn và DALL-E có thể tạo hình ảnh đó chỉ trong vài giây.

DALL-E được phát hành lần đầu vào tháng 1 năm 2021 và đã được nâng cấp đáng kể trong phiên bản thứ hai có tên là DALL-E 2. Đây là một trong số ít ứng dụng tạo tác phẩm nghệ thuật AI đã trở nên cực kỳ phổ biến nhờ khả năng tạo ra những hình ảnh đẹp mắt từ con số 0.

Nhiều hình ảnh khác nhau do AI tạo ra bằng DALL-E

Những hình ảnh mà DALL-E tạo ra có chất lượng cao đến mức chúng dễ bị nhầm với tác phẩm nghệ thuật tạo ra bởi con người. Bên cạnh khả năng mô tả các đối tượng và phong cảnh từ thế giới xung quanh, nó thậm chí có thể hiển thị những hình ảnh này theo một phong cách cụ thể, như nghệ thuật kỹ thuật số, màu nước hoặc trường phái ấn tượng.

DALL-E lấy tên từ họa sĩ Salvador Dalí và một robot có tên WALL-E trong một bộ phim hoạt hình của Pixar. Tên này cho thấy cách Open AI hướng đến việc kết hợp nghệ thuật và công nghệ AI.

>>> Xem thêm: Trí tuệ nhân tạo (AI) có thể khiến lập trình viên thất nghiệp?

2. DALL-E hoạt động như thế nào?

Có nhiều công nghệ khác nhau đằng sau DALL-E. Hãy bắt đầu với cách DALL-E được đào tạo (train) dựa trên hàng triệu hình ảnh từ khắp nơi trên internet.

Các hình ảnh được dùng để đào tạo đến từ các bộ dữ liệu chứa một lượng lớn các hình ảnh có chú thích văn bản. Như bạn có thể tưởng tượng, với đủ dữ liệu, mô hình AI này có thể học cách nhận biết đối tượng là gì và trông như thế nào trong một hình ảnh.

Các hạt thủy tinh được kết nối bằng các sợi mỏng trong cấu hình mạng

DALL-E cũng được xây dựng bằng cách dùng mô hình ngôn ngữ có tên là GPT-3 (viết tắt của Generative Pre-training Transformer). Nó đã được phổ biến rộng rãi khi Open AI phát hành ChatGPT, một chatbot AI mà bạn có thể dễ dàng nói chuyện cùng bằng ngôn ngữ tự nhiên của con người. Công nghệ này thu hẹp khoảng cách giữa văn bản và hình ảnh và giúp biến những từ bạn nhập thành hình ảnh trên màn hình được tạo thành từ các pixel.

Một công nghệ  cốt lõi khác của DALL-E là việc sử dụng mô hình Khuếch tán (Diffusion). Mô hình này lấy một hình ảnh nhiễu—hãy nghĩ đến một hình ảnh có nhiều pixel không thể nhận dạng được—và hoạt động ngược lại để tạo ra một hình ảnh rõ ràng phù hợp với mô tả văn bản bạn đã nhập.

3. Bạn có thể làm gì với DALL-E?

Người ta đang sử dụng DALL-E cho mọi thứ. Bạn có thể thử trở thành một nghệ sĩ AI, dùng nó để phối lại một tác phẩm nghệ thuật nổi tiếng hoặc lấy một tác phẩm nghệ thuật gốc và mở rộng nó bằng các tính năng chỉnh sửa của DALL-E.

Một bức tranh do AI tạo ra về một người phụ nữ với con mèo của cô ấy ở trung tâm phong cảnh Nhật Bản, được thực hiện bằng Dall-E

Outpainting là một tính năng trong DALL-E cho phép bạn tạo các tác phẩm lớn hơn bằng cách đính kèm các bảng hình ảnh mới được tạo vào một tác phẩm nghệ thuật hiện có. 

>>> Xem thêm bài viết: 5 Robot AI giống người thật nhất thời đại

4. Tạo hình ảnh bằng AI tạo với DALL-E

DALL-E là một công cụ AI thân thiện mà bạn có thể sử dụng để tạo hình ảnh, một thứ chưa từng tồn tại trước đây. Nó được xây dựng dựa trên những tiến bộ đáng kinh ngạc trong học máy, bao gồm cả GPT-3 và các mô hình khuếch tán. Kiến thức của DALL-E về thế giới, bao gồm cả lịch sử nghệ thuật, đến từ hàng triệu hình ảnh được thu thập từ internet.

Sự kết hợp của các công nghệ mới trong AI tổng hợp có nghĩa là bạn có thể tận hưởng việc đưa trí tưởng tượng vào cuộc sống chỉ bằng cách sử dụng từ ngữ để vẽ một bức tranh.

>>> Nếu bạn đang có nhu cầu học lập trình trực tuyến, tìm hiểu ngay tại đây:

>>> Xem thêm chuỗi bài viết liên quan:

Công nghệ AI là gì? Những ứng dụng của công nghệ AI

5 Robot AI giống người thật nhất thời đại

Tương lai trí tuệ nhân tạo AI trong kỷ nguyên số

Ngôn ngữ lập trình nên học khi học lập trình trí tuệ nhân tạo

Những phẩm chất cần thiết để phát triển trí tuệ nhân tạo

Sức hút từ lĩnh vực AI – Trí tuệ nhân tạo với người Việt trẻ

Vân Nguyễn

Dịch từ: https://www.makeuseof.com/what-is-dall-e-ai-image-generator/

ĐĂNG KÝ TƯ VẤN HỌC LẬP TRÌNH TẠI FUNiX

Bình luận (
0
)

Bài liên quan

  • Tầng 0, tòa nhà FPT, 17 Duy Tân, Q. Cầu Giấy, Hà Nội
  • info@funix.edu.vn
  • 0782313602 (Zalo, Viber)        
Chat Button
FUNiX V2 GenAI Chatbot ×

yêu cầu gọi lại