Thị giác máy tính là gì? Thị giác máy tính có vai trò như thế nào?

Thị giác máy tính là gì? Thị giác máy tính có vai trò như thế nào?

Chia sẻ kiến thức 09/09/2022

Làm cách nào để máy tính của bạn biết một hình ảnh thực sự trông ra sao? Đó là nhờ thị giác máy tính.

Khi con người nhìn vào một cảnh hoặc một hình ảnh, họ hiểu nó — những gì ở trong đó và điều gì đang xảy ra. Trái lại, máy tính chỉ xử lý dữ liệu kỹ thuật số mô tả giá trị màu của mỗi pixel. Đối với một con người, rất dễ để tìm ra một chiếc bánh pizza trên một chiếc bàn lộn xộn. Nhưng mãi cho đến gần đây, máy tính sẽ không thể làm điều tương tự.

Thị giác máy tính (Computer vision, hay CV) cho phép máy tính có thể chọn ra thông tin quan trọng từ đầu vào trực quan và đưa ra các dự đoán và đề xuất chính xác dựa trên thông tin đó.

 

Thị giác máy tính hoạt động như thế nào?

Trước khi có thị giác máy tính, để tạo ra một chương trình nhận dạng một hình ảnh cụ thể, một người sẽ phải bỏ ra hàng giờ đồng hồ. Đầu tiên, một cơ sở dữ liệu của các hình ảnh tương tự sẽ phải được thu thập.

Sau đó, những hình ảnh này sẽ phải được phân tích, đo lường và chú thích với dữ liệu liên quan mà nhà nghiên cứu cho rằng có thể giúp xác định đối tượng được đề cập (ví dụ như màu sắc, kích thước và hình dạng). Chỉ khi đó, phần mềm mới có thể được sử dụng để đưa ra dự đoán.

 

Thị giác máy tính tự động hóa toàn bộ quá trình này bằng cách sử dụng phương pháp học máy được gọi là học sâu. Học sâu sử dụng mạng nơ-ron nhiều lớp, có thể lên đến con số hàng trăm. Trong trường hợp hình ảnh, đây thường là một mạng nơ-ron phức tạp (convolutional neural network, hay CNN).

Chi tiết cách thức hoạt động của deep learning và mạng nơ-ron nằm ngoài phạm vi của bài viết này. Về cơ bản, một lượng lớn dữ liệu được đưa vào mạng nơ-ron. Mạng nơ-ron phân tích dữ liệu lặp đi lặp lại cho đến khi nó có thể hình thành các dự đoán chính xác về nó.

 

Trong trường hợp CNN được sử dụng cho nhiệm vụ thị giác máy tính, mạng nơ-ron lấy dữ liệu qua một số bước. Thứ nhất, nó thu gọn hình ảnh thành nhiều phần (pixel riêng lẻ hoặc nhóm pixel đã được gắn thẻ từ trước).

Sau đó, nó đưa ra dự đoán về những gì đang nằm trong các phần khác nhau của hình ảnh (như các cạnh hoặc các đối tượng cụ thể). Nó kiểm tra độ chính xác của những dự đoán này nhiều lần và mỗi lần lại thay đổi một chút các phần của thuật toán cho đến khi nó trở nên rất chính xác.

 

Máy tính hiện nay rất mạnh mẽ, chúng có thể phân tích một hình ảnh nhanh hơn nhiều so với não người, đặc biệt là khi chúng đã học cách nhận ra một số mẫu nhất định. Bằng cách này, rất dễ để thấy một thuật toán học sâu có thể vượt xa khả năng của con người như thế nào.

Các loại thị giác máy tính

Thị giác máy tính liên quan đến việc phân tích và hiểu hình ảnh và đầu ra của các dự đoán hoặc quyết định có liên quan về hình ảnh. Có nhiều tác vụ khác nhau mà thị giác máy tính sử dụng để làm được điều này, bao gồm:

 
  • Phân loại hình ảnh: Nhận dạng loại hình ảnh. Ví dụ: cho dù đó là mặt người, phong cảnh hay đồ vật. Loại tác vụ này có thể được sử dụng để xác định và phân loại hình ảnh một cách nhanh chóng. Một ứng dụng cho việc này là tự động nhận dạng và chặn nội dung không phù hợp trên mạng xã hội.
  • Nhận dạng đối tượng: Tương tự như phân loại hình ảnh, nhận dạng đối tượng có thể xác định một đối tượng cụ thể trong một cảnh — ví dụ như một chiếc bánh pizza trên một chiếc bàn lộn xộn.
  • Phát hiện cạnh: Một ứng dụng phổ biến của thị giác máy tính và thường là bước đầu tiên trong phát hiện đối tượng, là xác định các cạnh cứng trong hình ảnh.
  • Nhận dạng Đối tượng: Đây là việc nhận dạng các ví dụ riêng lẻ của một đối tượng hoặc hình ảnh, ví dụ như nhận dạng một người, dấu vân tay hoặc phương tiện cụ thể.
  • Phát hiện đối tượng: xác định một đặc điểm cụ thể trong hình ảnh, chẳng hạn như xương bị gãy trong X-quang.
  • Phân đoạn đối tượng: xác định những pixel nào trong ảnh thuộc về đối tượng được đề cập.
  • Theo dõi đối tượng: Trong một chuỗi video, khi một đối tượng đã được nhận dạng, nó có thể dễ dàng được theo dõi trong suốt video.
  • Khôi phục hình ảnh: Có thể loại bỏ hiện tượng nhòe, nhiễu và các tạo tác hình ảnh khác bằng cách xác định chính xác vị trí của đối tượng so với nền trong hình ảnh.

Ví dụ về Thị giác Máy tính

Trí tuệ nhân tạo đã được sử dụng trong một số ngành công nghiệp với hiệu quả đáng kinh ngạc, điều này cũng đúng với thị giác máy tính. Dưới đây là một vài ví dụ về ứng dụng của CV ngày nay.

Nhận dạng khuôn mặt

Nhận dạng khuôn mặt là một trong những ứng dụng chính của thị giác máy tính. Khi so sánh với cơ sở dữ liệu về các khuôn mặt đã biết, các thuật toán thị giác máy tính có thể xác định rất chính xác danh tính từng người.

  • Mạng truyền thông xã hội phân tích hình ảnh và tự động gắn thẻ (tag) người dùng.
  • Máy tính xách tay, điện thoại và thiết bị bảo mật có thể nhận dạng người để cho phép truy cập.
  • Cơ quan thực thi pháp luật sử dụng tính năng nhận dạng khuôn mặt trong hệ thống CCTV để xác định nghi phạm.

Dược phẩm

Thị giác máy tính hiện đang được sử dụng trong chăm sóc sức khỏe để đưa ra các chẩn đoán nhanh và chính xác hơn những gì các chuyên gia có thể đưa ra. Ví dụ như phân tích hình ảnh X-quang, CT hoặc MRI cho các tình trạng cụ thể, bao gồm bệnh thần kinh, khối u và xương bị gãy hoặc gãy.

Ô tô tự lái

Các phương tiện tự lái cần hiểu môi trường xung quanh để có thể lái xe an toàn. Điều này có nghĩa là nhận biết đường, làn đường, tín hiệu giao thông, các phương tiện khác, người đi bộ, v.v. Tất cả các tác vụ này đều sử dụng hệ thống thị giác máy tính trong thời gian thực để tránh va chạm và lái xe an toàn.

Kết luận

Các ứng dụng hiện tại của thị giác máy tính đã bắt đầu thay đổi cách chúng ta làm việc trong nhiều ngành công nghiệp khác nhau. Từ việc có thể phát hiện thiết bị bị lỗi hoặc hỏng cho đến chẩn đoán bệnh ung thư, thị giác máy tính có khả năng cải thiện hệ thống và cứu sống con người.

Tuy nhiên, lĩnh vực này vẫn còn nhiều thách thức. Thị giác máy tính vẫn còn kém xa so với thị giác của con người. Con người đã trải qua hàng ngàn năm tiến hóa cho phép chúng ta nhận ra và hiểu hầu hết mọi thứ xảy ra xung quanh trong thời gian thực. Tuy nhiên, chúng ta không biết bộ não con người thực hiện những nhiệm vụ này như thế nào.

Học sâu là một bước đi đúng hướng, nhưng nó vẫn đòi hỏi một lượng công việc đáng kinh ngạc để tạo ra một hệ thống có thể thực hiện một nhiệm vụ mà con người có thể làm rất dễ dàng, chẳng hạn như xác định một chiếc xe trên đường. Điều này là do máy tính thực hiện các tác vụ giới hạn rất hiệu quả. Việc phát triển một máy tính có thể hiểu được toàn bộ sự phức tạp của thế giới hình ảnh là một điều hoàn toàn khác.

Khi có nhiều nghiên cứu hơn về cả ứng dụng AI và sinh học con người, chúng ta có thể sẽ thấy sự bùng nổ các ứng dụng khả thi cho thị giác máy tính trong tương lai gần.

ĐỌC TIẾP: Học máy (Machine Learning) là gì? 

Vân Nguyễn

Dịch từ: https://www.makeuseof.com/what-is-computer-vision-and-why-does-it-matter/

ĐĂNG KÝ TƯ VẤN HỌC LẬP TRÌNH TẠI FUNiX

Bình luận (
0
)

Bài liên quan

  • Tầng 0, tòa nhà FPT, 17 Duy Tân, Q. Cầu Giấy, Hà Nội
  • info@funix.edu.vn
  • 0782313602 (Zalo, Viber)        
Chat Button
FUNiX V2 GenAI Chatbot ×

yêu cầu gọi lại