Machine Learning là gì và tại sao nó lại quan trọng
Machine Learning là một phương pháp phân tích dữ liệu, nó giúp tự động hóa việc xây dựng mô hình phân tích. Đây là một nhánh của Trí tuệ nhân tạo dựa trên ý tưởng rằng các hệ thống có thể học hỏi từ dữ liệu, xác định các pattern và đưa ra quyết định với sự can thiệp tối thiểu của con người.
Table of Contents
1. Sự phát triển của Machine Learning
Bởi vì sự ra đời của các công nghệ máy tính mới, ML ngày nay không giống như ML của quá khứ. Nó được sinh ra từ nhận dạng mẫu và trên lý thuyết rằng, máy tính có thể học mà không cần được lập trình trước để thực hiện các nhiệm vụ cụ thể nào đó; các nhà nghiên cứu, những người quan tâm đến trí tuệ nhân tạo, muốn xem liệu máy tính có thể học từ dữ liệu hay không. Việc lặp đi lặp lại của ML rất quan trọng vì khi các mô hình tiếp xúc với new data, chúng có thể thích ứng một cách độc lập. Chúng học hỏi từ các tính toán trước đó để đưa ra các quyết định và kết quả đáng tin cậy. Đó là một ngành khoa học không mới nhưng đã đạt được thành tựu mới.
Trong khi nhiều thuật toán ML đã có từ lâu, khả năng tự động áp dụng các phép toán học phức tạp vào big data – lặp đi lặp lại, ngày càng nhanh hơn – là một sự phát triển vào những năm gần đây.
2. Tại sao Machine Learning lại quan trọng?
Những yếu tố dẫn đến việc gia tăng sự quan tâm đối với Machine Learning, cũng tương tự đối với việc khai phá dữ liệu và phân tích Bayes trở nên phổ biến hơn bao giờ hết gần đây. Đó là khối lượng ngày càng tăng và nhiều loại dữ liệu có sẵn, xử lý tính toán rẻ hơn và mạnh hơn cũng như chi phí lưu trữ dữ liệu giá cả phải chăng hơn.
Tất cả những điều này thúc đẩy việc tự động tạo ra các mô hình có thể phân tích dữ liệu lớn hơn, phức tạp hơn và cung cấp kết quả nhanh hơn, chính xác hơn – ngay cả trên quy mô rất lớn. Và bằng cách xây dựng các mô hình chính xác, doanh nghiệp có cơ hội tốt hơn để xác định các cơ hội sinh lời – hoặc tránh những rủi ro chưa biết.
3. Những yêu cầu để tạo ra hệ thống Machine Learning tốt?
- Khả năng chuẩn bị dữ liệu.
- Thuật toán – cơ bản và nâng cao.
- Quá trình tự động hóa và quá trình lặp.
- Khả năng mở rộng.
- Mô hình hóa lắp ráp.
3.1 Bạn có biết không?
- Trong ML, một mục tiêu được gọi là một nhãn
- Trong thống kê, một mục tiêu được gọi là một biến phụ thuộc.
- Một biến trong thống kê được gọi là một tính năng trong ML..
- Một phép biến đổi trong thống kê được gọi là phép tạo tính năng trong ML.
3.2 Ai đang sử dụng nó?
Hầu hết các ngành công nghiệp làm việc với lượng lớn dữ liệu, đã nhận ra giá trị của công nghệ ML. Bằng cách thu thập các insight từ dữ liệu này – thường là theo thực tế – các tổ chức có thể làm việc hiệu quả hơn hoặc giành được lợi thế so với các đối thủ cạnh tranh.
Financial services – Các dịch vụ tài chính
Các ngân hàng và các doanh nghiệp khác trong ngành tài chính sử dụng công nghệ ML cho hai mục đích chính: để xác định các insight quan trọng về dữ liệu và ngăn chặn gian lận. Các Insight có thể xác định cơ hội đầu tư hoặc giúp nhà đầu tư biết khi nào nên giao dịch. Khai phá dữ liệu cũng có thể xác định được các khách hàng có hồ sơ rủi ro cao hoặc sử dụng giám sát mạng để xác định các dấu hiệu cảnh báo gian lận.
Government – Chính phủ
Các cơ quan chính phủ như Tiện ích và an toàn công cộng có nhu cầu đặc biệt về ML vì họ có nhiều nguồn dữ liệu có thể được khai thác để hiểu rõ hơn. Ví dụ: phân tích dữ liệu cảm biến, xác định các cách để tăng hiệu quả và tiết kiệm tiền. ML cũng có thể giúp phát hiện gian lận và giảm thiểu hành vi trộm cắp danh tính.
Health care – Y tế
ML là một xu hướng phát triển nhanh chóng trong ngành Y tế, nhờ sự ra đời của các thiết bị đeo và cảm biến có thể sử dụng dữ liệu để đánh giá sức khỏe của bệnh nhân trong thực tế. Công nghệ này cũng có thể giúp các chuyên gia y tế phân tích dữ liệu, xác định các xu hướng hoặc dấu hiệu cảnh báo, giúp cho việc chẩn đoán và điều trị được cải thiện.
Retail – Bán lẻ
Các trang web đề xuất các mặt hàng bạn có thể thích dựa trên các giao dịch mua trước đó, đang sử dụng công nghệ ML để phân tích lịch sử mua hàng của bạn. Các nhà bán lẻ dựa vào công nghệ ML để thu thập dữ liệu, phân tích và sử dụng dữ liệu đó để cá nhân hóa trải nghiệm mua sắm, thực hiện chiến dịch tiếp thị, tối ưu hóa giá cả, lập kế hoạch cung cấp hàng hóa và để có thông tin chi tiết về khách hàng.
Oil and gas – Dầu khí
Tìm kiếm nguồn năng lượng mới, phân tích khoáng chất trong lòng đất, dự đoán lỗi cảm biến nhà máy lọc dầu, hợp lý hóa việc phân phối dầu để làm cho nó hiệu quả hơn và tiết kiệm chi phí hơn. Số lượng các trường hợp sử dụng ML cho ngành này là rất lớn và vẫn đang tiếp tục mở rộng.
Transportation – Vận tải
Phân tích dữ liệu để xác định các mô hình và xu hướng là “chìa khóa” của ngành vận tải, dựa vào việc tạo các tuyến đường hiệu quả hơn và dự đoán các vấn đề tiềm ẩn để tăng lợi nhuận. Các khía cạnh phân tích dữ liệu và mô hình hóa của ML là công cụ quan trọng đối với các công ty chuyển phát, giao thông công cộng và các tổ chức vận tải khác.
4. Một số phương pháp Machine Learning phổ biến
Hai trong số các phương pháp ML được áp dụng rộng rãi nhất là học có giám sát và học không có giám sát – ngoài ra còn có các phương pháp ML khác. Dưới đây là tổng quan về các loại phổ biến nhất.
Các thuật toán học tập có giám sát được huấn luyện bằng cách sử dụng các đầu vào được gắn nhãn, output như mong đợi được biết trước. Ví dụ: một thiết bị có thể có các data point được dán nhãn “F” (không thành công) hoặc “R” (chạy). Thuật toán nhận một tập hợp các đầu vào cùng với các output tương ứng và thuật toán học bằng cách so sánh output thực tế của nó với các output chính xác/biết trước, để tìm lỗi. Sau đó, nó sửa đổi mô hình cho phù hợp. Thông qua các phương pháp như phân loại, hồi quy, dự đoán và gradient boosting, học có giám sát sử dụng các pattern để dự đoán các giá trị của dữ liệu bổ sung không được gắn nhãn. Học có giám sát thường được sử dụng trong các ứng dụng, nơi mà căn cứ theo lịch sử dữ liệu có thể dự đoán các sự kiện có thể xảy ra trong tương lai. Ví dụ: nó có thể dự đoán khi nào các giao dịch thẻ tín dụng có khả năng bị gian lận hoặc khách hàng bảo hiểm nào có khả năng nộp hồ sơ khiếu nại.
Học không giám sát được sử dụng để xử lý các dữ liệu không có nhãn. Hệ thống không cho biết “câu trả lời chính xác”. Thuật toán phải tìm ra những gì đang được hiển thị. Mục đích là khám phá dữ liệu và tìm một số cấu trúc bên trong dữ liệu. Học tập không giám sát hoạt động tốt trên dữ liệu giao dịch. Ví dụ: nó có thể xác định các phân khúc khách hàng có các thuộc tính tương tự, họ có thể được đối xử tương tự trong các chiến dịch tiếp thị. Hoặc nó có thể tìm ra các thuộc tính chính ngăn cách các phân khúc khách hàng với nhau. Các kỹ thuật phổ biến bao gồm self-organizing maps, nearest-neighbor mapping, k-means clustering và singular value decomposition. Các thuật toán này cũng được sử dụng để phân đoạn các chủ đề văn bản, đề xuất các mục và xác định các giá trị ngoại lai của dữ liệu.
Học bán giám sát được sử dụng cho các ứng dụng tương tự như học có giám sát. Nhưng nó sử dụng cả dữ liệu được gắn nhãn và không được gắn nhãn để huấn luyện – thường là một lượng nhỏ dữ liệu được gắn nhãn với một lượng lớn dữ liệu không được gắn nhãn (vì dữ liệu không được gắn nhãn ít tốn kém hơn và mất ít công sức hơn để thu thập). Loại hình học tập này có thể được sử dụng với các phương pháp như phân loại, hồi quy và dự đoán. Học tập bán giám sát rất hữu ích khi chi phí liên quan đến việc gắn nhãn quá cao. Một số ví dụ điển hình như là nhận diện gương mặt của một người trên webcam.
Học tập tăng cường thường được sử dụng cho robotics, gaming hoặc điều hướng. Với tính năng học tập tăng cường, thuật toán sẽ phát hiện ra những hành động nào mang lại lợi ích cao nhất thông qua thử và sai. Loại hình học tập này có ba thành phần chính: agent (người học hoặc người ra quyết định), môi trường (mọi thứ mà agent tương tác) và hành động (agent có thể làm gì). Mục tiêu là để agent chọn các hành động tối đa hóa kết quả mong đợi trong một khoảng thời gian nhất định. Agent sẽ đạt được mục tiêu nhanh hơn nếu tuân theo một chiến thuật tốt. Vì vậy mục tiêu trong học tăng cường là học và rút ra chiến thuật tốt nhất.
5. Sự khác biệt giữa khai phá dữ liệu, Machine Learning và Deep Learning là gì?
Mặc dù tất cả các phương pháp này đều có cùng mục tiêu là trích xuất những insight có ý nghĩa, các pattern và mối quan hệ có thể được sử dụng để đưa ra quyết định – nhưng chúng có các cách tiếp cận và khả năng khác nhau.
5.1 Khai phá dữ liệu
Khai phá dữ liệu có thể được coi là một siêu tập hợp của nhiều phương pháp khác nhau để trích xuất insight từ dữ liệu. Nó có thể liên quan đến các phương pháp thống kê truyền thống và ML. Khai phá dữ liệu áp dụng các phương pháp từ nhiều lĩnh vực khác nhau để xác định các mẫu ẩn từ dữ liệu. Điều này có thể bao gồm các thuật toán thống kê, ML, phân tích văn bản, phân tích chuỗi thời gian và các lĩnh vực phân tích khác. Khai phá dữ liệu cũng bao gồm việc nghiên cứu và thực thi lưu trữ dữ liệu và thao tác dữ liệu.
5.2 Machine Learning
Sự khác biệt chính của ML là, cũng giống như các mô hình thống kê, mục tiêu của nó là hiểu cấu trúc của dữ liệu – khớp các lý thuyết phân phối với dữ liệu đã được biết trước. Với các mô hình thống kê, lý thuyết xây dựng mô hình được chứng minh bằng toán học, điều này đòi hỏi dữ liệu phải đáp ứng các giả định nhất định. Khác với đó, ML đã phát triển dựa trên khả năng sử dụng máy tính để thăm dò cấu trúc dữ liệu, ngay cả khi chúng ta không có lý thuyết về cấu trúc đó trông như thế nào. Kiểm chứng với mô hình ML cho ra một lỗi xác thực trên dữ liệu mới, chứ không phải chỉ là bài kiểm tra lý thuyết chứng minh giả thuyết vô hiệu. Vì ML thường sử dụng phương pháp lặp đi lặp lại để học từ dữ liệu nên việc học có thể được tự động hóa dễ dàng. Các đường truyền được chạy qua dữ liệu cho đến khi tìm thấy một mẫu chuẩn mạnh
5.3 Deep Learning
DL kết hợp những tiến bộ trong khả năng tính toán và các loại neural networks đặc biệt để học các pattern phức tạp với lượng lớn dữ liệu. Kỹ thuật DL hiện đang là kỹ thuật tiên tiến để xác định các đối tượng trong hình ảnh và âm thanh. Các nhà nghiên cứu hiện đang tìm cách áp dụng những thành công này trong nhận dạng mẫu cho các nhiệm vụ phức tạp hơn như dịch ngôn ngữ tự động, chẩn đoán y tế và nhiều vấn đề xã hội và kinh tế quan trọng khác.
6. Làm thế nào để vận dụng Machine Learning hiệu quả
Để nhận được nhiều giá trị nhất từ ML, bạn phải biết cách ghép nối các thuật toán tốt nhất với các công cụ và quy trình phù hợp. SAS kết hợp những kế thừa phong phú, phức tạp trong thống kê và phá dữ liệu với những tiến bộ kiến trúc mới để đảm bảo mô hình của bạn chạy nhanh nhất có thể – ngay cả trong môi trường doanh nghiệp lớn.
Thuật toán: Giao diện người dùng đồ họa SAS giúp bạn xây dựng mô hình ML và thực hiện quy trình ML lặp đi lặp lại. Bạn không cần phải là một nhà thống kê cao cấp. Việc lựa chọn các thuật toán ML của chúng tôi có thể giúp bạn nhanh chóng nhận được giá trị từ big data của mình. Các thuật toán ML SAS bao gồm:
|
|
|
|
|
|
|
|
|
Công cụ và Quy trình: Như chúng ta đã biết hiện nay, nó không chỉ là các thuật toán. Cuối cùng, bí mật để nhận được nhiều giá trị nhất từ Big Data nằm ở việc ghép nối các thuật toán tốt nhất với các task như:
|
|
|
|
|
|
|
>>> Nếu bạn đang có nhu cầu học lập trình trực tuyến, tìm hiểu ngay tại đây:
- Tất cả những điều bạn cần biết về khóa học lập trình tại FUNiX FPT
- 5 Điểm đáng chú ý tại khóa học lập trình trực tuyến FPT – FUNiX
- Từ A-Z chương trình học FUNiX – Mô hình đào tạo lập trình trực tuyến số 1 Việt Nam
- Lý do phổ biến khiến học viên nước ngoài chọn FUNiX
- Lưu ý để học blockchain trực tuyến hiệu quả cao tại FUNiX
- Lý do nữ giới nên chọn FUNiX để học chuyển nghề IT
- FUNiX trở thành đối tác của Liên minh Blockchain Việt Nam
- 3 lý do bạn trẻ nên học blockchain trực tuyến ở FUNiX
Nguyễn Hải Nam
Dịch từ bài Machine Learning
What it is and why it matters
Tìm hiểu: khoá học Machine Learning cam kết đầu ra với mức lương 12-16 triệu/tháng.
Bình luận (0
)