Ứng dụng học máy trong phân tích dữ liệu
Đây là môn học mới được Trung tâm Công nghệ chuyên sâu xSeries FUNiX cho ra mắt ngày 15/7. Môn học bao gồm 4 phần: Xử lý dữ liệu với Python, Xử lý dữ liệu với Pandas, Trực quan hoá dữ liệu và Ứng dụng học máy trong phân tích dữ liệu.
- Tìm hiểu về tác động của GPT trong chiến lược kinh doanh
- Lợi ích của cơ sở dữ liệu định hướng tài liệu AI trong kỷ nguyên Big Data
- Tầm quan trọng của đường ống dữ liệu AI trong học máy
- Lợi ích của việc sử dụng AI GraphQL trong truy vấn dữ liệu
- Tìm hiểu về vai trò của Học máy trong dự đoán địa điểm khảo cổ
Table of Contents
Ứng dụng học máy trong phân tích dữ liệu là môn học thứ 4 của chứng chỉ Data Analysis, được thiết kế bởi Th.S Nguyễn Thế Chinh (Thạc sĩ tại Viện công nghệ Hoàng Gia, Thụy Điển; Chuyên viên nghiên cứu Machine Learning tại Coderschool).
Nội dung môn học
Môn học bao gồm 4 phần: Xử lý dữ liệu với Python, Xử lý dữ liệu với Pandas, Trực quan hoá dữ liệu và Ứng dụng học máy trong phân tích dữ liệu.
Trong môn học này, học viên sẽ được làm quen với ngôn ngữ Python và cách sử dụng thư viện Pandas để xử lý dữ liệu dạng bảng. Với Pandas, các bạn có thể dễ dàng thực hiện các công việc như làm sạch dữ liệu, chuẩn hoá và biến đổi dữ liệu. Ngoài ra, Pandas cũng hỗ trợ rất nhiều định dạng file dữ liệu khác nhau như json, xlsx, csv, … Việc này sẽ giúp các bạn có nhiều lựa chọn hơn khi làm việc với dữ liệu.
Đặc biệt ở phần 3 của môn học này, học viên sẽ được thực hành trực quan hoá dữ liệu với Python bằng cách sử dụng các thư viện của Python như Matplotlib, Seaborn, Folium, Plotly.
Trong phần cuối cùng của môn học, học viên sẽ được làm quen với học máy, đây là một lĩnh vực rất rộng lớn và được sử dụng rộng rãi trong phân tích dữ liệu nâng cao. Nếu trước đây các bạn đã được làm quen với mô hình Linear Regression cơ bản (trong môn Giới thiệu về phân tích dữ liệu) thì ở phần này, các bạn sẽ được giới thiệu các mô hình khác như Regression nâng cao, hồi quy logistic, cây quyết định, k-Mean. Mỗi mô hình đều được sử dụng khi phân tích dữ liệu nâng cao: hồi quy logistic có thể giúp các bạn phân loại đâu là khách hàng tiềm năng, k-Means sẽ giúp các bạn phân nhóm được các nhóm khách hàng có đặc điểm chung, …
Mục tiêu môn học
Sau khi học xong môn này, học viên sẽ đạt được các chuẩn kiến thức, kỹ năng đầu ra như sau:
- Sử dụng Python để làm việc với các dữ liệu dạng text file, dữ liệu web
- Sử dụng numpy khi thao tác với mảng 1 chiều và 2 chiều
- Sử dụng thành thạo Pandas cho các tác vụ làm sạch, biến đổi, xử lý và phân tích dữ liệu
- Biết viết regular expression để làm các querry từ đơn giản đến phức tạp với dữ liệu text
- Sử dụng được Python để trực quan hóa dữ liệu thông qua các thư viện từ cơ bản đến nâng cao
- Làm quen với một số bài toán mô hình hóa dữ liệu cơ bản như hồi quy tuyến tính, hồi quy logistic, cây quyết định k-Means
Nguồn học liệu
Dự kiến môn học sẽ mất khoảng 6 tuần để hoàn thành. Tuy nhiên, tại FUNiX, học viên có thể chủ động về thời gian, tự xây dựng cho mình một lộ trình học tập phù hợp với khả năng của mình.
Để học tập hiệu quả môn học này, học viên cần khai thác triệt để nguồn học liệu từ những nguồn khác nhau, bao gồm cả nguồn online và offline. Tại FUNiX hiện nay đang cung cấp nguồn học liệu MOOC, chắt lọc những video, tài liệu online có giá trị đến từ nền tảng Udemy và Coursera.
Chỉ cần người học thực sự quyết tâm, tự giác xây dựng một lộ trình phù hợp với thời gian của bản thân và thường xuyên tương tác, trao đổi với mentor, học viên sẽ có thể tự tin hoàn thành môn học.
Minh Tiến
Bình luận (0
)