Ứng dụng học máy trong phân tích dữ liệu


Thông tin chung
Trong môn học này, học viên sẽ được làm quen với ngôn ngữ Python và cách sử dụng thư viện Pandas để xử lý dữ liệu dạng bảng. Với Pandas, các bạn có thể dễ dàng thực hiện các công việc như làm sạch dữ liệu, chuẩn hoá và biến đổi dữ liệu. Ngoài ra, Pandas cũng hỗ trợ rất nhiều định dạng file dữ liệu khác nhau như json, xlsx, csv, … Việc này sẽ giúp các bạn có nhiều lựa chọn hơn khi làm việc với dữ liệu.
Trong ở phần 3 của môn học này, các bạn sẽ được thực hành trực quan hoá dữ liệu với Python bằng cách sử dụng các thư viện của Python như Matplotlib, Seaborn, Folium, Plotly.
Trong phần cuối cùng của môn học, các bạn sẽ được làm quen với học máy, đây là một lĩnh vực rất rộng lớn và được sử dụng rộng rãi trong phân tích dữ liệu nâng cao. Nếu trước đây các bạn đã được làm quen với mô hình Linear Regression cơ bản (trong môn Giới thiệu về phân tích dữ liệu) thì ở phần này, các bạn sẽ được giới thiệu các mô hình khác như Regression nâng cao, hồi quy logistic, cây quyết định, k-Mean. Mỗi mô hình đều được sử dụng khi phân tích dữ liệu nâng cao: hồi quy logistic có thể giúp các bạn phân loại đâu là khách hàng tiềm năng, k-Means sẽ giúp các bạn phân nhóm được các nhóm khách hàng có đặc điểm chung, …
# |
Mục tiêu |
1 |
Sử dụng Python để làm việc với các dữ liệu dạng text file, dữ liệu web |
2 |
Sử dụng numpy khi thao tác với mảng 1 chiều và 2 chiều |
3 |
Sử dụng thành thạo Pandas cho các tác vụ làm sạch, biến đổi, xử lý và phân tích dữ liệu |
4 |
Biết viết regular expression để làm các query từ đơn giản đến phức tạp với dữ liệu text |
5 |
Sử dụng được Python để trực quan hóa dữ liệu thông qua các thư viện từ cơ bản đến nâng cao |


Đừng ngần ngại!
Bạn sẽ dễ dàng chuẩn bị nền tảng cùng FUNiX!

