Ứng dụng học máy trong phân tích dữ liệu

Ứng dụng học máy trong phân tích dữ liệu

Tin tức 22/07/2022

Đây là môn học mới được Trung tâm Công nghệ chuyên sâu xSeries FUNiX cho ra mắt ngày 15/7. Môn học bao gồm 4 phần: Xử lý dữ liệu với Python, Xử lý dữ liệu với Pandas, Trực quan hoá dữ liệu và Ứng dụng học máy trong phân tích dữ liệu.

Ứng dụng học máy trong phân tích dữ liệu là môn học thứ 4 của chứng chỉ Data Analysis, được thiết kế bởi Th.S Nguyễn Thế Chinh (Thạc sĩ tại Viện công nghệ Hoàng Gia, Thụy Điển; Chuyên viên nghiên cứu Machine Learning tại Coderschool).

phân tích dữ liệu
Môn học bao gồm 4 phần: Xử lý dữ liệu với Python, Xử lý dữ liệu với Pandas, Trực quan hoá dữ liệu và Ứng dụng học máy trong phân tích dữ liệu.

Nội dung môn học

Môn học bao gồm 4 phần: Xử lý dữ liệu với Python, Xử lý dữ liệu với Pandas, Trực quan hoá dữ liệu và Ứng dụng học máy trong phân tích dữ liệu.

Trong môn học này, học viên sẽ được làm quen với ngôn ngữ Python và cách sử dụng thư viện Pandas để xử lý dữ liệu dạng bảng. Với Pandas, các bạn có thể dễ dàng thực hiện các công việc như làm sạch dữ liệu, chuẩn hoá và biến đổi dữ liệu. Ngoài ra, Pandas cũng hỗ trợ rất nhiều định dạng file dữ liệu khác nhau như json, xlsx, csv, … Việc này sẽ giúp các bạn có nhiều lựa chọn hơn khi làm việc với dữ liệu.

Đặc biệt ở phần 3 của môn học này, học viên sẽ được thực hành trực quan hoá dữ liệu với Python bằng cách sử dụng các thư viện của Python như Matplotlib, Seaborn, Folium, Plotly.

Trong phần cuối cùng của môn học, học viên sẽ được làm quen với học máy, đây là một lĩnh vực rất rộng lớn và được sử dụng rộng rãi trong phân tích dữ liệu nâng cao. Nếu trước đây các bạn đã được làm quen với mô hình Linear Regression cơ bản (trong môn Giới thiệu về phân tích dữ liệu) thì ở phần này, các bạn sẽ được giới thiệu các mô hình khác như Regression nâng cao, hồi quy logistic, cây quyết định, k-Mean. Mỗi mô hình đều được sử dụng khi phân tích dữ liệu nâng cao: hồi quy logistic có thể giúp các bạn phân loại đâu là khách hàng tiềm năng, k-Means sẽ giúp các bạn phân nhóm được các nhóm khách hàng có đặc điểm chung, …

Mục tiêu môn học

Sau khi học xong môn này, học viên sẽ đạt được các chuẩn kiến thức, kỹ năng đầu ra như sau:

  • Sử dụng Python để làm việc với các dữ liệu dạng text file, dữ liệu web
  • Sử dụng numpy khi thao tác với mảng 1 chiều và 2 chiều
  • Sử dụng thành thạo Pandas cho các tác vụ làm sạch, biến đổi, xử lý và phân tích dữ liệu
  • Biết viết regular expression để làm các querry từ đơn giản đến phức tạp với dữ liệu text
  • Sử dụng được Python để trực quan hóa dữ liệu thông qua các thư viện từ cơ bản đến nâng cao
  • Làm quen với một số bài toán mô hình hóa dữ liệu cơ bản như hồi quy tuyến tính, hồi quy logistic, cây quyết định k-Means

Nguồn học liệu 

Dự kiến môn học sẽ mất khoảng 6 tuần để hoàn thành. Tuy nhiên, tại FUNiX, học viên có thể chủ động về thời gian, tự xây dựng cho mình một lộ trình học tập phù hợp với khả năng của mình. 

Để học tập hiệu quả môn học này, học viên cần khai thác triệt để nguồn học liệu từ những nguồn khác nhau, bao gồm cả nguồn online và offline. Tại FUNiX hiện nay đang cung cấp nguồn học liệu MOOC, chắt lọc những video, tài liệu online có giá trị đến từ nền tảng Udemy và Coursera.

Chỉ cần người học thực sự quyết tâm, tự giác xây dựng một lộ trình phù hợp với thời gian của bản thân và thường xuyên tương tác, trao đổi với mentor, học viên sẽ có thể tự tin hoàn thành môn học.

Minh Tiến 

Bình luận (
0
)

Bài liên quan

  • Tầng 0, tòa nhà FPT, 17 Duy Tân, Q. Cầu Giấy, Hà Nội
  • info@funix.edu.vn
  • 0782313602 (Zalo, Viber)        

yêu cầu gọi lại

error: Content is protected !!