Thông tin chung
Phân loại (Classification) là một trong những bài toán phạm vi nghiên cứu phổ biến nhất trong lĩnh vực Học máy. Ngày nay, bạn có thể thấy ứng dụng của phân loại học máy ở nhiều nơi. Ví dụ: khi bạn đăng một hình ảnh lên Facebook, nó có thể nhận ra khuôn mặt của bạn và bạn bè bạn; hoặc khi bạn truy cập Internet, bạn có thể thấy có rất nhiều quảng cáo hiển thị dựa trên sở thích và những gì bạn đã tìm kiếm trên Google trước đó. Hơn nữa, có thể bạn đã nghe nói rằng phân loại học máy có thể giúp dự đoán xem một bệnh nhân có bị bệnh hay không.
Môn học thứ ba của Chương trình Machine learning sẽ cung cấp cho người học những chủ đề thú vị về Phân loại bao gồm các bài toán và thuật toán phân loại phổ biến. Thông qua môn học, bạn sẽ được giới thiệu các thuật toán được sử dụng rộng rãi như Logicstic Regression, Decision Tree (Cây quyết định), Random Forest, SVM-Support Vector Machine (Máy véc-tơ hỗ trợ) hoặc Neural Network (Mạng nơ-ron). Quan trọng hơn là, ngoài việc khám phá các thuật toán này, bạn sẽ có cơ hội áp dụng chúng vào các bộ dữ liệu trong thực tế cũng như đánh giá các mô hình phân loại và sử dụng chúng trong các bài toán thích hợp.
Mục tiêu môn học
Sau khi học xong môn này, học viên sẽ đạt được các chuẩn kiến thức, kỹ năng đầu ra như sau:
Nắm rõ mục tiêu và các phương pháp tiếp cận giải bài toán phân loại.
Triển khai được các thuật toán thông dụng để giải bài toán phân loại: Hồi quy Logistic, mạng nơron nông và sâu (DNN), cây quyết định (DT), SVM.
Giải quyết các vấn đề underfit, overfit, optimization và regularization trong bài toán phân loại.
Thành thạo các phương pháp trích xuất và chọn lọc đặc trưng từ dữ liệu cho bài toán phân loại.
Làm quen với các thuật toán phân loại nâng cao: Adaboost, Random Forest.
Xử lý được vấn đề mất cân bằng dữ liệu trong bài toán phân loại.
Nắm được các phương pháp ensemble khác nhau cho các bài toán ML và cách áp dụng chúng: Ensembling, boosting, bagging, stacking.
Có thể thực thi được 1 pipeline hoàn chỉnh để giải quyết bài toán phân loại.
Có năng lực về chuẩn hóa dữ liệu, xây dựng và đánh giá, phân tích lỗi, cải thiện và tối ưu model trong các bài toán ML.
Trải nghiệm học tập
Phần 1: Hồi quy Logistic
Bài 1: Giới thiệu về bài toán phân loại
Bài 2: Gradient Descent với hồi quy Logistic
Bài 3: Numpy và vector hóa
Phần 2: Mạng nơron
Bài 4: Shallow Neural Network (Mạng nơron nông)
Bài 5: Deep Neural Network (Mạng nơron sâu)
Bài 6: Regularization (điều chuẩn)
Bài 7: Tối ưu mô hình DNN
Bài 8: Hyperparameters Tuning (Điều chỉnh siêu tham số)
Phần 3: Các thuật toán phân loại khác
Bài 9: Cây quyết định (Decision Tree)
Bài 10: Overfitting trong Cây quyết định
Bài 11: Tăng cường (Boosting)
Bài 12: Rừng ngẫu nhiên (Random forest)
Assignment 1 – Dự đoán thời tiết ngày mai
Phần 4: Học máy với dữ liệu không cân bằng
Bài 13: Dữ liệu không cân bằng
Bài 14: Phép đánh giá
Bài 15: Undersampling (lấy mẫu dưới)
Bài 16: Oversampling (lấy mẫu thừa)
Phần 5: Các kỹ thuật Ensemble trong học máy
Bài 17: Tổng quan về ensembling
Bài 18: Phương pháp ensemble với dữ liệu không cân bằng
Assignment 2 – Dự đoán mức độ hài lòng của khách hàng với các dịch vụ của ngân hàng
Đặc điểm môn học
Để bắt đầu, các bạn nên dành một vài phút khám phá môn học và cấu trúc chung. Môn học sẽ có 5 phần với 18 bài học. Xuyên suốt các bài học và cuối mỗi học phần, các bài thực hành Lab và bài tập lớn (Project) sẽ giúp các bạn tăng cường việc ghi nhớ và vận dung lý thuyết đã học vào các bài toán thực tế. Để việc học tập được hiệu quả, hãy luôn trau dồi kiến thức, không ngừng học hỏi, nghiên cứu và lập cho mình một kế hoạch học tập hợp lý để hoàn thành khóa học một cách xuất sắc.
Trong thời gian học (dự kiến là 6 tuần), việc phân bổ tuần học là rất quan trọng. Nếu các bạn có bất cứ câu hỏi nào hãy kết nối với Mentor để được giải đáp.
Nguồn học liệu
Trong thời đại hiện nay, mỗi môn học đều có nhiều nguồn tài liệu liên quan kể cả sách in và online, FUNiX Way không quy định một nguồn học liệu cụ thể mà khuyến cáo để học viên chọn được nguồn phù hợp nhất cho mình. Trong quá trình học từ nhiều nguồn khác nhau theo lựa chọn cá nhân đó, khi sinh viên phát sinh câu hỏi thì sẽ được kết nối nhanh nhất với mentor để được giải đáp. Toàn bộ phần đánh giá bao gồm các câu hỏi trắc nghiệm, bài tập, dự án và thi vấn đáp do FUNiX thiết kế, xây dựng và thực hiện.
Các môn học của FUNiX không quy định bắt buộc tài liệu học tập, sinh viên có thể chủ động tìm và học từ bất kỳ nguồn nào phù hợp, kể cả sách in hay nguồn học liệu online (MOOC) hay các website. Việc sử dụng các nguồn đó do học viên chịu trách nghiệm và đảm bảo tuân thủ các chính sách của chủ sở hữu nguồn, trừ trường hợp họ có sự hợp tác chính thức với FUNiX. Nếu cần hỗ trợ, học viên có thể liên hệ phòng đào tạo FUNiX để được hướng dẫn.
Dưới đây là một số nguồn học liệu của môn học mà học viên có thể tham khảo sử dụng. Việc liệt kê nguồn dưới đây không nhất thiết hàm ý rằng FUNiX có sự hợp tác chính thức với chủ sở hữu của nguồn: Coursera, tutorialspoint, edX Training, or Udemy.