Thông tin chung
Môn học thứ tư của Chương trình Machine Learning sẽ cung cấp cho học viên những chủ đề thú vị về những công cụ Machine Learning hiệu quả và hữu ích nhất – Phân cụm (Clustering) và Trích xuất (Retrieval). Các quy trình Machine Learning trước đây có các nhãn được giám sát và các mục tiêu đã xác định, còn môn học này sẽ tập trung vào việc trích xuất thông tin có giá trị từ dữ liệu có vẻ như chưa được tổ chức và không được gắn nhãn, những thông tin này thường tồn tại với số lượng lớn hoặc vẫn chưa được sử dụng.
Do có thể sử dụng dữ liệu ở trạng thái gần như thô (vì nó không thể sử dụng con người để tăng cường dữ liệu), chúng ta có ít quyền kiểm soát quá trình hơn khi sử dụng các thuật toán học không giám sát. Do đó, chúng thường được sử dụng như một công cụ phân tích để hỗ trợ các nhà khoa học dữ liệu trong các quá trình trích xuất và chọn lọc thông tin hay khai phá dữ liệu đạt được kết quả tốt hơn.
Machine Learning không được giám sát được phân thành Phân cụm và Trích xuất. Cụ thể, nó tập trung vào việc sử dụng dữ liệu chia nhỏ thành cụm gồm nhiều điểm dữ liệu tương tự nhau và phát hiện thông tin quan trọng trong chính dữ liệu. Hơn nữa, sau khi phân tích, các thông tin quan trọng này có thể được khai thác giải quyết vấn đề nghiên cứu và thực tiễn bằng một số phương pháp áp dụng với các đặc điểm khác nhau cho một tập dữ liệu cụ thể.
Mục tiêu môn học
Sau khi học xong môn này, học viên sẽ đạt được các chuẩn kiến thức, kỹ năng đầu ra như sau:
Có cái nhìn chung về phân cụm và trích xuất.
Hiểu các thuật toán tìm kiếm lân cận gần nhất (Nearest Neighbor Search Algorithm).
Hiểu Thuật toán K-means và hiểu cách hoạt động của nó.
Hiểu ý tưởng mô hình hỗn hợp (Mixture Model).
Biết được cách kết hợp giữa Mixed Membership Modelling (Mô hình Mixed Membership) và Lattent Dirichlet Allocation (Phân bổ Dirichlet Lattent).
Hiểu một phương pháp khác để giải quyết bài toán phân cụm và áp dụng nó vào các dự án thực tế.
Trải nghiệm học tập
Phần 1: Các thuật toán phân cụm cơ bản
Bài 1: Giới thiệu về các tác vụ phân cụm và trích xuất
Bài 2: Giới thiệu về thuật toán tìm kiếm lân cận gần nhất
Bài 3: Tầm quan trọng của biểu diễn dữ liệu và độ đo khoảng cách (distance metric)
Lab 1: Lựa chọn features và metrics cho tìm kiếm lân cận gần nhất
Bài 4: Mở rộng quy mô tìm kiếm k-NN bằng KD-tree
Bài 5: Locality sensitive hashing (Băm nhạy cảm cục bộ) để tìm kiếm NN gần đúng
Lab 2: Triển khai thuật toán Locality Sensitive Hashing với Python
Phần 2: Phân cụm với k-means
Bài 6: Giới thiệu về phân cụm
Bài 7: Phân cụm qua k-means
Bài 8: MapReduce để chia tỷ lệ k-means
Lab 3: Phân cụm dữ liệu văn bản với k-means
Project 1 – Xây dựng hệ thống đề xuất phim
Phần 3: Mô hình hỗn hợp (Mixture Model)
Bài 9: Tạo động lực và thiết lập nền tảng cho các mô hình hỗn hợp
Bài 10: Mô hình hỗn hợp Gaussian để phân cụm
Lab 4: Triển khai EM cho Gaussian mixtures với Python
Bài 11: Các khối xây dựng của thuật toán Cực đại hóa kỳ vọng (EM)
Bài 12: Thuật toán EM
Lab 5: Phân cụm dữ liệu văn bản với Gaussian mixtures
Bài 13: Giới thiệu về Latent Dirichlet Allocation (LDA)
Bài 14: Suy luận Bayes (Bayesian inference) qua Gibbs sampling (lấy mẫu Gibbs)
Bài 15: Collapsed Gibbs sampling cho LDA
Lab 6: Phân bổ Latent Dirichlet
Bài 16: Phân cụm phân cấp và phân cụm để phân đoạn chuỗi thời gian
Project 2 – Tăng cường Phân loại qua Mô hình Chủ đề (Topic Modelling)
Đặc điểm môn học
Để bắt đầu, các bạn nên dành một vài phút khám phá môn học và cấu trúc chung. Môn học sẽ có 3 phần với 16 bài học. Xuyên suốt các bài học và cuối mỗi học phần, các bài thực hành Lab và bài tập lớn (Project) sẽ giúp các bạn tăng cường việc ghi nhớ và vận dung lý thuyết đã học vào các bài toán thực tế. Để việc học tập được hiệu quả, hãy luôn trau dồi kiến thức, không ngừng học hỏi, nghiên cứu và lập cho mình một kế hoạch học tập hợp lý để hoàn thành khóa học một cách xuất sắc.
Trong thời gian học (dự kiến là 6 tuần), việc phân bổ tuần học là rất quan trọng. Nếu các bạn có bất cứ câu hỏi nào hãy kết nối với Mentor để được giải đáp.
Nguồn học liệu
Trong thời đại hiện nay, mỗi môn học đều có nhiều nguồn tài liệu liên quan kể cả sách in và online, FUNiX Way không quy định một nguồn học liệu cụ thể mà khuyến cáo để học viên chọn được nguồn phù hợp nhất cho mình. Trong quá trình học từ nhiều nguồn khác nhau theo lựa chọn cá nhân đó, khi sinh viên phát sinh câu hỏi thì sẽ được kết nối nhanh nhất với mentor để được giải đáp. Toàn bộ phần đánh giá bao gồm các câu hỏi trắc nghiệm, bài tập, dự án và thi vấn đáp do FUNiX thiết kế, xây dựng và thực hiện.
Các môn học của FUNiX không quy định bắt buộc tài liệu học tập, sinh viên có thể chủ động tìm và học từ bất kỳ nguồn nào phù hợp, kể cả sách in hay nguồn học liệu online (MOOC) hay các website. Việc sử dụng các nguồn đó do học viên chịu trách nghiệm và đảm bảo tuân thủ các chính sách của chủ sở hữu nguồn, trừ trường hợp họ có sự hợp tác chính thức với FUNiX. Nếu cần hỗ trợ, học viên có thể liên hệ phòng đào tạo FUNiX để được hướng dẫn.
Dưới đây là một số nguồn học liệu của môn học mà học viên có thể tham khảo sử dụng. Việc liệt kê nguồn dưới đây không nhất thiết hàm ý rằng FUNiX có sự hợp tác chính thức với chủ sở hữu của nguồn: Coursera, tutorialspoint, edX Training, or Udemy.