Thông tin chung
Big Data hay còn được biết với cái tên “Dữ liệu lớn” là một trong những từ khoá được nhắc đến gần đây trong thế giới công nghệ thông tin, đặc biệt là khi chúng ta đang bước vào kỷ nguyên công nghiệp 4.0. Như các bạn đã biết, sự ra đời của mạng máy tính toàn cầu (Internet) và sự phát triển của các phương tiện kỹ thuật số đã và đang tạo ra một lượng dữ liệu khổng lồ. Dù vô tình hay hữu ý thì dữ liệu này chứa trong nó rất nhiều giá trị.
Trong môn học này các bạn sẽ được tìm hiểu về hệ thống tính toán và thuật toán xử lý dữ liệu để có đầy đủ kiến thức cho những công việc liên quan đến dữ liệu lớn. Về hệ thống tính toán, chúng ta sẽ tìm hiểu qua về Hadoop và đi sâu vào Apache Spark – hai nền tảng phổ biến nhất hiện nay trong xử lý dữ liệu lớn. Các bạn sẽ nắm được tổng quan về nền tảng xử lý dữ liệu lớn thông qua hệ thống các máy tính kết nối với nhau. Sau đó, các bạn sẽ học cách thiết kế, lập lịch và giám sát các đường ống dẫn dữ liệu (data pipelines) thông qua Apache Airflow.
Mục tiêu môn học
Sau khi học xong môn này, học viên sẽ đạt được các chuẩn kiến thức, kỹ năng đầu ra như sau:
Nắm vững được các khái niệm cơ bản trong Big Data như Hadoop, Map-Reduce, RDD, Spark, SparkSQL, DataFrame, DataSet.
Sử dụng được Pyspark thuần thục trên Python với dữ liệu phi cấu trúc (Spark RDD) và dữ liệu có cấu trúc (Spark DataFrame và SparkSQL).
Hiểu được các công nghệ chuyên biệt trên Spark như Spark Streaming, Structed Streaming, GraphX, Mllib.
Nắm vững các chức năng cốt lõi của Apache Airflow như DAGs, Operator, Task, Workflow,…
Trải nghiệm học tập
Phần 1: Giới thiệu về Big Data và Hadoop
Bài 1: Khái niệm về Big Data
Bài 2: Giới thiệu về Hadoop
Bài 3: Quản lý Big Data và Big Data Processing
Phần 2: Big Data với Spark
Bài 4: Giới thiệu về Spark
Bài 5: Spark RDD
Bài 6: SparkSQL, Data-frames và Datasets
Bài 7: SparkSQL và SparkSQL Table
Bài 8: Data Transformation với Spark
Bài 9: Data Aggregations và Join trên Spark
Bài 10: Spark Streaming
Bài 11: Đọc dữ liệu với Kafka Source và các phép Join với Stream
Bài 12: Streaming Windowing và Aggregates
Bài 13: Giám sát & Điều chỉnh
Assingment 1 – Phân tích hành vi và thói quen của người dùng Stack Overflow
Phần 3: Apache Airflow
Bài 14: Giới thiệu về Apache Airflow
Bài 15: Tạo Data Pipeline với Airflow
Bài 16: Chạy Data Pipeline song song
Bài 17: Các khái niệm nâng cao trong Airflow
Assingment 2 – Thiết lập DataPipeline cho dữ liệu lớn từ Cloud
Đặc điểm môn học
Để bắt đầu, các bạn nên dành một vài phút khám phá môn học và cấu trúc chung. Môn học sẽ có 3 phần với 17 bài học. Xuyên suốt các bài học và cuối mỗi học phần, các bài thực hành Lab và bài tập lớn (Assignment) sẽ giúp các bạn tăng cường việc ghi nhớ và vận dung lý thuyết đã học vào các bài toán thực tế. Để việc học tập được hiệu quả, hãy luôn trau dồi kiến thức, không ngừng học hỏi, nghiên cứu và lập cho mình một kế hoạch học tập hợp lý để hoàn thành khóa học một cách xuất sắc.
Trong thời gian học (dự kiến là 6 tuần), việc phân bổ tuần học là rất quan trọng. Nếu các bạn có bất cứ câu hỏi nào hãy kết nối với Mentor để được giải đáp.
Nguồn học liệu
Trong thời đại hiện nay, mỗi môn học đều có nhiều nguồn tài liệu liên quan kể cả sách in và online, FUNiX Way không quy định một nguồn học liệu cụ thể mà khuyến cáo để học viên chọn được nguồn phù hợp nhất cho mình. Trong quá trình học từ nhiều nguồn khác nhau theo lựa chọn cá nhân đó, khi sinh viên phát sinh câu hỏi thì sẽ được kết nối nhanh nhất với mentor để được giải đáp. Toàn bộ phần đánh giá bao gồm các câu hỏi trắc nghiệm, bài tập, dự án và thi vấn đáp do FUNiX thiết kế, xây dựng và thực hiện.
Các môn học của FUNiX không quy định bắt buộc tài liệu học tập, sinh viên có thể chủ động tìm và học từ bất kỳ nguồn nào phù hợp, kể cả sách in hay nguồn học liệu online (MOOC) hay các website. Việc sử dụng các nguồn đó do học viên chịu trách nhiệm và đảm bảo tuân thủ các chính sách của chủ sở hữu nguồn, trừ trường hợp họ có sự hợp tác chính thức với FUNiX. Nếu cần hỗ trợ, học viên có thể liên hệ phòng đào tạo FUNiX để được hướng dẫn.
Dưới đây là một số nguồn học liệu của môn học mà học viên có thể tham khảo sử dụng. Việc liệt kê nguồn dưới đây không nhất thiết hàm ý rằng FUNiX có sự hợp tác chính thức với chủ sở hữu của nguồn: Coursera, tutorialspoint, edX Training, or Udemy.