Dữ liệu lớn với Spark | Học trực tuyến CNTT, học lập trình từ cơ bản đến nâng cao

Thông tin chung

Big Data hay còn được biết với cái tên “Dữ liệu lớn” là một trong những từ khoá được nhắc đến gần đây trong thế giới công nghệ thông tin, đặc biệt là khi chúng ta đang bước vào kỷ nguyên công nghiệp 4.0. Như các bạn đã biết, sự ra đời của mạng máy tính toàn cầu (Internet) và sự phát triển của các phương tiện kỹ thuật số đã và đang tạo ra một lượng dữ liệu khổng lồ. Dù vô tình hay hữu ý thì dữ liệu này chứa trong nó rất nhiều giá trị.

Trong môn học này các bạn sẽ được tìm hiểu về hệ thống tính toán và thuật toán xử lý dữ liệu để có đầy đủ kiến thức cho những công việc liên quan đến dữ liệu lớn. Về hệ thống tính toán, chúng ta sẽ tìm hiểu qua về Hadoop và đi sâu vào Apache Spark – hai nền tảng phổ biến nhất hiện nay trong xử lý dữ liệu lớn. Các bạn sẽ nắm được tổng quan về nền tảng xử lý dữ liệu lớn thông qua hệ thống các máy tính kết nối với nhau. Sau đó, các bạn sẽ học cách thiết kế, lập lịch và giám sát các đường ống dẫn dữ liệu (data pipelines) thông qua Apache Airflow.

Mục tiêu môn học

Sau khi học xong môn này, học viên sẽ đạt được các chuẩn kiến thức, kỹ năng đầu ra như sau:

Nắm vững được các khái niệm cơ bản trong Big Data như Hadoop, Map-Reduce, RDD, Spark, SparkSQL, DataFrame, DataSet.

Sử dụng được Pyspark thuần thục trên Python với dữ liệu phi cấu trúc (Spark RDD) và dữ liệu có cấu trúc (Spark DataFrame và SparkSQL).

Hiểu được các công nghệ chuyên biệt trên Spark như Spark Streaming, Structed Streaming, GraphX, Mllib.

Nắm vững các chức năng cốt lõi của Apache Airflow như DAGs, Operator, Task, Workflow,…

Trải nghiệm học tập

Phần 1: Giới thiệu về Big Data và Hadoop

Bài 1: Khái niệm về Big Data

Bài 2: Giới thiệu về Hadoop

Bài 3: Quản lý Big Data và Big Data Processing

Phần 2: Big Data với Spark

Bài 4: Giới thiệu về Spark

Bài 5: Spark RDD

Bài 6: SparkSQL, Data-frames và Datasets

Bài 7: SparkSQL và SparkSQL Table

Bài 8: Data Transformation với Spark

Bài 9: Data Aggregations và Join trên Spark

Bài 10: Spark Streaming

Bài 11: Đọc dữ liệu với Kafka Source và các phép Join với Stream

Bài 12: Streaming Windowing và Aggregates

Bài 13: Giám sát & Điều chỉnh

Assingment 1 – Phân tích hành vi và thói quen của người dùng Stack Overflow

Phần 3: Apache Airflow

Bài 14: Giới thiệu về Apache Airflow

Bài 15: Tạo Data Pipeline với Airflow

Bài 16: Chạy Data Pipeline song song

Bài 17: Các khái niệm nâng cao trong Airflow

Assingment 2 – Thiết lập DataPipeline cho dữ liệu lớn từ Cloud

Đặc điểm môn học

Để bắt đầu, các bạn nên dành một vài phút khám phá môn học và cấu trúc chung. Môn học sẽ có 3 phần với 17 bài học. Xuyên suốt các bài học và cuối mỗi học phần, các bài thực hành Lab và bài tập lớn (Assignment) sẽ giúp các bạn tăng cường việc ghi nhớ và vận dung lý thuyết đã học vào các bài toán thực tế. Để việc học tập được hiệu quả, hãy luôn trau dồi kiến thức, không ngừng học hỏi, nghiên cứu và lập cho mình một kế hoạch học tập hợp lý để hoàn thành khóa học một cách xuất sắc.

Trong thời gian học (dự kiến là 6 tuần), việc phân bổ tuần học là rất quan trọng. Nếu các bạn có bất cứ câu hỏi nào hãy kết nối với Mentor để được giải đáp.

Nguồn học liệu

Trong thời đại hiện nay, mỗi môn học đều có nhiều nguồn tài liệu liên quan kể cả sách in và online, FUNiX Way không quy định một nguồn học liệu cụ thể mà khuyến cáo để học viên chọn được nguồn phù hợp nhất cho mình. Trong quá trình học từ nhiều nguồn khác nhau theo lựa chọn cá nhân đó, khi sinh viên phát sinh câu hỏi thì sẽ được kết nối nhanh nhất với mentor để được giải đáp. Toàn bộ phần đánh giá bao gồm các câu hỏi trắc nghiệm, bài tập, dự án và thi vấn đáp do FUNiX thiết kế, xây dựng và thực hiện.

Các môn học của FUNiX không quy định bắt buộc tài liệu học tập, sinh viên có thể chủ động tìm và học từ bất kỳ nguồn nào phù hợp, kể cả sách in hay nguồn học liệu online (MOOC) hay các website. Việc sử dụng các nguồn đó do học viên chịu trách nhiệm và đảm bảo tuân thủ các chính sách của chủ sở hữu nguồn, trừ trường hợp họ có sự hợp tác chính thức với FUNiX. Nếu cần hỗ trợ, học viên có thể liên hệ phòng đào tạo FUNiX để được hướng dẫn.

Dưới đây là một số nguồn học liệu của môn học mà học viên có thể tham khảo sử dụng. Việc liệt kê nguồn dưới đây không nhất thiết hàm ý rằng FUNiX có sự hợp tác chính thức với chủ sở hữu của nguồn: Coursera, tutorialspoint, edX Training, or Udemy.

Chi tiet Mon hoc 1

Đừng ngần ngại!

Bạn sẽ dễ dàng chuẩn bị nền tảng cùng FUNiX!

Chi tiet Mon hoc 1
  • Tầng 0, tòa nhà FPT, 17 Duy Tân, Q. Cầu Giấy, Hà Nội
  • info@funix.edu.vn
  • 0782313602 (Zalo, Viber)        
Chat Button
Chat với FUNiX GPT ×

yêu cầu gọi lại