Thông tin chung
Big Data hay còn được biết với cái tên “Dữ liệu lớn” là một trong những từ khoá được nhắc đến gần đây trong thế giới công nghệ thông tin, đặc biệt là khi chúng ta bước ta kỷ nguyên công nghiệp 4.0. Như chúng ta đã biết, sự ra đời của mạng máy tính toàn cầu (internet) và sự phát triển của các phương tiện kỹ thuật số đã và đang tạo ra một lượng dữ liệu khổng lồ. Dù vô tình hay hữu ý thì dữ liệu này chứa trong nó rất nhiều giá trị. Nó có thể cho ta biết bộ phim nào đang được ưa chuộng, xu hướng sắp tới của giới trẻ về thời trang là gì, thời điểm nào nên cho ra mắt sản phẩm mới của công ty … Nhưng để khai thác được những giá trị đó chúng ta phải đối mặt với nhiều thách thức. Trước hết, đó là độ lớn của dữ liệu và tốc độ sản sinh dữ liệu, ví dụ như chỉ tính riêng Facebook một ngày sản sinh ra hơn 500 terabytes dữ liệu. Việc xử lý khối lượng dữ liệu lớn và liên tục như vậy yêu cầu phải có một hệ thống tính toán mạnh mẽ và tối ưu. Thứ hai, dữ liệu rất đa dạng và không phải lúc nào cũng tuyệt đối chính xác. Ví dụ như bạn có dữ liệu cá nhân, dữ liệu hình ảnh và âm thanh, dữ liệu văn bản. Trong những dữ liệu đó bạn có dữ liệu mang thông tin chính xác và cả thông tin không chính xác. Chính vì vậy chúng ta cần thêm các thuật toán thông minh để có thể thực sự tạo ra giá trị từ một khối dữ liệu lớn.
Trong môn học này các bạn sẽ được tìm hiểu đầy đủ về cả hệ thống tính toán và thuật toán xử lý dữ liệu để có đầy đủ kiến thức cho những công việc liên quan đến dữ liệu lớn. Về hệ thống tính toán, chúng ta sẽ tìm hiểu về Hadoop và Spark. Hai nền tảng phổ biến nhất hiện nay trong xử lý dữ liệu lớn. Các bạn sẽ nắm được tổng quan về nền tảng xử lý dữ liệu lớn thông qua hệ thống các máy tính kết nối với nhau. Về các thuật toán thông minh, các bạn sẽ tìm hiểu về các thuật toán học máy cơ bản trong Spark. Những thuật toán này có thể giúp các bạn xây dựng được những ứng dụng đang phổ biến hiện nay. Bên cạnh đó các bạn sẽ được thực hành phát triển một số ứng dụng dựa trên kiến thức đã học.
Mục tiêu môn học
Hiểu biết về lịch sử và các khái niệm cơ bản của Big Data.
Hiểu được nền tảng Hadoop trong dữ liệu lớn.
Hiểu và làm việc được với nền tảng Spark cho xử lý dữ liệu lớn.
Biết cách sử dụng thư viện MLlib của Spark để viết các ứng dụng học máy cho dữ liệu lớn.
Trải nghiệm học tập
Nguồn học liệu
Danh sách nguồn học liệu mở miễn phí (MOOC) mà FUNiX đang sử dụng trong môn học này: BigDataElearning, Devlish Tutorials, Luis Serrano, mathematicalmonk, Michael Galarnyk, Cognitive Class .