Data Engineering - Khóa học kỹ sư dữ liệu

Khóa học Data Engineering cung cấp cho người học đủ kiến thức và kỹ năng để có thể đi làm kỹ sư dữ liệu ngay khi kết thúc khóa học

7 Tháng

5 Học phần

Danh sách môn học

Các hệ cơ sở dữ liệu

Xem chi tiết →

Giới thiệu về Kỹ thuật Dữ liệu

Xem chi tiết →

Điện toán đám mây

Xem chi tiết →

Dữ liệu lớn với Spark

Xem chi tiết →

Lập trình viên quốc tế thường có mức lương cao hơn lập trình viên trong nước (Nguồn ảnh: Internet)

Đồ án cuối khoá

Xem chi tiết →

Thông tin chi tiết

Bối cảnh và xu hướng

Trước đây, dầu mỏ được coi là tài nguyên quý giá nhất. Còn trong nền kinh tế số, dữ liệu là tài sản vô giá. Những công ty thuộc “câu lạc bộ” vốn hóa trên một nghìn tỷ USD – Google, Amazon, Microsoft, Apple, hay mạng xã hội lớn nhất thế giới – Facebook đều làm giàu một phần dựa trên việc phân tích và khai thác nguồn tài nguyên dữ liệu số. “Nhiều người vẫn nói dữ liệu là dầu mỏ của thế kỷ 21. Nhưng thật ra vẫn có sự khác biệt. Dầu mỏ hữu hạn, trong khi dữ liệu là vô hạn. Theo thống kê, trung bình mỗi người tạo ra 1,7 GB dữ liệu một ngày”, ông Lê Hồng Minh, Tổng giám đốc VNG, nói: “Đó là nguồn dữ liệu vô cùng lớn, nhưng cũng như dầu thô, dữ liệu thô không có giá trị. Quan trọng là phải thu thập, phân tích và xử lý dữ liệu như thế nào”.

Bên cạnh đó, dữ liệu là một trong những yếu tố quan trọng trong kinh doanh vì dữ liệu giúp chúng ta hiểu các vấn đề mà tổ chức đang gặp phải và việc sử dụng dữ liệu hiệu quả sẽ giúp doanh nghiệp cải thiện kết quả kinh doanh, đưa ra chiến lược thị trường tốt hơn, giảm chi phí, giúp doanh nghiệp ra quyết định nhanh và chính xác hơn, …

Kỹ sư dữ liệu (Data Engineer) là người phát triển, xây dựng, kiểm tra và duy trì các kiến trúc, hệ thống liên quan đến dữ liệu. Đồng thời, họ cũng là người đề xuất và đôi khi đảm nhận việc cải thiện chất lượng dữ liệu. Để hoàn thiện và phát triển nguồn dữ liệu, nhóm những Data Engineer cần cải biến các quy trình thiết lập dữ liệu để thu thập, khai thác, phân tích và mô hình hóa dữ liệu.

Về nhu cầu tuyển dụng, theo thống kê của TopDev năm 2020, Data Engineer đứng thứ 6 trong top các vị trí mà nhà tuyển dụng cần nhất tại Việt Nam. Trong nhóm các kỹ năng được mong đợi nhất, Big Data có mặt ở vị trí thứ 2. Mức lương cho vị trí Data Engineer và Big Data Engineer có mặt bằng khá cao so với các vị trí khác (1711$ và 1321$). Đối với thị trường nước ngoài, báo cáo nhân sự Linkedin đề cập rằng tại Mỹ, số lượng chuyên viên Big Data cần đến đã tăng gấp 6 lần so với nhu cầu cách đây 5 năm và sẽ còn tăng nữa trong vòng 5 năm tới.

Mô tả ngắn về chương trình

Chương trình này có tên gọi “Kỹ thuật dữ liệu” (Data Engineering). Chương trình cung cấp cho học viên những kiến thức cơ bản về thiết kế và xây dựng hệ quản trị cơ sở dữ liệu quan hệ và phi quan hệ, thu thập dữ liệu trên mạng Internet, tự động hóa các quy trình làm việc với dữ liệu (data pipeline) thông qua kho dữ liệu (data warehouse) và hồ dữ liệu (data lake), làm việc với bộ dữ liệu lớn (big data) và triển khai hệ thống dựa trên nền tảng Cloud sử dụng các dịch vụ của AWS. Ở cuối chương trình, các bạn có thể chọn một trong ba lựa chọn sau: Kết hợp các kỹ năng của mình để hoàn thành một đồ án cuối khóa, thực tập tại doanh nghiệp hoặc thi lấy chứng nhận của AWS.

Về nhu cầu tuyển dụng, cũng theo thống kê của TopDev năm 2020, Data Engineer đứng thứ 6 trong top các vị trí lập trình nhà tuyển dụng cần nhất tại Việt Nam. Trong nhóm các kỹ năng được mong đợi nhất, Big Data có mặt ở vị trí thứ 2. Mức lương cho vị trí Data Engineer và Big Data Engineer có mặt bằng khá cao so với các vị trí khác (1711$ và 1321$). Đối với thị trường nước ngoài, báo cáo nhân sự Linkedln đề cập rằng tại Mỹ, số lượng chuyên viên Big Data cần đến đã tăng gấp 6 lần so với nhu cầu cách đây 5 năm và sẽ còn tăng nữa trong vòng 5 năm tới.

Đầu ra sau khi hoàn thành chương trình

Sau khi học xong, học viên có cơ hội: Gia nhập các công ty phần mềm ở lĩnh vực

Data Engineer, Big Data Engineer của Việt Nam như FPT Software, Vietel, VinID, QAI,…

Yêu cầu đầu vào đối với học viên

Biết lập trình Python cơ bản.
Biết sử dụng hệ điều hành Unix/Linux.
Có kiến thức về cấu trúc dữ liệu và giải thuật.

Trong trường hợp chưa có đầy đủ các kiến thức điều kiện, các bạn cần học thêm các môn học sau trong học phần điều kiện của chương trình Data Engineer:

(Các bạn click vào link để đọc thêm các thông tin chi tiết về môn học).

Đối tượng học

Phù hợp với mọi đối tượng, đặc biệt với các học viên đã có các kiến thức về lập trình Python cơ bản, hệ điều hành Unix/Linux, có kiến thức về cấu trúc dữ liệu và giải thuật.

Học viên học xong có năng lực gì?

Xây dựng được các mô hình cơ sở dữ liệu quan hệ và phi quan hệ.
Sử dụng thành thạo SQL cho truy vấn dữ liệu.
Tạo ra được các kho dữ liệu (data warehouse) hiệu quả và có thể mở rộng. ●Biết cách sử dụng Python 3 (Scrapy, Splash, Selenium) để thu thập dữ liệu web.
Có đầy đủ các kỹ năng làm việc hiệu quả với Big Data trên Pyspark và Python.
Thiết lập được các quy trình giám sát và tự động hóa trên các đường ống dữ liệu lớn (data pipelines) với Apache Airflow.
Thao tác và làm việc tốt với các tác vụ về kỹ thuật dữ liệu trên nền tảng điện toán đám mây AWS.

Chương trình học

Môn 1: Các hệ cơ sở dữ liệu

Các hệ cơ sở dữ liệu là môn học đầu tiên và cơ bản giúp các bạn bước đầu trở thành một Kỹ sư dữ liệu. Môn học cung cấp cho sinh viên lý thuyết thiết kế cơ sở dữ liệu quan hệ cũng như các khía cạnh khác nhau của lập trình cơ sở dữ liệu quan hệ trong SQL server.

Mục tiêu:

Hiểu về các mô hình dữ liệu, đặc biệt là mô hình dữ liệu quan hệ
Hiểu về truy vấn đại số quan hệ
Hiểu và biết cách phân tích các yêu cầu của hệ thống, trên cơ sở đó biết cách thiết kế cơ sở dữ liệu quan hệ tương ứng
Nắm được ngôn ngữ cơ sở dữ liệu SQL
Hiểu về các ràng buộc cơ sở dữ liệu và ứng dụng bào bài toán thực tế
Có thể sử dụng hệ quản trị cơ sở dữ liệu SQL Server để thực hiện thao tác quản trị cơ sở dữ liệu cơ bản (tạo bảng, tạo ràng buộc, truy vấn, thao tác dữ liệu, làm việc với hàm, thủ tục,…)
Có thể thực hiện được một số dự án cơ sở dữ liệu hoàn chỉnh từ khâu tìm hiểu yêu cầu, thiết kế và cài đặt cơ sở dữ liệu

Môn 2: Giới thiệu về Kỹ thuật Dữ liệu

Phần đầu của môn học giúp học viên có cái nhìn tổng quan, sâu sắc hơn về công việc cũng như các định hướng phát triển sự nghiệp cho các kỹ sư dữ liệu.

Tiếp đó, chúng ta sẽ tìm hiểu về kiến trúc kho dữ liệu (data warehousing) mẫu và mô hình hóa chiều dữ liệu(dimensional modelling). Một data warehouse (kho dữ liệu – DWH) là một hệ thống được dùng để lưu trữ thông tin cho việc phân tích và báo cáo

Ngoài ra môn học cũng sẽ cung cấp các kiến thức về mô hình cơ sở dữ liệu phi tuyến tính (NoSQL). Cơ sở dữ liệu NoSQL là Cơ sở dữ liệu được xây dựng dành riêng cho mô hình dữ liệu và có sơ đồ linh hoạt để xây dựng các ứng dụng hiện đại. Cơ sở dữ liệu NoSQL được công nhận rộng rãi vì khả năng dễ phát triển, chức năng cũng như hiệu năng ở quy mô lớn.

Ở phần cuối của bài học, chúng ta sẽ học cách thu thập và khai thác dữ liệu trên các website với Python (Scrapy, Splash, Selenium). Web scraping đề cập đến việc trích xuất dữ liệu từ một trang web. Thông tin này được thu thập và sau đó xuất thành định dạng hữu ích hơn cho người dùng (có thể là bảng tính hoặc API).

Mục tiêu:

Nắm được các khái niệm, quy trình và công cụ cốt lõi mà bạn cần biết để có được kiến thức nền tảng về kỹ thuật dữ liệu.
Hiểu rõ các cơ hội về nghề nghiệp cũng như định hướng tương lai trong lĩnh vực kỹ thuật dữ liệu.
Nắm vững các kỹ thuật cần thiết để xây dựng kho dữ liệu.
Sử dụng được ETL để đưa được dữ liệu từ các nguồn dữ liệu vào kho dữ liệu.
Biết cách xây dựng một cơ sở dữ liệu trên MongoDB.
Sử dụng được các tính năng mà MongoDB cung cấp để làm việc với dữ liệu hiệu quả.
Hiểu được các nguyên tắc cơ bản của Web Scraping.

Môn 3: Dữ liệu lớn với Spark

Big Data hay còn được biết với cái tên “Dữ liệu lớn” là một trong những từ khoá được nhắc đến gần đây trong thế giới công nghệ thông tin, đặc biệt là khi chúng ta đang bước vào kỷ nguyên công nghiệp 4.0. Như chúng ta đã biết, sự ra đời của mạng máy tính toàn cầu (Internet) và sự phát triển của các phương tiện kỹ thuật số đã và đang tạo ra một lượng dữ liệu khổng lồ. Dù vô tình hay hữu ý thì dữ liệu này chứa trong nó rất nhiều giá trị.

Trong môn học này các bạn sẽ được tìm hiểu đầy đủ về cả hệ thống tính toán và thuật toán xử lý dữ liệu để có đầy đủ kiến thức cho những công việc liên quan đến dữ liệu lớn. Về hệ thống tính toán, chúng ta sẽ tìm hiểu qua về Hadoop và đi sâu vào Apache Spark – hai nền tảng phổ biến nhất hiện nay trong xử lý dữ liệu lớn. Các bạn sẽ nắm được tổng quan về nền tảng xử lý dữ liệu lớn thông qua hệ thống các máy tính kết nối với nhau. Sau đó, các bạn sẽ học cách thiết kế, lập lịch và giám sát các đường ống dẫn dữ liệu (data pipelines) thông qua Apache Airflow.

Mục tiêu:

Nắm vững được các khái niệm cơ bản trong Big Data như Hadoop, MapReduce, RDD, Spark, SparkSQL, DataFrame, DataSet.
Sử dụng được Pyspark thuần thục trên Python với dữ liệu phi cấu trúc (Spark RDD) và dữ liệu có cấu trúc(Spark DataFrame và SparkSQL).
Hiểu được các công nghệ chuyên biệt trên Spark như Spark Streaming, Structed Streaming, GraphX.
Nắm vững các chức năng cốt lõi của Apache Airflow như DAGs, Operator, Task, Workflow,…
Sử dụng được Airflow và các trình thực thi khác trong các hệ sinh thái dữ liệu lớn.

Môn 4: Kỹ thuật dữ liệu trên AWS

Amazon web service còn gọi có tên gọi tắt (AWS) là một trong những nền tảng dịch vụ đám mây an toàn. Khả năng tính toán lẫn lưu trữ dữ liệu được tích hợp trọn vẹn nhằm mục đích giúp doanh nghiệp có thể ngày càng mở rộng và phát triển nhanh chóng. Giải pháp đám mây thường được dùng để xây dựng hầu hết những ứng dụng phức tạp nhưng vẫn mang đến sự linh hoạt và khả năng xử lý tuyệt vời. Đặc biệt là mức độ bảo mật của nền tảng đám mây này được đánh giá gần như tuyệt đối.

Trong môn học này các bạn học viên sẽ được cung cấp các kiến thức ở mức độ cơ bản về dịch vụ đám mây và cách các dịch vụ đó được cung cấp trên Amazon Web Service cũng như các dịch vụ liên quan đến dữ liệu và cơ sở dữ liệu như Amazon RDS, Amazon DynamoDB/DocumentDB. Chúng ta cũng sẽ đi sâu vào các tác vụ về AWS Data Pipeline như AWS Database Migration Service (DMS) – một dịch vụ có chi phí thấp và giúp di chuyển cơ sở dữ liệu sang AWS một cách dễ dàng và bảo mật, AWS Glue – dịch vụ phi máy chủ giúp chúng ta chạy và giám sát một cách trực quan các quy trình ETL chỉ với một vài cú nhấp chuột, và AWS Redshift – có thể truy vấn và kết hợp hàng exabyte dữ liệu có cấu trúc và bán cấu trúc trên data warehouse.

Mục tiêu:

Làm quen với hệ sinh thái Amazon Web Service, hiểu rõ ưu điểm của tính toán đám đám mây so với sử dụng hệ thống máy chủ truyển thống.
Hiểu và sử dụng được các thành phần cơ bản trong AWS như tài nguyên tính toán và lưu trữ, hạ tầng mạng, cơ sở dữ liệu, bảo mật và chi phí. ●Có thể xác định tùy chọn triển khai AWS Database phù hợp và có thể triển khai nó thành công trên AWS.
Vận dụng được AWS Database Migration Service, AWS Glue và AWS Redshift để thực hiện các bước cơ bản trong AWS Data Pipeline.

Môn 5: Đồ án cuối khóa – Kỹ thuật Dữ liệu

Hoàn thành môn học, học viên sẽ biết cách kết hợp các kiến thức về dữ liệu để tạo ra một sản phẩm/hệ thống về thu thập, xử lý và quản lý dữ liệu. Từ đó học viên sẽ tiếp tục hoàn thiện được các kỹ năng của mình liên quan đến kỹ thuật dữ liệu.

Học viên có thể chọn 1 trong 3 option sau:

Option 1: Làm đồ án tốt nghiệp

Đối với các học viên theo học chương trình biên soạn, học viên sẽ được hướng dẫn chọn làm đề tài/khóa luận với các mentor hướng dẫn trực tiếp.

Option 2: Thi lấy chứng nhận của AWS thuộc môn 5 – Đồ án cuối khoá

Đối với các bạn học viên có nhu cầu ôn thi và lấy các chứng nhận của AWS:

Chứng nhận AWS Certified Solutions Architect – Associate
Chứng nhận AWS Certified Developer – Associate

Mọi quan tâm về chương trình, mời Đăng ký để được giải đáp thông tin hoặc tìm hiểu thêm TẠI ĐÂY.

ĐĂNG KÝ NHẬN TƯ VẤN

Cơ hội nghề nghiệp

Khóa học Data Engineering cung cấp cho người học đủ kiến thức và kỹ năng để có thể đi làm ngay khi kết thúc khóa học (Sau tối đa 7 tháng)
Sau khi hoàn thành khóa học, học viên sẽ có cơ hội gia nhập các công ty phần mềm ở lĩnh vực Data Engineer, Big Data Engineer của Việt Nam như FPT Software, Vietel, VinID, QAI,…