- Giới thiệu
Kỹ sư dữ liệu (Data Engineer) là người phát triển, xây dựng, kiểm tra và duy trì các kiến trúc, hệ thống liên quan đến dữ liệu. Đồng thời, họ cũng là người đề xuất và đôi khi đảm nhận việc cải thiện chất lượng dữ liệu. Để hoàn thiện và phát triển nguồn dữ liệu, nhóm những Data Engineer cần cải biến các quy trình thiết lập dữ liệu để thu thập, khai thác, phân tích và mô hình hóa dữ liệu.
Về nhu cầu tuyển dụng, cũng theo thống kê của TopDev năm 2020, Data Engineer đứng thứ 6 trong top các vị trí lập trình nhà tuyển dụng cần nhất tại Việt Nam. Trong nhóm các kỹ năng được mong đợi nhất, Big Data có mặt ở vị trí thứ 2. Mức lương cho vị trí Data Engineer và Big Data Engineer có mặt bằng khá cao so với các vị trí khác (1711$ và 1321$).
Đối với thị trường nước ngoài, báo cáo nhân sự Linkedln đề cập rằng tại Mỹ, số lượng chuyên viên Big Data cần đến đã tăng gấp 6 lần so với nhu cầu cách đây 5 năm và sẽ còn tăng nữa trong vòng 5 năm tới.
2 Đầu ra sau khi hoàn thành chương trình
Sau khi học xong, học viên có cơ hội: Gia nhập các công ty phần mềm ở lĩnh vực Data Engineer, Big Data Engineer của Việt Nam như FPT Software, Vietel, VinID, QAI,…
3 Yêu cầu đầu vào đối với học viên
- Biết lập trình Python cơ bản.
- Biết sử dụng hệ điều hành Unix/Linux.
- Có kiến thức về cấu trúc dữ liệu và giải thuật.
Trong trường hợp chưa có đầy đủ các kiến thức điều kiện, các bạn cần học thêm các môn học sau trong chứng chỉ điều kiện của chương trình Data Engineer:
(Các bạn click vào link để đọc thêm các thông tin chi tiết về môn học).
4. Đối tượng học
Phù hợp với mọi đối tượng, đặc biệt với các học viên đã có các kiến thức về lập trình Python cơ bản, hệ điều hành Unix/Linux, có kiến thức về cấu trúc dữ liệu và giải thuật.
5. Học viên học xong có năng lực gì?
- Xây dựng được các mô hình cơ sở dữ liệu quan hệ và phi quan hệ. ● Sử dụng thành thạo SQL cho truy vấn dữ liệu.
- Tạo ra được các kho dữ liệu (data warehouse) hiệu quả và có thể mở rộng. ● Biết cách sử dụng Python 3 (Scrapy, Splash, Selenium) để thu thập dữ liệu web.
- Có đầy đủ các kỹ năng làm việc hiệu quả với Big Data trên Pyspark và Python.
- Thiết lập được các quy trình giám sát và tự động hóa trên các đường ống dữ liệu lớn (data pipelines) với Apache Airflow.
- Thao tác và làm việc tốt với các tác vụ về kỹ thuật dữ liệu trên nền tảng điện toán đám mây AWS.
6. Chương trình học
Môn 1: Các hệ cơ sở dữ liệu
Các hệ cơ sở dữ liệu là môn học đầu tiên và cơ bản giúp các bạn bước đầu trở thành một Kỹ sư dữ liệu. Môn học cung cấp cho sinh viên lý thuyết thiết kế cơ sở dữ liệu quan hệ cũng như các khía cạnh khác nhau của lập trình cơ sở dữ liệu quan hệ trong SQL server.
Mục tiêu:
- Hiểu về các mô hình dữ liệu, đặc biệt là mô hình dữ liệu quan hệ ● Hiểu về truy vấn đại số quan hệ
- Hiểu và biết cách phân tích các yêu cầu của hệ thống, trên cơ sở đó biết cách thiết kế cơ sở dữ liệu quan hệ tương ứng
- Nắm được ngôn ngữ cơ sở dữ liệu SQL
- Hiểu về các ràng buộc cơ sở dữ liệu và ứng dụng bào bài toán thực tế ● Có thể sử dụng hệ quản trị cơ sở dữ liệu SQL Server để thực hiện thao tác quản trị cơ sở dữ liệu cơ bản (tạo bảng, tạo ràng buộc, truy vấn, thao tác dữ liệu, làm việc với hàm, thủ tục,…)
- Có thể thực hiện được một số dự án cơ sở dữ liệu hoàn chỉnh từ khâu tìm hiểu yêu cầu, thiết kế và cài đặt cơ sở dữ liệu
Môn 2: Giới thiệu về Kỹ thuật Dữ liệu
Phần đầu của môn học giúp học viên có cái nhìn tổng quan, sâu sắc hơn về công việc cũng như các định hướng phát triển sự nghiệp cho các kỹ sư dữ liệu.
Tiếp đó, chúng ta sẽ tìm hiểu về kiến trúc kho dữ liệu (data warehousing) mẫu và mô hình hóa chiều dữ liệu(dimensional modelling). Một data warehouse (kho dữ liệu – DWH) là một hệ thống được dùng để lưu trữ thông tin cho việc phân tích và báo cáo
Ngoài ra môn học cũng sẽ cung cấp các kiến thức về mô hình cơ sở dữ liệu phi tuyến tính (NoSQL). Cơ sở dữ liệu NoSQL là Cơ sở dữ liệu được xây dựng dành riêng cho mô hình dữ liệu và có sơ đồ linh hoạt để xây dựng các ứng dụng hiện đại. Cơ sở dữ liệu NoSQL được công nhận rộng rãi vì khả năng dễ phát triển, chức năng cũng như hiệu năng ở quy mô lớn.
Ở phần cuối của bài học, chúng ta sẽ học cách thu thập và khai thác dữ liệu trên các website với Python (Scrapy, Splash, Selenium). Web scraping đề cập đến việc trích xuất dữ liệu từ một trang web. Thông tin này được thu thập và sau đó xuất thành định dạng hữu ích hơn cho người dùng (có thể là bảng tính hoặc API).
Mục tiêu:
- Nắm được các khái niệm, quy trình và công cụ cốt lõi mà bạn cần biết để có được kiến thức nền tảng về kỹ thuật dữ liệu.
- Hiểu rõ các cơ hội về nghề nghiệp cũng như định hướng tương lai trong lĩnh vực kỹ thuật dữ liệu.
- Nắm vững các kỹ thuật cần thiết để xây dựng kho dữ liệu.
- Sử dụng được ETL để đưa được dữ liệu từ các nguồn dữ liệu vào kho dữ liệu. ● Biết cách xây dựng một cơ sở dữ liệu trên MongoDB.
- Sử dụng được các tính năng mà MongoDB cung cấp để làm việc với dữ liệu hiệu quả.
- Hiểu được các nguyên tắc cơ bản của Web Scraping.
Môn 3: Dữ liệu lớn với Spark
Big Data hay còn được biết với cái tên “Dữ liệu lớn” là một trong những từ khoá được nhắc đến gần đây trong thế giới công nghệ thông tin, đặc biệt là khi chúng ta đang bước vào kỷ nguyên công nghiệp 4.0. Như chúng ta đã biết, sự ra đời của mạng máy tính toàn cầu (Internet) và sự phát triển của các phương tiện kỹ thuật số đã và đang tạo ra một lượng dữ liệu khổng lồ. Dù vô tình hay hữu ý thì dữ liệu này chứa trong nó rất nhiều giá trị.
Trong môn học này các bạn sẽ được tìm hiểu đầy đủ về cả hệ thống tính toán và thuật toán xử lý dữ liệu để có đầy đủ kiến thức cho những công việc liên quan đến dữ liệu lớn. Về hệ thống tính toán, chúng ta sẽ tìm hiểu qua về Hadoop và đi sâu vào Apache Spark – hai nền tảng phổ biến nhất hiện nay trong xử lý dữ liệu lớn. Các bạn sẽ nắm được tổng quan về nền tảng xử lý dữ liệu lớn thông qua hệ thống các máy tính kết
nối với nhau. Sau đó, các bạn sẽ học cách thiết kế, lập lịch và giám sát các đường ống dẫn dữ liệu (data pipelines) thông qua Apache Airflow.
Mục tiêu:
- Nắm vững được các khái niệm cơ bản trong Big Data như Hadoop, Map Reduce, RDD, Spark, SparkSQL, DataFrame, DataSet.
- Sử dụng được Pyspark thuần thục trên Python với dữ liệu phi cấu trúc (Spark RDD) và dữ liệu có cấu trúc(Spark DataFrame và SparkSQL).
- Hiểu được các công nghệ chuyên biệt trên Spark như Spark Streaming, Structed Streaming, GraphX.
- Nắm vững các chức năng cốt lõi của Apache Airflow như DAGs, Operator, Task, Workflow,…
- Sử dụng được Airflow và các trình thực thi khác trong các hệ sinh thái dữ liệu lớn.
Môn 4: Kỹ thuật dữ liệu trên AWS
Amazon web service còn gọi có tên gọi tắt (AWS) là một trong những nền tảng dịch vụ đám mây an toàn. Khả năng tính toán lẫn lưu trữ dữ liệu được tích hợp trọn vẹn nhằm mục đích giúp doanh nghiệp có thể ngày càng mở rộng và phát triển nhanh chóng. Giải pháp đám mây thường được dùng để xây dựng hầu hết những ứng dụng phức tạp nhưng vẫn mang đến sự linh hoạt và khả năng xử lý tuyệt vời. Đặc biệt là mức độ bảo mật của nền tảng đám mây này được đánh giá gần như tuyệt đối.
Trong môn học này các bạn học viên sẽ được cung cấp các kiến thức ở mức độ cơ bản về dịch vụ đám mây và cách các dịch vụ đó được cung cấp trên Amazon Web Service cũng như các dịch vụ liên quan đến dữ liệu và cơ sở dữ liệu như Amazon RDS, Amazon DynamoDB/DocumentDB. Chúng ta cũng sẽ đi sâu vào các tác vụ về AWS Data Pipeline như AWS Database Migration Service (DMS) – một dịch vụ có chi phí thấp và giúp di chuyển cơ sở dữ liệu sang AWS một cách dễ dàng và bảo mật, AWS Glue – dịch vụ phi máy chủ giúp chúng ta chạy và giám sát một cách trực quan các quy trình ETL chỉ với một vài cú nhấp chuột, và AWS Redshift – có thể truy vấn và kết hợp hàng exabyte dữ liệu có cấu trúc và bán cấu trúc trên data warehouse.
Mục tiêu:
- Làm quen với hệ sinh thái Amazon Web Service, hiểu rõ ưu điểm của tính toán đám đám mây so với sử dụng hệ thống máy chủ truyển thống. ● Hiểu và sử dụng được các thành phần cơ bản trong AWS như tài nguyên tính toán và lưu trữ, hạ tầng mạng, cơ sở dữ liệu, bảo mật và chi phí.
- Có thể xác định tùy chọn triển khai AWS Database phù hợp và có thể triển khai nó thành công trên AWS.
- Vận dụng được AWS Database Migration Service, AWS Glue và AWS Redshift để thực hiện các bước cơ bản trong AWS Data Pipeline.
Môn 5: Đồ án cuối khóa – Kỹ thuật Dữ liệu:
Hoàn thành môn học, học viên sẽ biết cách kết hợp các kiến thức về dữ liệu để tạo ra một sản phẩm/hệ thống về thu thập, xử lý và quản lý dữ liệu. Từ đó học viên sẽ tiếp tục hoàn thiện được các kỹ năng của mình liên quan đến kỹ thuật dữ liệu.
Học viên có thể chọn 1 trong 3 option sau:
Option 1: Làm đồ án tốt nghiệp.
Đối với các học viên theo học chương trình biên soạn, học viên sẽ được hướng dẫn chọn làm đề tài/khóa luận với các mentor hướng dẫn trực tiếp.
Option 2: Đi thực tập tại doanh nghiệp.
Đối với các bạn học viên có nguyện vọng thực tập tại các doanh nghiệp, FUNiX sẽ hỗ trợ kết nối các bạn với các doanh nghiệp để chuẩn bị CV và phỏng vấn vào thực tập. Nếu được doanh nghiệp nhận, học viên cần chủ động tìm hiểu và vận dụng các kiến thức đã học hoàn thành mục tiêu thực tập.
Option 3: Thi lấy chứng chỉ của AWS.
Đối với các bạn học viên có nhu cầu ôn thi và lấy các chứng chỉ của AWS:
- Chứng chỉ AWS Certified Cloud Practitioner: Hỗ trợ ôn thi và 100% phí thi 1 lần
- Chứng chi AWS Certified Database – Specialty: Hỗ trợ tài liệu ôn thi và 50% phí thi 1 lần
Mọi thông tin về Khóa học, vui lòng xem thêm TẠI ĐÂY hoặc liên hệ:
Ms. Trần Ngọc Ánh Mobile: 0948387880
Email: anhtn@funix.edu.vn
Facebook: https://www.facebook.com/funixtranngocanh
Zalo: +84 948387880