Data Engineering

  1. Giới thiệu

Kỹ sư dữ liệu (Data Engineer) là người phát triển, xây dựng, kiểm tra và duy trì các  kiến trúc, hệ thống liên quan đến dữ liệu. Đồng thời, họ cũng là người đề xuất và đôi khi  đảm nhận việc cải thiện chất lượng dữ liệu. Để hoàn thiện và phát triển nguồn dữ liệu,  nhóm những Data Engineer cần cải biến các quy trình thiết lập dữ liệu để thu thập, khai  thác, phân tích và mô hình hóa dữ liệu. 

Khoá học Data Engineering

Về nhu cầu tuyển dụng, cũng theo thống kê của TopDev năm 2020, Data Engineer  đứng thứ 6 trong top các vị trí lập trình nhà tuyển dụng cần nhất tại Việt Nam. Trong nhóm  các kỹ năng được mong đợi nhất, Big Data có mặt ở vị trí thứ 2. Mức lương cho vị trí Data  Engineer và Big Data Engineer có mặt bằng khá cao so với các vị trí khác (1711$ và 1321$).  

Đối với thị trường nước ngoài, báo cáo nhân sự Linkedln đề cập rằng tại Mỹ, số lượng  chuyên viên Big Data cần đến đã tăng gấp 6 lần so với nhu cầu cách đây 5 năm và sẽ còn  tăng nữa trong vòng 5 năm tới. 

2 Đầu ra sau khi hoàn thành chương trình 

Sau khi học xong, học viên có cơ hội: Gia nhập các công ty phần mềm ở lĩnh vực  Data Engineer, Big Data Engineer của Việt Nam như FPT Software, Vietel, VinID, QAI,… 

3 Yêu cầu đầu vào đối với học viên 

  • Biết lập trình Python cơ bản. 
  • Biết sử dụng hệ điều hành Unix/Linux. 
  • Có kiến thức về cấu trúc dữ liệu và giải thuật. 

Trong trường hợp chưa có đầy đủ các kiến thức điều kiện, các bạn cần học thêm  các môn học sau trong chứng chỉ điều kiện của chương trình Data Engineer: 

(Các bạn click vào link để đọc thêm các thông tin chi tiết về môn học). 

4. Đối tượng học 

Phù hợp với mọi đối tượng, đặc biệt với các học viên đã có các kiến thức về lập  trình Python cơ bản, hệ điều hành Unix/Linux, có kiến thức về cấu trúc dữ liệu và giải  thuật. 

5. Học viên học xong có năng lực gì? 

  • Xây dựng được các mô hình cơ sở dữ liệu quan hệ và phi quan hệ. ● Sử dụng thành thạo SQL cho truy vấn dữ liệu. 
  • Tạo ra được các kho dữ liệu (data warehouse) hiệu quả và có thể mở rộng. ● Biết cách sử dụng Python 3 (Scrapy, Splash, Selenium) để thu thập dữ liệu  web. 
  • Có đầy đủ các kỹ năng làm việc hiệu quả với Big Data trên Pyspark và  Python. 
  • Thiết lập được các quy trình giám sát và tự động hóa trên các đường ống dữ  liệu lớn (data pipelines) với Apache Airflow. 
  • Thao tác và làm việc tốt với các tác vụ về kỹ thuật dữ liệu trên nền tảng điện  toán đám mây AWS. 

6. Chương trình học 

Môn 1: Các hệ cơ sở dữ liệu 

Các hệ cơ sở dữ liệu là môn học đầu tiên và cơ bản giúp các bạn bước đầu trở  thành một Kỹ sư dữ liệu. Môn học cung cấp cho sinh viên lý thuyết thiết kế cơ sở dữ  liệu quan hệ cũng như các khía cạnh khác nhau của lập trình cơ sở dữ liệu quan hệ  trong SQL server. 

Mục tiêu: 

  • Hiểu về các mô hình dữ liệu, đặc biệt là mô hình dữ liệu quan hệ Hiểu về truy vấn đại số quan hệ 
  • Hiểu và biết cách phân tích các yêu cầu của hệ thống, trên cơ sở đó biết cách thiết  kế cơ sở dữ liệu quan hệ tương ứng 
  • Nắm được ngôn ngữ cơ sở dữ liệu SQL 
  • Hiểu về các ràng buộc cơ sở dữ liệu và ứng dụng bào bài toán thực tế Có thể sử dụng hệ quản trị cơ sở dữ liệu SQL Server để thực hiện thao tác quản trị  cơ sở dữ liệu cơ bản (tạo bảng, tạo ràng buộc, truy vấn, thao tác dữ liệu, làm việc  với hàm, thủ tục,…) 
  • Có thể thực hiện được một số dự án cơ sở dữ liệu hoàn chỉnh từ khâu tìm hiểu yêu  cầu, thiết kế và cài đặt cơ sở dữ liệu 

Môn 2: Giới thiệu về Kỹ thuật Dữ liệu

Phần đầu của môn học giúp học viên có cái nhìn tổng quan, sâu sắc hơn về công  việc cũng như các định hướng phát triển sự nghiệp cho các kỹ sư dữ liệu. 

Tiếp đó, chúng ta sẽ tìm hiểu về kiến trúc kho dữ liệu (data warehousing) mẫu  và mô hình hóa chiều dữ liệu(dimensional modelling). Một data warehouse (kho dữ  liệu – DWH) là một hệ thống được dùng để lưu trữ thông tin cho việc phân tích và báo  cáo  

Ngoài ra môn học cũng sẽ cung cấp các kiến thức về mô hình cơ sở dữ liệu phi  tuyến tính (NoSQL). Cơ sở dữ liệu NoSQL là Cơ sở dữ liệu được xây dựng dành riêng  cho mô hình dữ liệu và có sơ đồ linh hoạt để xây dựng các ứng dụng hiện đại. Cơ sở  dữ liệu NoSQL được công nhận rộng rãi vì khả năng dễ phát triển, chức năng cũng như  hiệu năng ở quy mô lớn. 

Ở phần cuối của bài học, chúng ta sẽ học cách thu thập và khai thác dữ liệu trên  các website với Python (Scrapy, Splash, Selenium). Web scraping đề cập đến việc trích  xuất dữ liệu từ một trang web. Thông tin này được thu thập và sau đó xuất thành định  dạng hữu ích hơn cho người dùng (có thể là bảng tính hoặc API). 

Mục tiêu: 

  • Nắm được các khái niệm, quy trình và công cụ cốt lõi mà bạn cần biết để có  được kiến thức nền tảng về kỹ thuật dữ liệu. 
  • Hiểu rõ các cơ hội về nghề nghiệp cũng như định hướng tương lai trong lĩnh  vực kỹ thuật dữ liệu. 
  • Nắm vững các kỹ thuật cần thiết để xây dựng kho dữ liệu. 
  • Sử dụng được ETL để đưa được dữ liệu từ các nguồn dữ liệu vào kho dữ liệu. ● Biết cách xây dựng một cơ sở dữ liệu trên MongoDB. 
  • Sử dụng được các tính năng mà MongoDB cung cấp để làm việc với dữ liệu  hiệu quả. 
  • Hiểu được các nguyên tắc cơ bản của Web Scraping. 

Môn 3: Dữ liệu lớn với Spark 

Big Data hay còn được biết với cái tên “Dữ liệu lớn” là một trong những từ khoá  được nhắc đến gần đây trong thế giới công nghệ thông tin, đặc biệt là khi chúng ta đang  bước vào kỷ nguyên công nghiệp 4.0. Như chúng ta đã biết, sự ra đời của mạng máy  tính toàn cầu (Internet) và sự phát triển của các phương tiện kỹ thuật số đã và đang tạo  ra một lượng dữ liệu khổng lồ. Dù vô tình hay hữu ý thì dữ liệu này chứa trong nó rất  nhiều giá trị.  

Trong môn học này các bạn sẽ được tìm hiểu đầy đủ về cả hệ thống tính toán  và thuật toán xử lý dữ liệu để có đầy đủ kiến thức cho những công việc liên quan đến  dữ liệu lớn. Về hệ thống tính toán, chúng ta sẽ tìm hiểu qua về Hadoop và đi sâu vào  Apache Spark – hai nền tảng phổ biến nhất hiện nay trong xử lý dữ liệu lớn. Các bạn sẽ  nắm được tổng quan về nền tảng xử lý dữ liệu lớn thông qua hệ thống các máy tính kết 

nối với nhau. Sau đó, các bạn sẽ học cách thiết kế, lập lịch và giám sát các đường ống  dẫn dữ liệu (data pipelines) thông qua Apache Airflow. 

Mục tiêu: 

  • Nắm vững được các khái niệm cơ bản trong Big Data như Hadoop, Map Reduce, RDD, Spark, SparkSQL, DataFrame, DataSet. 
  • Sử dụng được Pyspark thuần thục trên Python với dữ liệu phi cấu trúc (Spark  RDD) và dữ liệu có cấu trúc(Spark DataFrame và SparkSQL). 
  • Hiểu được các công nghệ chuyên biệt trên Spark như Spark Streaming,  Structed Streaming, GraphX. 
  • Nắm vững các chức năng cốt lõi của Apache Airflow như DAGs, Operator,  Task, Workflow,… 
  • Sử dụng được Airflow và các trình thực thi khác trong các hệ sinh thái dữ liệu  lớn. 

Môn 4: Kỹ thuật dữ liệu trên AWS 

Amazon web service còn gọi có tên gọi tắt (AWS) là một trong những nền tảng  dịch vụ đám mây an toàn. Khả năng tính toán lẫn lưu trữ dữ liệu được tích hợp trọn vẹn  nhằm mục đích giúp doanh nghiệp có thể ngày càng mở rộng và phát triển nhanh chóng.  Giải pháp đám mây thường được dùng để xây dựng hầu hết những ứng dụng phức tạp  nhưng vẫn mang đến sự linh hoạt và khả năng xử lý tuyệt vời. Đặc biệt là mức độ bảo  mật của nền tảng đám mây này được đánh giá gần như tuyệt đối. 

Trong môn học này các bạn học viên sẽ được cung cấp các kiến thức ở mức độ  cơ bản về dịch vụ đám mây và cách các dịch vụ đó được cung cấp trên Amazon Web  Service cũng như các dịch vụ liên quan đến dữ liệu và cơ sở dữ liệu như Amazon RDS,  Amazon DynamoDB/DocumentDB. Chúng ta cũng sẽ đi sâu vào các tác vụ về AWS  Data Pipeline như AWS Database Migration Service (DMS) – một dịch vụ có chi phí  thấp và giúp di chuyển cơ sở dữ liệu sang AWS một cách dễ dàng và bảo mật, AWS  Glue – dịch vụ phi máy chủ giúp chúng ta chạy và giám sát một cách trực quan các quy  trình ETL chỉ với một vài cú nhấp chuột, và AWS Redshift – có thể truy vấn và kết hợp  hàng exabyte dữ liệu có cấu trúc và bán cấu trúc trên data warehouse. 

Mục tiêu:  

  • Làm quen với hệ sinh thái Amazon Web Service, hiểu rõ ưu điểm của tính  toán đám đám mây so với sử dụng hệ thống máy chủ truyển thống. ● Hiểu và sử dụng được các thành phần cơ bản trong AWS như tài nguyên tính  toán và lưu trữ, hạ tầng mạng, cơ sở dữ liệu, bảo mật và chi phí. 
  • Có thể xác định tùy chọn triển khai AWS Database phù hợp và có thể triển  khai nó thành công trên AWS. 
  • Vận dụng được AWS Database Migration Service, AWS Glue và AWS  Redshift để thực hiện các bước cơ bản trong AWS Data Pipeline. 

Môn 5: Đồ án cuối khóa – Kỹ thuật Dữ liệu:

Hoàn thành môn học, học viên sẽ biết cách kết hợp các kiến thức về dữ liệu để tạo  ra một sản phẩm/hệ thống về thu thập, xử lý và quản lý dữ liệu. Từ đó học viên sẽ tiếp tục  hoàn thiện được các kỹ năng của mình liên quan đến kỹ thuật dữ liệu. 

Học viên có thể chọn 1 trong 3 option sau: 

Option 1: Làm đồ án tốt nghiệp.  

Đối với các học viên theo học chương trình biên soạn, học viên sẽ được hướng dẫn  chọn làm đề tài/khóa luận với các mentor hướng dẫn trực tiếp. 

Option 2: Đi thực tập tại doanh nghiệp.  

Đối với các bạn học viên có nguyện vọng thực tập tại các doanh nghiệp, FUNiX sẽ  hỗ trợ kết nối các bạn với các doanh nghiệp để chuẩn bị CV và phỏng vấn vào thực tập.  Nếu được doanh nghiệp nhận, học viên cần chủ động tìm hiểu và vận dụng các kiến thức  đã học hoàn thành mục tiêu thực tập. 

Option 3: Thi lấy chứng chỉ của AWS. 

Đối với các bạn học viên có nhu cầu ôn thi và lấy các chứng chỉ của AWS: 

  • Chứng chỉ AWS Certified Cloud Practitioner: Hỗ trợ ôn thi và 100% phí thi  1 lần 
  • Chứng chi AWS Certified Database – Specialty: Hỗ trợ tài liệu ôn thi và 50%  phí thi 1 lần 

 

Mọi thông tin về Khóa học, vui lòng xem thêm TẠI ĐÂY  hoặc liên hệ:

Ms. Trần Ngọc Ánh Mobile: 0948387880 

Email: anhtn@funix.edu.vn

Facebookhttps://www.facebook.com/funixtranngocanh

Zalo:   +84 948387880