Danh sách môn học
Các hệ cơ sở dữ liệu
Xem chi tiết →Giới thiệu về Kỹ thuật Dữ liệu
Xem chi tiết →Điện toán đám mây
Xem chi tiết →Dữ liệu lớn với Spark
Xem chi tiết →Đồ án cuối khoá
Xem chi tiết →Thông tin chi tiết về chứng chỉ
-
Bối cảnh và xu hướng
Trước đây, dầu mỏ được coi là tài nguyên quý giá nhất. Còn trong nền kinh tế số, dữ liệu là tài sản vô giá. Những công ty thuộc “câu lạc bộ” vốn hóa trên một nghìn tỷ USD – Google, Amazon, Microsoft, Apple, hay mạng xã hội lớn nhất thế giới – Facebook đều làm giàu một phần dựa trên việc phân tích và khai thác nguồn tài nguyên dữ liệu số. “Nhiều người vẫn nói dữ liệu là dầu mỏ của thế kỷ 21. Nhưng thật ra vẫn có sự khác biệt. Dầu mỏ hữu hạn, trong khi dữ liệu là vô hạn. Theo thống kê, trung bình mỗi người tạo ra 1,7 GB dữ liệu một ngày”, ông Lê Hồng Minh, Tổng giám đốc VNG, nói: “Đó là nguồn dữ liệu vô cùng lớn, nhưng cũng như dầu thô, dữ liệu thô không có giá trị. Quan trọng là phải thu thập, phân tích và xử lý dữ liệu như thế nào”.
Bên cạnh đó, dữ liệu là một trong những yếu tố quan trọng trong kinh doanh vì dữ liệu giúp chúng ta hiểu các vấn đề mà tổ chức đang gặp phải và việc sử dụng dữ liệu hiệu quả sẽ giúp doanh nghiệp cải thiện kết quả kinh doanh, đưa ra chiến lược thị trường tốt hơn, giảm chi phí, giúp doanh nghiệp ra quyết định nhanh và chính xác hơn, …
Kỹ sư dữ liệu (Data Engineer) là người phát triển, xây dựng, kiểm tra và duy trì các kiến trúc, hệ thống liên quan đến dữ liệu. Đồng thời, họ cũng là người đề xuất và đôi khi đảm nhận việc cải thiện chất lượng dữ liệu. Để hoàn thiện và phát triển nguồn dữ liệu, nhóm những Data Engineer cần cải biến các quy trình thiết lập dữ liệu để thu thập, khai thác, phân tích và mô hình hóa dữ liệu.
Về nhu cầu tuyển dụng, theo thống kê của TopDev năm 2020, Data Engineer đứng thứ 6 trong top các vị trí mà nhà tuyển dụng cần nhất tại Việt Nam. Trong nhóm các kỹ năng được mong đợi nhất, Big Data có mặt ở vị trí thứ 2. Mức lương cho vị trí Data Engineer và Big Data Engineer có mặt bằng khá cao so với các vị trí khác (1711$ và 1321$). Đối với thị trường nước ngoài, báo cáo nhân sự Linkedin đề cập rằng tại Mỹ, số lượng chuyên viên Big Data cần đến đã tăng gấp 6 lần so với nhu cầu cách đây 5 năm và sẽ còn tăng nữa trong vòng 5 năm tới.
-
Mô tả ngắn về chương trình
Chương trình này có tên gọi “Kỹ thuật dữ liệu” (Data Engineering). Chương trình cung cấp cho học viên những kiến thức cơ bản về thiết kế và xây dựng hệ quản trị cơ sở dữ liệu quan hệ và phi quan hệ, thu thập dữ liệu trên mạng Internet, tự động hóa các quy trình làm việc với dữ liệu (data pipeline) thông qua kho dữ liệu (data warehouse) và hồ dữ liệu (data lake), làm việc với bộ dữ liệu lớn (big data) và triển khai hệ thống dựa trên nền tảng Cloud sử dụng các dịch vụ của AWS. Ở cuối chương trình, các bạn có thể chọn một trong ba lựa chọn sau: Kết hợp các kỹ năng của mình để hoàn thành một đồ án cuối khóa, thực tập tại doanh nghiệp hoặc thi lấy chứng chỉ của AWS.
Về nhu cầu tuyển dụng, cũng theo thống kê của TopDev năm 2020, Data Engineer đứng thứ 6 trong top các vị trí lập trình nhà tuyển dụng cần nhất tại Việt Nam. Trong nhóm các kỹ năng được mong đợi nhất, Big Data có mặt ở vị trí thứ 2. Mức lương cho vị trí Data Engineer và Big Data Engineer có mặt bằng khá cao so với các vị trí khác (1711$ và 1321$). Đối với thị trường nước ngoài, báo cáo nhân sự Linkedln đề cập rằng tại Mỹ, số lượng chuyên viên Big Data cần đến đã tăng gấp 6 lần so với nhu cầu cách đây 5 năm và sẽ còn tăng nữa trong vòng 5 năm tới.
Đầu ra sau khi hoàn thành chương trình
Sau khi học xong, học viên có cơ hội: Gia nhập các công ty phần mềm ở lĩnh vực
Data Engineer, Big Data Engineer của Việt Nam như FPT Software, Vietel, VinID, QAI,…
Yêu cầu đầu vào đối với học viên
- Biết lập trình Python cơ bản.
- Biết sử dụng hệ điều hành Unix/Linux.
- Có kiến thức về cấu trúc dữ liệu và giải thuật.
Trong trường hợp chưa có đầy đủ các kiến thức điều kiện, các bạn cần học thêm các môn học sau trong chứng chỉ điều kiện của chương trình Data Engineer:
(Các bạn click vào link để đọc thêm các thông tin chi tiết về môn học).
Đối tượng học
Phù hợp với mọi đối tượng, đặc biệt với các học viên đã có các kiến thức về lập trình Python cơ bản, hệ điều hành Unix/Linux, có kiến thức về cấu trúc dữ liệu và giải thuật.
Học viên học xong có năng lực gì?
- Xây dựng được các mô hình cơ sở dữ liệu quan hệ và phi quan hệ.
- Sử dụng thành thạo SQL cho truy vấn dữ liệu.
- Tạo ra được các kho dữ liệu (data warehouse) hiệu quả và có thể mở rộng. ●Biết cách sử dụng Python 3 (Scrapy, Splash, Selenium) để thu thập dữ liệu web.
- Có đầy đủ các kỹ năng làm việc hiệu quả với Big Data trên Pyspark và Python.
- Thiết lập được các quy trình giám sát và tự động hóa trên các đường ống dữ liệu lớn (data pipelines) với Apache Airflow.
- Thao tác và làm việc tốt với các tác vụ về kỹ thuật dữ liệu trên nền tảng điện toán đám mây AWS.
Chương trình học
Môn 1: Các hệ cơ sở dữ liệu
Các hệ cơ sở dữ liệu là môn học đầu tiên và cơ bản giúp các bạn bước đầu trở thành một Kỹ sư dữ liệu. Môn học cung cấp cho sinh viên lý thuyết thiết kế cơ sở dữ liệu quan hệ cũng như các khía cạnh khác nhau của lập trình cơ sở dữ liệu quan hệ trong SQL server.
Mục tiêu:
- Hiểu về các mô hình dữ liệu, đặc biệt là mô hình dữ liệu quan hệ
- Hiểu về truy vấn đại số quan hệ
- Hiểu và biết cách phân tích các yêu cầu của hệ thống, trên cơ sở đó biết cách thiết kế cơ sở dữ liệu quan hệ tương ứng
- Nắm được ngôn ngữ cơ sở dữ liệu SQL
- Hiểu về các ràng buộc cơ sở dữ liệu và ứng dụng bào bài toán thực tế
- Có thể sử dụng hệ quản trị cơ sở dữ liệu SQL Server để thực hiện thao tác quản trị cơ sở dữ liệu cơ bản (tạo bảng, tạo ràng buộc, truy vấn, thao tác dữ liệu, làm việc với hàm, thủ tục,…)
- Có thể thực hiện được một số dự án cơ sở dữ liệu hoàn chỉnh từ khâu tìm hiểu yêu cầu, thiết kế và cài đặt cơ sở dữ liệu
Môn 2: Giới thiệu về Kỹ thuật Dữ liệu
Phần đầu của môn học giúp học viên có cái nhìn tổng quan, sâu sắc hơn về công việc cũng như các định hướng phát triển sự nghiệp cho các kỹ sư dữ liệu.
Tiếp đó, chúng ta sẽ tìm hiểu về kiến trúc kho dữ liệu (data warehousing) mẫu và mô hình hóa chiều dữ liệu(dimensional modelling). Một data warehouse (kho dữ liệu – DWH) là một hệ thống được dùng để lưu trữ thông tin cho việc phân tích và báo cáo
Ngoài ra môn học cũng sẽ cung cấp các kiến thức về mô hình cơ sở dữ liệu phi tuyến tính (NoSQL). Cơ sở dữ liệu NoSQL là Cơ sở dữ liệu được xây dựng dành riêng cho mô hình dữ liệu và có sơ đồ linh hoạt để xây dựng các ứng dụng hiện đại. Cơ sở dữ liệu NoSQL được công nhận rộng rãi vì khả năng dễ phát triển, chức năng cũng như hiệu năng ở quy mô lớn.
Ở phần cuối của bài học, chúng ta sẽ học cách thu thập và khai thác dữ liệu trên các website với Python (Scrapy, Splash, Selenium). Web scraping đề cập đến việc trích xuất dữ liệu từ một trang web. Thông tin này được thu thập và sau đó xuất thành định dạng hữu ích hơn cho người dùng (có thể là bảng tính hoặc API).
Mục tiêu:
- Nắm được các khái niệm, quy trình và công cụ cốt lõi mà bạn cần biết để có được kiến thức nền tảng về kỹ thuật dữ liệu.
- Hiểu rõ các cơ hội về nghề nghiệp cũng như định hướng tương lai trong lĩnh vực kỹ thuật dữ liệu.
- Nắm vững các kỹ thuật cần thiết để xây dựng kho dữ liệu.
- Sử dụng được ETL để đưa được dữ liệu từ các nguồn dữ liệu vào kho dữ liệu.
- Biết cách xây dựng một cơ sở dữ liệu trên MongoDB.
- Sử dụng được các tính năng mà MongoDB cung cấp để làm việc với dữ liệu hiệu quả.
- Hiểu được các nguyên tắc cơ bản của Web Scraping.
Môn 3: Dữ liệu lớn với Spark
Big Data hay còn được biết với cái tên “Dữ liệu lớn” là một trong những từ khoá được nhắc đến gần đây trong thế giới công nghệ thông tin, đặc biệt là khi chúng ta đang bước vào kỷ nguyên công nghiệp 4.0. Như chúng ta đã biết, sự ra đời của mạng máy tính toàn cầu (Internet) và sự phát triển của các phương tiện kỹ thuật số đã và đang tạo ra một lượng dữ liệu khổng lồ. Dù vô tình hay hữu ý thì dữ liệu này chứa trong nó rất nhiều giá trị.
Trong môn học này các bạn sẽ được tìm hiểu đầy đủ về cả hệ thống tính toán và thuật toán xử lý dữ liệu để có đầy đủ kiến thức cho những công việc liên quan đến dữ liệu lớn. Về hệ thống tính toán, chúng ta sẽ tìm hiểu qua về Hadoop và đi sâu vào Apache Spark – hai nền tảng phổ biến nhất hiện nay trong xử lý dữ liệu lớn. Các bạn sẽ nắm được tổng quan về nền tảng xử lý dữ liệu lớn thông qua hệ thống các máy tính kết nối với nhau. Sau đó, các bạn sẽ học cách thiết kế, lập lịch và giám sát các đường ống dẫn dữ liệu (data pipelines) thông qua Apache Airflow.
Mục tiêu:
- Nắm vững được các khái niệm cơ bản trong Big Data như Hadoop, MapReduce, RDD, Spark, SparkSQL, DataFrame, DataSet.
- Sử dụng được Pyspark thuần thục trên Python với dữ liệu phi cấu trúc (Spark RDD) và dữ liệu có cấu trúc(Spark DataFrame và SparkSQL).
- Hiểu được các công nghệ chuyên biệt trên Spark như Spark Streaming, Structed Streaming, GraphX.
- Nắm vững các chức năng cốt lõi của Apache Airflow như DAGs, Operator, Task, Workflow,…
- Sử dụng được Airflow và các trình thực thi khác trong các hệ sinh thái dữ liệu lớn.
Môn 4: Kỹ thuật dữ liệu trên AWS
Amazon web service còn gọi có tên gọi tắt (AWS) là một trong những nền tảng dịch vụ đám mây an toàn. Khả năng tính toán lẫn lưu trữ dữ liệu được tích hợp trọn vẹn nhằm mục đích giúp doanh nghiệp có thể ngày càng mở rộng và phát triển nhanh chóng. Giải pháp đám mây thường được dùng để xây dựng hầu hết những ứng dụng phức tạp nhưng vẫn mang đến sự linh hoạt và khả năng xử lý tuyệt vời. Đặc biệt là mức độ bảo mật của nền tảng đám mây này được đánh giá gần như tuyệt đối.
Trong môn học này các bạn học viên sẽ được cung cấp các kiến thức ở mức độ cơ bản về dịch vụ đám mây và cách các dịch vụ đó được cung cấp trên Amazon Web Service cũng như các dịch vụ liên quan đến dữ liệu và cơ sở dữ liệu như Amazon RDS, Amazon DynamoDB/DocumentDB. Chúng ta cũng sẽ đi sâu vào các tác vụ về AWS Data Pipeline như AWS Database Migration Service (DMS) – một dịch vụ có chi phí thấp và giúp di chuyển cơ sở dữ liệu sang AWS một cách dễ dàng và bảo mật, AWS Glue – dịch vụ phi máy chủ giúp chúng ta chạy và giám sát một cách trực quan các quy trình ETL chỉ với một vài cú nhấp chuột, và AWS Redshift – có thể truy vấn và kết hợp hàng exabyte dữ liệu có cấu trúc và bán cấu trúc trên data warehouse.
Mục tiêu:
- Làm quen với hệ sinh thái Amazon Web Service, hiểu rõ ưu điểm của tính toán đám đám mây so với sử dụng hệ thống máy chủ truyển thống.
- Hiểu và sử dụng được các thành phần cơ bản trong AWS như tài nguyên tính toán và lưu trữ, hạ tầng mạng, cơ sở dữ liệu, bảo mật và chi phí. ●Có thể xác định tùy chọn triển khai AWS Database phù hợp và có thể triển khai nó thành công trên AWS.
- Vận dụng được AWS Database Migration Service, AWS Glue và AWS Redshift để thực hiện các bước cơ bản trong AWS Data Pipeline.
Môn 5: Đồ án cuối khóa – Kỹ thuật Dữ liệu
Hoàn thành môn học, học viên sẽ biết cách kết hợp các kiến thức về dữ liệu để tạo ra một sản phẩm/hệ thống về thu thập, xử lý và quản lý dữ liệu. Từ đó học viên sẽ tiếp tục hoàn thiện được các kỹ năng của mình liên quan đến kỹ thuật dữ liệu.
Học viên có thể chọn 1 trong 3 option sau:
Option 1: Làm đồ án tốt nghiệp
Đối với các học viên theo học chương trình biên soạn, học viên sẽ được hướng dẫn chọn làm đề tài/khóa luận với các mentor hướng dẫn trực tiếp.
Option 2: Đi thực tập tại doanh nghiệp
Đối với các bạn học viên có nguyện vọng thực tập tại các doanh nghiệp, FUNiX sẽ hỗ trợ kết nối các bạn với các doanh nghiệp để chuẩn bị CV và phỏng vấn vào thực tập. Nếu được doanh nghiệp nhận, học viên cần chủ động tìm hiểu và vận dụng các kiến thức đã học hoàn thành mục tiêu thực tập.
Option 3: Thi lấy chứng chỉ của AWS thuộc môn 5 – Đồ án cuối khoá
Đối với các bạn học viên có nhu cầu ôn thi và lấy các chứng chỉ của AWS:
- Chứng chỉ AWS Certified Solutions Architect – Associate
- Chứng chỉ AWS Certified Developer – Associate
Môn 6: Trở thành lập trình viên chuyên nghiệp
Mục tiêu của môn học là giúp các bạn học viên lấp những lỗ hổng về kiến thức và kỹ năng mềm nhằm nâng cao tỉ lệ học viên pass phỏng vấn vào doanh nghiệp mà mình mong muốn.
Trong phần đầu tiên, chúng ta sẽ bắt đầu với cách cài đặt IDE và các tiện ích đi kèm, các kỹ năng cần thiết để phát triển khả năng viết code, tư duy giải quyết vấn đề, công cụ quản lý phiên bản Git và cách sử dụng phương pháp quản lý công việc Kanban với Trello.
Tiếp đó, trong phần thứ hai, chúng ta sẽ được học các kiến thức nền tảng về kỹ thuật phần mềm như quy trình xây dựng phần mềm, vẽ lưu đồ và quy trình, UML Diagram với draw.io.
Ở phần ba, bạn sẽ được tìm hiểu về các nền tảng Free Hosting mà bạn có thể sử dụng để triển khai dự án của mình, công cụ Shell và giao diện dòng lệnh, kiến thức cơ bản về mô hình Agile.
Mục tiêu môn học
Sau khi học xong môn này, học viên sẽ đạt được các chuẩn kiến thức, kỹ năng đầu ra như sau:
Nắm được các kỹ năng để trở thành một lập trình viên hoàn thiện
Hiểu quy trình xây dựng phần mềm
Hiểu về phương thức phát triển phần mềm Agile
Biết cách viết CV và sẵn sàng cho phỏng vấn
Để bắt đầu, các bạn nên dành một vài phút khám phá môn học và cấu trúc chung. Môn học sẽ có 4 phần với 13 bài học. Để việc học tập được hiệu quả, hãy luôn trau dồi kiến thức, không ngừng học hỏi, nghiên cứu và lập cho mình một kế hoạch học tập hợp lý để hoàn thành khóa học một cách xuất sắc.
Mọi quan tâm về chương trình, mời Đăng ký để được giải đáp thông tin hoặc tìm hiểu thêm TẠI ĐÂY.
Cơ hội nghề nghiệp
- Khóa học Data Engineering cung cấp cho người học đủ kiến thức và kỹ năng để có thể đi làm ngay khi kết thúc khóa học (Sau tối đa 7 tháng)
- Sau khi hoàn thành chứng chỉ, học viên sẽ có cơ hội gia nhập các công ty phần mềm ở lĩnh vực Data Engineer, Big Data Engineer của Việt Nam như FPT Software, Vietel, VinID, QAI,…