Data Science là gì? Định nghĩa Data science

Data Science là gì? Định nghĩa Data science

Chia sẻ kiến thức 13/03/2022

Định nghĩa Data science (Khoa học dữ liệu)

Data science (DS) kết hợp nhiều lĩnh vực, bao gồm thống kê, phương pháp khoa học, trí tuệ nhân tạo (AI) và phân tích dữ liệu để chiết xuất giá trị từ dữ liệu. Những người thực hành DS được gọi là nhà khoa học dữ liệu và họ kết hợp nhiều kỹ năng để phân tích dữ liệu thu thập được từ web, smartphone, khách hàng, cảm biến và các nguồn khác để thu thập các insight hữu ích.

Data science bao gồm việc chuẩn bị dữ liệu để phân tích, gồm làm sạch, tổng hợp và xử lý dữ liệu để thực hiện phân tích dữ liệu nâng cao. Sau đó, các nhà khoa học dữ liệu và ứng dụng phân tích sẽ xem xét kết quả để phát hiện ra các mẫu và cho phép người đứng đầu doanh nghiệp rút ra các insight.

Data Science

Data science: Nguồn tài nguyên chưa được tận dụng của Machine learning

Data science là một trong những lĩnh vực thú vị nhất hiện nay. Vậy tại sao nó lại quan trọng đến vậy?

Bởi vì các công ty đang hoạt động dựa trên các nguồn dữ liệu giá trị. Khối lượng dữ liệu đã bùng nổ từ khi công nghệ hiện đại cho phép tạo và lưu trữ lượng thông tin ngày càng gia tăng. Theo ước tính,90% dữ liệu trên thế giới được tạo ra trong vòng hai năm qua. Ví dụ: người dùng Facebook tải lên 10 triệu bức ảnh mỗi giờ.

Nhưng dữ liệu này thường chỉ nằm trong database và datalake, phần lớn không được đả động đến.

Lượng dữ liệu dồi dào mà những công nghệ này thu thập và lưu trữ có thể đem lại các lợi ích mang tính biến đổi cho các tổ chức và xã hội trên toàn thế giới — nhưng điều đó chỉ xảy ra khi chúng ta có thể giải thích nó. Lúc này, Data science xuất hiện.

Data science tiết lộ các xu hướng và cung cấp thông tin chi tiết mà các doanh nghiệp có thể sử dụng để đưa ra quyết định tốt hơn, tạo ra các sản phẩm và dịch vụ sáng tạo hơn. Có lẽ quan trọng nhất là nó cho phép các mô hình học máy (ML) học hỏi từ lượng dữ liệu khổng lồ được cung cấp cho chúng, thay vì chủ yếu dựa vào các nhà phân tích kinh doanh để biết những điều mà họ khám phá ra được từ dữ liệu. 

Dữ liệu là nền tảng của sự đổi mới, nhưng giá trị của nó đến từ thông tin mà các nhà khoa học dữ liệu có thể thu thập rồi đưa vào hành động.

Khác biệt giữa data science, artificial intelligence và machine learning.

Để hiểu rõ hơn về DS — và cách bạn có thể khai thác nó — trước hết cần nắm được các thuật ngữ khác liên quan đến lĩnh vực này, chẳng hạn như trí tuệ nhân tạo (AI) và học máy (ML). Thông thường, bạn sẽ thấy rằng các thuật ngữ này được sử dụng thay thế cho nhau, tuy nhiên, chúng đều có những sắc thái riêng.

Dưới đây là một phân tích đơn giản:

  • AI khiến máy tính bắt chước hành vi của con người theo một cách nào đó. 
  • Data science là một tập hợp con của AI và nó đề cập nhiều hơn đến các lĩnh vực có liên quan đến nhau như thống kê, phương pháp khoa học và phân tích dữ liệu — tất cả đều được sử dụng để rút ra ý nghĩa và insight từ dữ liệu ..
  • Machine learning là một tập hợp con khác của AI, bao gồm các kỹ thuật cho phép máy tính tìm ra mọi thứ từ dữ liệu và cung cấp các ứng dụng AI.
    Và để hiểu rõ hơn, chúng ta sẽ tìm hiểu một định nghĩa khác.
  • Deep learning là một tập hợp con của Machine learning, cho phép máy tính giải quyết các vấn đề phức tạp hơn.

Data science đang biến đổi hoạt động kinh doanh thế nào?

Các tổ chức đang sử dụng DS để biến dữ liệu thành lợi thế cạnh tranh bằng cách tinh chỉnh các sản phẩm và dịch vụ. Các trường hợp sử dụng Data science và Machine learning bao gồm:

  • Xác định tình trạng rời đi của khách hàng bằng cách phân tích dữ liệu thu thập được từ các tổng đài để bộ phận tiếp thị tìm cách giữ chân họ
  • Nâng cao hiệu quả bằng cách phân tích mô hình giao thông, điều kiện thời tiết và các yếu tố khác để các công ty logistics có thể cải thiện tốc độ giao hàng và giảm chi phí
  • Cải thiện chẩn đoán của bệnh nhân bằng cách phân tích dữ liệu xét nghiệm y tế và các triệu chứng được báo cáo để bác sĩ có thể chẩn đoán bệnh sớm hơn và điều trị hiệu quả hơn
  • Tối ưu hóa chuỗi cung ứng bằng cách dự đoán khi nào thiết bị sẽ hỏng
  • Phát hiện gian lận trong các dịch vụ tài chính bằng cách nhận biết các hành vi đáng ngờ và các hành động bất thường
  • Cải thiện doanh số bán hàng bằng cách đưa ra các đề xuất cho khách hàng dựa trên các lần mua hàng trước đó

Nhiều công ty khá coi trọng data science và đang đầu tư rất nhiều vào lĩnh vực này. Trong khảo sát gần đây của Gartner với hơn 3,000 CIO, những người được hỏi đã đánh giá Analytics và Business intelligence là công nghệ tạo nên sự khác biệt hàng đầu cho tổ chức của họ. Các CIO được khảo sát coi những công nghệ này là những giải pháp chiến lược nhất đối với công ty của họ và đang tiến hành đầu tư tương ứng.

Quy trình của Data science 

Quá trình phân tích và hành động dựa trên dữ liệu sẽ lặp đi lặp lại thay vì tuyến tính, nhưng đây là cách diễn ra vòng đời của data science cho một dự án mô hình hóa dữ liệu:

Lập kế hoạch: Xác định dự án và các đầu ra tiềm năng của nó.

Xây dựng mô hình dữ liệu: Các nhà khoa học dữ liệu thường sử dụng nhiều thư viện mã nguồn mở hoặc các công cụ trong cơ sở dữ liệu để xây dựng mô hình học máy. Thông thường, người dùng muốn các API trợ giúp nhập dữ liệu, lập hồ sơ và trực quan hóa dữ liệu hoặc kỹ thuật đặc trưng. Họ sẽ cần các công cụ phù hợp cũng như quyền truy cập vào dữ liệu thích hợp và các tài nguyên khác, chẳng hạn như sức mạnh tính toán.

Đánh giá mô hình: Mô hình của các nhà khoa học dữ liệu phải có độ chính xác cao trước khi họ tự tin khi triển khai nó. Đánh giá mô hình thường sẽ tạo ra một bộ các phép đo đánh giá và trực quan hóa toàn diện để đo lường chất lượng mô hình dựa trên dữ liệu mới và cũng xếp hạng chúng theo thời gian để cho phép các hành vi tối ưu trong sản xuất. Đánh giá mô hình cần vượt trội hơn so với chất lượng ban đầu để cân nhắc hành vi cơ sở dự kiến.

Diễn giải mô hình: Việc diễn giải cơ chế bên trong các kết quả của mô hình học máy về mặt nhân học không phải lúc nào cũng khả thi — nhưng nó ngày càng trở nên quan trọng. Các nhà khoa học dữ liệu cần những giải thích tự động về trọng số tương đối và mức độ quan trọng của các yếu tố cấu thành dự đoán và chi tiết giải thích mô hình cụ thể về các dự đoán của mô hình.

Triển khai mô hình: Quá trình đưa một mô hình học máy đã được huấn luyện vào hệ thống phù hợp thường khá khó khăn và tốn nhiều công sức. Điều này có thể thực hiện dễ dàng hơn bằng cách vận hành mô hình ở dạng các API bảo mật và có thể mở rộng, hoặc bằng cách sử dụng các mô hình học máy trong cơ sở dữ liệu.

Giám sát mô hình: Thật không may, việc triển khai mô hình chưa phải là kết thúc. Phải luôn giám sát các mô hình sau khi triển khai để đảm bảo chúng hoạt động bình thường. Dữ liệu mà mô hình huấn luyện có thể không còn phù hợp với các dự đoán trong tương lai sau một khoảng thời gian. Ví dụ: trong việc phát hiện gian lận, tội phạm luôn nghĩ ra các cách mới để hack tài khoản.

Các công cụ dành cho data science

Quá trình xây dựng, đánh giá, triển khai và giám sát các mô hình học máy có thể khá phức tạp. Đó là lý do tại sao ngày càng có nhiều công cụ dành cho data science. Các nhà khoa học dữ liệu sử dụng nhiều loại công cụ, tuy nhiên, một trong những công cụ phổ biến nhất là notebook mã nguồn mở, ứng dụng web để viết và chạy code, hiển thị dữ liệu và xem kết quả — tất cả ở trong cùng một môi trường.

Một số notebook phổ biến nhất gồm Jupyter, RStudio và Zeppelin. Notebook rất hữu ích khi tiến hành phân tích, nhưng có hạn chế là các nhà khoa học dữ liệu cần làm việc theo nhóm. Do đó, các nền tảng DS được xây dựng để giải quyết vấn đề này.

Để xác định công cụ DS nào phù hợp với bạn, hãy giải đáp những câu hỏi sau: Các nhà khoa học dữ liệu của bạn sử dụng loại ngôn ngữ nào? Họ thích phương pháp làm việc nào hơn? Họ đang sử dụng loại nguồn dữ liệu nào?

Ví dụ: một số người dùng thích có một dịch vụ nguồn dữ liệu-agnostic sử dụng các thư viện mã nguồn mở. Một số khác lại thích tốc độ trong cơ sở dữ liệu, các thuật toán học máy.

Ai là người giám sát quy trình khoa học dữ liệu?

Ở phần lớn các tổ chức, các dự án khoa học dữ liệu thường được giám sát bởi ba loại nhà quản lý:

Quản lý kinh doanh: Các nhà quản lý này sẽ làm việc với nhóm khoa học dữ liệu để xác định vấn đề và phát triển chiến lược phân tích. Họ có thể là người đứng đầu một ngành kinh doanh, chẳng hạn như marketing, tài chính hoặc bán hàng, và có một nhóm khoa học dữ liệu báo cáo cho họ. Họ làm việc chặt chẽ với các nhà quản lý khoa học dữ liệu và CNTT để đảm bảo chuyển giao dự án.

Quản lý CNTT: Các nhà quản lý CNTT cấp cao chịu trách nhiệm về cơ sở hạ tầng và kiến ​​trúc sẽ hỗ trợ các hoạt động khoa học dữ liệu. Họ liên tục giám sát các hoạt động và việc sử dụng tài nguyên để đảm bảo các nhóm khoa học dữ liệu hoạt động một cách an toàn, hiệu quả. Họ cũng chịu trách nhiệm xây dựng và cập nhật môi trường CNTT cho các nhóm khoa học dữ liệu.

Quản lý khoa học dữ liệu: Những quản lý này sẽ giám sát nhóm khoa học dữ liệu và công việc hàng ngày của họ. Họ là những người xây dựng nhóm, có thể cân bằng giữa việc phát triển nhóm với việc lập kế hoạch và giám sát dự án.

Nhưng người đóng vai trò quan trọng nhất trong quá trình này lại là các nhà khoa học dữ liệu.

Data scientist (Nhà khoa học dữ liệu) là những ai?

Ngành Data science còn khá non trẻ. Nó được phát triển từ lĩnh vực phân tích thống kê và khai phá dữ liệu. Tạp chí Khoa học Dữ liệu ra mắt lần đầu tiên vào năm 2002, do Hội đồng Khoa học Quốc tế: Ủy ban Dữ liệu Khoa học và Công nghệ xuất bản. Đến năm 2008, chức danh data scientist (nhà khoa học dữ liệu) xuất hiện và lĩnh vực này nhanh chóng phát triển. Kể từ đó, luôn có sự thiếu hụt về nhu cầu cho vị trí data scientist, mặc dù ngày càng có nhiều trường cao đẳng và đại học bắt đầu cung cấp các chứng chỉ về Data science. 

Nhiệm vụ của một nhà khoa học dữ liệu gồm phát triển các chiến lược để phân tích dữ liệu, chuẩn bị dữ liệu cho phân tích, khám phá, phân tích và trực quan hóa dữ liệu, xây dựng mô hình với dữ liệu bằng các ngôn ngữ lập trình như Python và R, và triển khai các mô hình vào ứng dụng.

Các nhà khoa học dữ liệu không hoạt động đơn lẻ. Trên thực tế, họ đạt được hiệu quả tốt nhất khi tiến hành theo nhóm. Ngoài nhà khoa học dữ liệu, nhóm này có thể bao gồm nhà phân tích kinh doanh (business analyst) giúp xác định vấn đề, kỹ sư dữ liệu (data engineer) chuẩn bị và truy cập dữ liệu, kiến ​​trúc sư CNTT giúp giám sát các quy trình và cơ sở hạ tầng cơ bản, và một nhà phát triển ứng dụng giúp triển khai mô hình hoặc kết quả phân tích thành các ứng dụng và sản phẩm.

Những thách thức khi thực hiện các dự án khoa học dữ liệu

Dù ngành Data science có nhiều hứa hẹn và các khoản đầu tư khổng lồ không ngừng đổ vào các nhóm khoa học dữ liệu, nhưng nhiều công ty vẫn không nhận ra giá trị đầy đủ của dữ liệu của họ. Trong cuộc chạy đua để thuê nhân tài và tạo ra các chương trình khoa học dữ liệu, một số công ty đã mắc phải sai sót với quy trình làm việc nhóm kém hiệu quả, các vài trò khác nhau sử dụng các công cụ và quy trình khác nhau không cộng tác tốt cho lắm. Nếu không có sự quản lý tập trung hơn, kỷ luật hơn, thì các giám đốc điều hành sẽ không thấy được lợi nhuận đầy đủ từ các khoản đầu tư của họ.

Môi trường hỗn loạn này đặt ra nhiều thách thức.

Các nhà khoa học dữ liệu không thể làm việc hiệu quả. Do quyền truy cập vào dữ liệu cần được cấp bởi quản trị viên CNTT, nên các nhà khoa học dữ liệu thường phải đợi một thời gian dài mới lấy được dữ liệu và tài nguyên mà họ cần để phân tích. Sau khi họ có quyền truy cập, nhóm khoa học dữ liệu có thể phân tích dữ liệu bằng các công cụ khác mà có thể sẽ không tương thích. Ví dụ: một nhà khoa học dữ liệu có thể phát triển mô hình bằng ngôn ngữ R, nhưng ứng dụng nó mà sẽ được dùng lại viết bằng một ngôn ngữ khác. Đó là lý do tại sao có thể mất vài tuần, hoặc thậm chí vài tháng để triển khai mô hình thành các ứng dụng hữu ích.

Các nhà lập trình ứng dụng không thể truy cập machine learning có thể sử dụng. Đôi khi các nhà lập trình nhận được những mô hình học chưa sẵn sàng để triển khai vào các ứng dụng. Và do các điểm truy cập có thể không linh hoạt nên không thể triển khai các mô hình trong mọi tình huống, và đặt ra thách thức về khả năng mở rộng cho nhà lập trình ứng dụng.

Quản trị viên CNTT dành quá nhiều thời gian cho việc hỗ trợ. Nhờ sự gia tăng của các công cụ mã nguồn mở, ngành CNTT ngày càng nhiều công cụ hỗ trợ. Ví dụ: một nhà khoa học dữ liệu làm việc trong lĩnh vực marketing có thể sử dụng các công cụ khác với một nhà khoa học dữ liệu làm trong lĩnh vực tài chính. Các nhóm cũng có thể có các quy trình làm việc khác nhau, có nghĩa là CNTT phải liên tục xây dựng lại và cập nhật môi trường.

Các nhà quản lý doanh nghiệp còn quá tách biệt với khoa học dữ liệu. Quy trình làm việc của khoa học dữ liệu không phải lúc nào cũng được tích hợp vào các quy trình và hệ thống ra quyết định kinh doanh, khiến các nhà quản lý doanh nghiệp gặp khó khăn trong việc hợp tác ăn ý với các nhà khoa học dữ liệu. Nếu không có sự tích hợp tốt hơn, các nhà quản lý doanh nghiệp sẽ khó hiểu những vấn đề như tại sao lại phải mất quá nhiều thời gian để đi từ prototype (nguyên mẫu) đến production – và họ ít có khả năng quay trở lại đầu tư vào các dự án mà họ cho là quá chậm.

Nền tảng khoa học dữ liệu mang lại những khả năng mới

Nhiều công ty nhận ra rằng, nếu không có nền tảng tích hợp thì các công việc khoa học dữ liệu sẽ kém hiệu quả, không an toàn và khó mở rộng quy mô. Nhận thức này đã dẫn tới sự phát triển của các nền tảng khoa học dữ liệu. Các nền tảng này là software hub, nơi diễn ra tất cả các công việc liên quan của Data science. Một nền tảng tốt sẽ giảm bớt nhiều khó khăn trong việc triển khai DS và giúp các doanh nghiệp biến dữ liệu của họ thành các insight nhanh hơn, hiệu quả hơn.

Với nền tảng máy học tập trung, các nhà khoa học dữ liệu có thể làm việc trong một môi trường cộng tác bằng cách sử dụng các công cụ mã nguồn mở yêu thích của họ, tất cả công việc đều được đồng bộ hóa bởi hệ thống kiểm soát phiên bản.

Lợi ích của nền tảng khoa học dữ liệu

Nền tảng khoa học dữ liệu làm giảm sự dư thừa và thúc đẩy đổi mới bằng cách cho phép các nhóm chia sẻ code, kết quả và báo cáo. Nó loại bỏ các nút thắt trong quy trình làm việc bằng cách đơn giản hóa việc quản lý, đồng thời kết hợp các phương pháp hay nhất.

Nhìn chung, các nền tảng khoa học dữ liệu tốt nhất nhằm mục tiêu:

  • Giúp các nhà khoa học dữ liệu làm việc hiệu quả hơn bằng cách giúp họ tăng tốc, cung cấp các mô hình nhanh hơn và ít lỗi hơn
  • Giúp các nhà khoa học dữ liệu làm việc với khối lượng lớn và nhiều loại dữ liệu một cách dễ dàng hơn
  • Cung cấp AI đáng tin cậy ở cấp độ doanh nghiệp, không sai lêch, có thể kiểm tra và tái tạo

Nền tảng khoa học dữ liệu được xây dựng để nhiều người dùng cộng tác với nhau, bao gồm các nhà khoa học dữ liệu chuyên môn, các nhà khoa học dữ liệu công dân, kỹ sư dữ liệu và kỹ sư hoặc chuyên gia học máy. Ví dụ: nền tảng khoa học dữ liệu có thể cho phép các nhà khoa học dữ liệu triển khai các mô hình dưới dạng API, giúp dễ dàng tích hợp chúng vào các ứng dụng khác nhau. Các nhà khoa học dữ liệu có thể truy cập các công cụ, dữ liệu và cơ sở hạ tầng mà không cần phải đợi CNTT.

Nhu cầu về nền tảng khoa học dữ liệu đã bùng nổ trên thị trường. Trên thực tế, thị trường nền tảng dự kiến ​​sẽ tăng trưởng với tốc độ kép hàng năm hơn 39% trong vài năm tới, và dự kiến ​​đạt 385 tỷ USD vào năm 2025.

Những điều mà nhà khoa học dữ liệu cần ở nền tảng

If you’re ready to explore the capabilities of data science platforms, there are some key capabilities to consider: Nếu bạn đã sẵn sàng khám phá các khả năng của nền tảng khoa học dữ liệu, có một số khả năng chính cần xem xét:

Chọn giao diện người dùng dựa trên dự án giúp khuyến khích cộng tác. Nền tảng này sẽ trao quyền cho mọi người làm việc cùng nhau trên một mô hình, từ giai đoạn hình thành đến phát triển cuối cùng. Giao diện này sẽ cung cấp cho mỗi thành viên trong nhóm quyền truy cập tự phục vụ vào dữ liệu và tài nguyên.

Ưu tiên tính tích hợp và linh hoạt. Đảm bảo rằng nền tảng đã bao gồm hỗ trợ cho các công cụ mã nguồn mở mới nhất, các nhà cung cấp kiểm soát phiên bản phổ biến, chẳng hạn như GitHub, GitLab và Bitbucket, đồng thời tích hợp chặt chẽ với các tài nguyên khác.

Bao gồm các tiềm lực ở cấp độ doanh nghiệp. Đảm bảo nền tảng có thể mở rộng quy mô với doanh nghiệp khi nhóm của bạn phát triển. Nền tảng phải có tính khả dụng cao, có các kiểm soát truy cập mạnh mẽ và hỗ trợ lượng lớn người dùng đồng thời.

Khiến DS có tính self-service (tự phục vụ) hơn. Tìm kiếm một nền tảng giúp loại bỏ gánh nặng của CNTT và kỹ thuật, đồng thời giúp các nhà khoa học dữ liệu dễ dàng tạo ra các môi trường ngay lập tức, theo dõi tất cả công việc của họ và dễ dàng triển khai các mô hình vào production.

Đảm bảo triển khai mô hình dễ dàng hơn. Triển khai và vận hành mô hình là một trong những bước quan trọng nhất của vòng đời học máy, nhưng chúng thường bị bỏ qua. Hãy đảm bảo dịch vụ bạn chọn giúp vận hành các mô hình dễ dàng hơn, dù dịch vụ đó cung cấp API hay đảm bảo người dùng xây dựng mô hình theo cách sao cho dễ tích hợp.

Cần chọn đúng nền tảng khoa học dữ liệu 

Tổ chức của bạn có thể đang cần một nền tảng khoa học dữ liệu, nếu bạn nhận thấy rằng:

  • Năng suất và cộng tác có dấu hiệu căng thẳng
  • Không thể kiểm tra hoặc tái tạo các mô hình học máy
  • Mô hình không bao giờ được đưa vào sản xuất

Nguyễn Hải Nam 

Dịch từ bài What is Data Science

Xem thêm: Khoá học về Khoa học dữ liệu đầu tiên tại Việt Nam

ĐĂNG KÝ TƯ VẤN HỌC LẬP TRÌNH TẠI FUNiX

Bình luận (
0
)

Bài liên quan

  • Tầng 0, tòa nhà FPT, 17 Duy Tân, phường Cầu Giấy, Hà Nội
  • info@funix.edu.vn
  • 0782313602 (Zalo, Viber)        

Cơ quan chủ quản: Công ty Cổ phần Giáo dục Trực tuyến FUNiX
MST: 0108171240 do Sở kế hoạch và Đầu tư thành phố Hà Nội cấp ngày 27 tháng 02 năm 2018
Địa chỉ:
Văn phòng Hà Nội: Tầng 4, Tòa nhà 25T2, Đường Nguyễn Thị Thập, phường Yên Hòa, Hà Nội.
Văn phòng TP.HCM: Lầu 8, Tòa nhà Giày Việt Plaza 180-182 Lý Chính Thắng, phường Nhiêu Lộc, TP. Hồ Chí Minh.
Hotline: 078 231 3602 – Email: info@funix.edu.vn

yêu cầu gọi lại