Nghiên cứu trường hợp dữ liệu lớn? Những thách thức của Dữ liệu lớn

Nghiên cứu trường hợp dữ liệu lớn? Những thách thức của Dữ liệu lớn

Chia sẻ kiến thức 24/07/2023

Không ngừng phát triển, lĩnh vực kiến ​​trúc và quản lý dữ liệu đang ở trong trạng thái phức tạp chưa từng thấy. Trên toàn cầu, hơn 2,5 triệu byte dữ liệu được tạo ra mỗi ngày và 90 phần trăm tất cả dữ liệu trên thế giới được tạo ra trong vài năm qua (Forbes). Dữ liệu là nhiên liệu cho máy học và hiểu biết sâu sắc có ý nghĩa trong các ngành, vì vậy các tổ chức đang nghiêm túc hơn về cách họ thu thập, sắp xếp và quản lý thông tin.

Nghiên cứu trường hợp dữ liệu lớn? Những thách thức của Dữ liệu lớn
Nghiên cứu trường hợp dữ liệu lớn? Những thách thức của Dữ liệu lớn (Nguồn ảnh: internet)

Bài viết này sẽ giúp bạn tìm hiểu thêm về thế giới rộng lớn của Dữ liệu lớn và những thách thức của Dữ liệu lớn. Và trong trường hợp bạn coi những thách thức về Dữ liệu lớn và Dữ liệu lớn là một khái niệm không phải là vấn đề lớn, thì đây là một số sự thật sẽ giúp bạn xem xét lại: 

  • Khoảng 300 tỷ email được trao đổi mỗi ngày (Giám sát chiến dịch)
  • 400 giờ video được tải lên YouTube mỗi phút (Brandwatch)
  • Thương mại điện tử bán lẻ trên toàn thế giới chiếm hơn 4 tỷ đô la doanh thu (Shopify)
  • Google nhận được hơn 63.000 yêu cầu tìm kiếm mỗi phút (SEO Tribunal)
  • Đến năm 2025, dữ liệu thời gian thực sẽ chiếm hơn 1/4 tổng số dữ liệu (IDC)

1. Dữ liệu lớn là gì?

Khi nghe đến “Dữ liệu lớn”, chúng ta có thể tự hỏi nó khác với “dữ liệu” phổ biến hơn như thế nào. Thuật ngữ “dữ liệu” đề cập đến bất kỳ ký tự hoặc biểu tượng chưa được xử lý nào có thể được ghi lại trên phương tiện hoặc được máy tính truyền qua tín hiệu điện tử. Tuy nhiên, dữ liệu thô là vô ích cho đến khi nó được xử lý bằng cách nào đó.

Facebook thu thập khối lượng lớn dữ liệu người dùng (trong phạm vi petabyte hoặc 1 triệu gigabyte) dưới dạng nhận xét, lượt thích, sở thích, bạn bè và nhân khẩu học. Facebook sử dụng thông tin này theo nhiều cách khác nhau:

  • Để tạo nguồn cấp tin tức được cá nhân hóa và có liên quan và quảng cáo được tài trợ
  • Đối với đề xuất thẻ ảnh
  • Đoạn hồi tưởng về ảnh và bài đăng có mức độ tương tác cao nhất
  • Đăng ký an toàn trong các cuộc khủng hoảng hoặc thảm họa
  • Tiếp theo, chúng ta hãy xem xét một nghiên cứu điển hình về Dữ liệu lớn, hiểu các sắc thái của nó và sau đó xem xét một số thách thức của Dữ liệu lớn.

>>> Xem thêm: Xu hướng phân tích dữ liệu lớn mới nhất năm 2023

2. Nghiên cứu trường hợp dữ liệu lớn

Nghiên cứu trường hợp dữ liệu lớn
Nghiên cứu trường hợp dữ liệu lớn (Nguồn ảnh: internet)

Khi số lượng người dùng Internet tăng lên trong suốt thập kỷ qua, Google đã gặp thách thức về cách lưu trữ quá nhiều dữ liệu người dùng trên các máy chủ truyền thống của mình. Với hàng nghìn truy vấn tìm kiếm được đưa ra mỗi giây, quá trình truy xuất tiêu tốn hàng trăm megabyte và hàng tỷ chu kỳ CPU. Google cần một hệ thống tệp mở rộng, phân tán và có khả năng chịu lỗi cao để lưu trữ và xử lý các truy vấn.

Kiến trúc GFS bao gồm một máy chủ chính và nhiều máy chủ chunk hoặc máy phụ. Máy chính chứa siêu dữ liệu và máy chủ chunk/máy phụ lưu trữ dữ liệu theo kiểu phân tán. Bất cứ khi nào ứng dụng khách trên API muốn đọc dữ liệu, ứng dụng khách đó sẽ liên hệ với chủ, sau đó chủ này sẽ phản hồi bằng thông tin siêu dữ liệu. Máy khách sử dụng thông tin siêu dữ liệu này để gửi yêu cầu đọc/ghi tới các máy phụ để tạo phản hồi.

Các tệp được chia thành các khối có kích thước cố định và được phân phối trên các máy chủ khối hoặc máy phụ. Các tính năng của máy chủ chunk bao gồm:

  • Mỗi phần có 64MB dữ liệu (128MB từ Hadoop phiên bản 2 trở đi)
  • Theo mặc định, mỗi phần được sao chép trên nhiều máy chủ chunk ba lần
  • Nếu bất kỳ máy chủ chunk nào gặp sự cố, tệp dữ liệu sẽ có trong các máy chủ chunk khác

3. Thách thức của Dữ liệu lớn

Thách thức của Dữ liệu lớn
Thách thức của Dữ liệu lớn (Nguồn ảnh: internet)

3.1 Kho

Với lượng dữ liệu khổng lồ được tạo ra hàng ngày, thách thức lớn nhất là lưu trữ (đặc biệt khi dữ liệu ở các định dạng khác nhau) trong các hệ thống cũ. Dữ liệu phi cấu trúc không thể được lưu trữ trong cơ sở dữ liệu truyền thống.

3.2 Xử lý

Xử lý dữ liệu lớn đề cập đến việc đọc, biến đổi, trích xuất và định dạng thông tin hữu ích từ thông tin thô. Việc nhập và xuất thông tin ở các định dạng thống nhất tiếp tục gặp khó khăn.

3.3 Bảo vệ

An ninh là một mối quan tâm lớn đối với các tổ chức. Thông tin không được mã hóa có nguy cơ bị tội phạm mạng đánh cắp hoặc làm hỏng. Do đó, các chuyên gia bảo mật dữ liệu phải cân bằng quyền truy cập dữ liệu với việc duy trì các giao thức bảo mật nghiêm ngặt.

3.4 Tìm và khắc phục các vấn đề về chất lượng dữ liệu

Nhiều người trong số các bạn có thể đang phải đối mặt với những thách thức liên quan đến chất lượng dữ liệu kém, nhưng vẫn có sẵn các giải pháp. Sau đây là bốn cách tiếp cận để khắc phục sự cố dữ liệu:

  • Thông tin chính xác trong cơ sở dữ liệu ban đầu.
  • Việc sửa chữa nguồn dữ liệu gốc là cần thiết để giải quyết mọi điểm không chính xác của dữ liệu.
  • Bạn phải sử dụng các phương pháp có độ chính xác cao để xác định ai đó là ai.

3.5 Mở rộng quy mô hệ thống dữ liệu lớn

Bảo vệ cơ sở dữ liệu, lưu vào bộ nhớ đệm, chuyển sang đám mây và tách cơ sở dữ liệu chỉ đọc và hoạt động ghi đều là những phương pháp mở rộng quy mô hiệu quả. Mặc dù mỗi một trong những cách tiếp cận đó đều tuyệt vời, nhưng việc kết hợp chúng sẽ đưa bạn đến cấp độ tiếp theo.

3.6 Đánh giá và lựa chọn công nghệ dữ liệu lớn

Các công ty đang chi hàng triệu USD cho các công nghệ dữ liệu lớn mới và thị trường cho những công cụ như vậy đang mở rộng nhanh chóng. Tuy nhiên, trong những năm gần đây, ngành CNTT đã nắm bắt được tiềm năng phân tích và dữ liệu lớn. Các công nghệ xu hướng bao gồm:

  • Hệ sinh thái Hadoop
  • Tia lửa Apache
  • Cơ sở dữ liệu NoSQL
  • Phần mềm R
  • Phân tích dự đoán
  • Phân tích theo quy định

funix-branding-2

>>> Đăng ký tìm hiểu chi tiết các khóa học CNTT của FUNiX tại đây:

Tham khảo chuỗi bài viết liên quan:

5 Điểm đáng chú ý tại khóa học lập trình trực tuyến FPT – FUNiX

Từ A-Z chương trình học FUNiX – Mô hình đào tạo lập trình trực tuyến số 1 Việt Nam

Lý do phổ biến khiến học viên nước ngoài chọn FUNiX

5 Ứng dụng của machine learning quan trọng trong công cuộc chuyển đổi số

9 Xu hướng học máy hàng đầu tính đến 2025

Nguyễn Cúc

Nguồn tham khảo: simplilearn

ĐĂNG KÝ TƯ VẤN HỌC LẬP TRÌNH TẠI FUNiX

Bình luận (
0
)

Bài liên quan

  • Tầng 0, tòa nhà FPT, 17 Duy Tân, phường Cầu Giấy, Hà Nội
  • info@funix.edu.vn
  • 0782313602 (Zalo, Viber)        

Cơ quan chủ quản: Công ty Cổ phần Giáo dục Trực tuyến FUNiX
MST: 0108171240 do Sở kế hoạch và Đầu tư thành phố Hà Nội cấp ngày 27 tháng 02 năm 2018
Địa chỉ:
Văn phòng Hà Nội: Tầng 4, Tòa nhà 25T2, Đường Nguyễn Thị Thập, phường Yên Hòa, Hà Nội.
Văn phòng TP.HCM: Lầu 8, Tòa nhà Giày Việt Plaza 180-182 Lý Chính Thắng, phường Nhiêu Lộc, TP. Hồ Chí Minh.
Hotline: 078 231 3602 – Email: info@funix.edu.vn

yêu cầu gọi lại