Khoa học dữ liệu là gì? Ứng dụng và tương lai
Khoa học dữ liệu (Data science) được tạp chí Harvard Business Review gọi là “công việc quyến rũ nhất thế kỷ 21”. Vậy Data Science là gì? Hãy tìm hiểu cùng FUNiX.
Table of Contents
- Xử lý ngôn ngữ tự nhiên là gì?
- Data Analytics (Phân tích dữ liệu) là gì?
- Học máy (Machine Learning) là gì?
Những điểm cần nhớ
- Khoa học dữ liệu sử dụng các kỹ thuật như máy học và trí tuệ nhân tạo để trích xuất những thông tin có ý nghĩa và dự đoán các mẫu hình (pattern) và hành vi trong tương lai.
- Những tiến bộ trong công nghệ, internet, và mạng xã hội đều mở rộng khả năng truy cập dữ liệu.
- Khi công nghệ ngày càng tiến bộ và các kỹ thuật thu thập và phân tích dữ liệu lớn ngày càng trở nên tinh vi thì khoa học dữ liệu ngày càng phát triển.
Khoa học dữ liệu là gì?
Khoa học dữ liệu là một lĩnh vực ứng dụng toán học và thống kê nhằm cung cấp những thông tin hữu ích dựa trên một lượng dữ liệu lớn và phức tạp.
Khoa học dữ liệu kết hợp các khía cạnh của nhiều lĩnh vực khác nhau với sự hỗ trợ của tính toán (computation) để diễn giải dữ liệu nhằm phục vụ mục đích ra quyết định.
Hiểu về Khoa học Dữ liệu
Ngày nay dữ liệu được thu thập từ nhiều lĩnh vực, kênh và nền tảng khác nhau, bao gồm điện thoại di động, mạng xã hội, trang thương mại điện tử, và tìm kiếm trên internet. Sự gia tăng số lượng dữ liệu có sẵn đã mở ra cánh cửa cho một lĩnh vực nghiên cứu mới dựa trên dữ liệu lớn — những bộ dữ liệu khổng lồ góp phần tạo ra các công cụ vận hành hiệu quả hơn trong tất cả các lĩnh vực .
Khả năng tiếp cận dữ liệu liên tục tăng nhờ những tiến bộ công nghệ và kỹ thuật thu thập. Xu hướng và hành vi của mỗi cá nhân có thể được theo dõi và dựa trên thông tin thu thập được, những dự đoán sẽ được đưa ra.
Tuy nhiên, lượng dữ liệu ngày càng tăng này không có cấu trúc và sắp xếp, phân tích để phục vụ việc ra quyết định. Quá trình này rất phức tạp và tốn thời gian – do đó, lĩnh vực khoa học dữ liệu đã ra đời.
Lịch sử Khoa học Dữ liệu
Thuật ngữ “khoa học dữ liệu” ban đầu được sử dụng để thay thế cho thuật ngữ “khoa học máy tính” vào năm 1960. Khoảng 15 năm sau, thuật ngữ này được sử dụng để chỉ các cuộc khảo sát về các phương pháp xử lý dữ liệu dùng trong các các ứng dụng.
Năm 2001, khoa học dữ liệu được giới thiệu như một ngành độc lập. Tạp chí Harvard Business Review đã xuất bản một bài báo vào năm 2012 mô tả khoa học dữ liệu là “công việc quyến rũ nhất thế kỷ 21”.
Ứng dụng của Khoa học dữ liệu
Khoa học dữ liệu kết hợp các công cụ của nhiều lĩnh vực để thu thập một tập dữ liệu, xử lý và trích xuất các thông tin hữu ích từ tập dữ liệu đó và diễn giải chúng nhằm phục vụ mục đích ra quyết định. Các lĩnh vực tạo thành ngành khoa học dữ liệu bao gồm khai phá dữ liệu, thống kê, học máy, phân tích (analytics) và lập trình.
Khai phá dữ liệu áp dụng các thuật toán cho những tập dữ liệu phức tạp để tìm ra các hình mẫu (pattern). Những hình mẫu này sau đó được dùng để trích xuất những dữ liệu liên quan và hữu ích từ tập dữ liệu này. Các phương pháp thống kê hoặc phân tích dự đoán sử dụng những dữ liệu được trích xuất này để đánh giá các sự kiện có khả năng xảy ra trong tương lai, dựa trên những gì dữ liệu cho thấy đã xảy ra trong quá khứ.
Học máy là một công cụ trí tuệ nhân tạo nhằm xử lý khối lượng dữ liệu lớn mà con người không thể tự xử lý. Học máy hoàn thiện mô hình quyết định dùng bởi phân tích dự đoán bằng cách khớp khả năng một sự kiện sẽ xảy ra với những gì thực sự diễn ra tại thời điểm dự đoán.
Bằng cách sử dụng các thuật toán, nhà phân tích dữ liệu thu thập và xử lý những dữ liệu có cấu trúc từ giai đoạn học máy. Nhà phân tích diễn giải, chuyển đổi và tóm tắt dữ liệu thành một ngôn ngữ mà những người ra quyết định có thể hiểu được. Khoa học dữ liệu có thể được áp dụng trong mọi bối cảnh và khi vai trò của nhà khoa học dữ liệu ngày càng phát triển, lĩnh vực này sẽ mở rộng để bao gồm kiến trúc dữ liệu, kỹ thuật dữ liệu và quản trị dữ liệu.
Các nhà khoa học dữ liệu
Nhà khoa học dữ liệu thu thập, phân tích và diễn giải một khối lượng lớn dữ liệu, thường với mục đích cải thiện hoạt động của một doanh nghiệp. Họ phát triển các mô hình thống kê để phân tích dữ liệu và phát hiện các mẫu hình (pattern), xu hướng và mối quan hệ trong tập dữ liệu. Thông tin này có thể được sử dụng để dự đoán hành vi của người tiêu dùng hoặc để xác định các rủi ro trong kinh doanh và hoạt động vận hành.
Vai trò của nhà khoa học dữ liệu giống như một người kể chuyện, trình bày theo cách dễ hiểu những thông tin hữu ích có được dữ liệu cho những người ra quyết định.
Khoa học dữ liệu ngày nay
Hiện nay, nhiều công ty đang áp dụng dữ liệu lớn và khoa học dữ liệu vào các hoạt động vận hành hàng ngày để mang lại giá trị cho người tiêu dùng. Các tổ chức ngân hàng đang tận dụng dữ liệu lớn để tăng cường khả năng phát hiện gian lận. Các hãng quản lý tài sản đang sử dụng dữ liệu lớn để dự đoán khả năng giá chứng khoán tăng hoặc giảm tại một thời điểm nhất định.
Các công ty như Netflix khai phá dữ liệu lớn để quyết định sẽ cung cấp sản phẩm nào cho người dùng. Netflix cũng sử dụng các thuật toán để tạo đề xuất được cá nhân hóa cho người dùng dựa trên lịch sử xem. Khoa học dữ liệu đang phát triển với tốc độ nhanh chóng và các ứng dụng của nó sẽ tiếp tục thay đổi cuộc sống trong tương lai.
Vân Nguyễn (Dịch từ Investopedia)
Bình luận (0
)