Khi chạy thống kê, trong phần lớn các trường hợp bạn sẽ cần đến sự trợ giúp của phần mềm thống kê. Các công cụ này được xây dựng để thực hiện các phép tính như t -test, chi-square, tương quan, v.v. Excel không được thiết kế để phục vụ phân tích dữ liệu. Nhưng bạn có thể làm được điều này với tiện ích bổ sung của Excel: Công cụ phân tích dữ liệu Toolpak.
Toolpak bao gồm một loạt các chức năng thống kê hữu ích. Trong bài viết dưới đây, hãy cùng FUNiX khám phá xem chúng ta có thể làm với thống kê Excel.
1. Thêm công cụ phân tích dữ liệu Toolpak
Mặc dù bạn có thể thực hiện thống kê mà không cần Toolpak, nhưng nó sẽ giúp công việc này dễ dàng hơn rất nhiều. Trong Excel 2016, để cài đặt Toolpak hãy đi tới Tệp> Tùy chọn> Phần bổ trợ (File > Options > Add-ins).
Nhấp vào Bắt đầu (Go) bên cạnh “Quản lý: Phần bổ trợ Excel” (Manage: Excel Add-ins).
Trong cửa sổ hiện ra, hãy tích vào Analysis Toolpak, sau đó bấm OK .
Nếu thành công, bạn sẽ thấy nút Phân tích Dữ liệu (Data Analysis) trong tab Dữ liệu, được nhóm trong phần Phân tích (Analysis):
2. Thống kê mô tả trong Excel
Dù bạn đang chạy thử nghiệm thống kê nào, trước tiên bạn nên chạy thống kê mô tả trong Excel. Nó sẽ cung cấp cho bạn thông tin như trung bình, trung vị, phương sai, độ lệch chuẩn và sai số, độ nhọn, độ lệch và nhiều số liệu khác.
Rất dễ để chạy thống kê mô tả trong Excel. Nhấp vào Phân tích dữ liệu (Data Analysis) trong tab Dữ liệu (Data), chọn Thống kê mô tả (Descriptive Statistics) và chọn phạm vi đầu vào (Input).
Nhấp vào mũi tên bên cạnh trường phạm vi đầu vào, nhấp và kéo để chọn dữ liệu của bạn và nhấn Enter.
Sau đó, hãy cho Excel biết liệu dữ liệu của bạn có nhãn không, bạn muốn kết quả trong trên cùng một trang tính hay một trang tính mới, bạn có muốn thống kê tóm tắt không và các tùy chọn khác.
Sau đó, click OK và bạn sẽ nhận được thống kê mô tả của mình:
>>> Đọc ngay: Nghề phân tích dữ liệu data analysis tại Việt Nam
3. T-test trong Excel
T -test là một trong những kiểm tra thống kê cơ bản nhất. Để thực hiện, click vào nút Phân tích Dữ liệu (Data Analysis) và kéo xuống cho đến khi bạn thấy các tùy chọn t -test.
Ở đây bạn sẽ thấy ba lựa chọn:
- t-Test: Paired Two Sample for Means nên được chọn khi các phép đo hoặc quan sát của bạn được bắt cặp (paired). Sử dụng lựa chọn này khi bạn thực hiện hai phép đo của cùng một đối tượng, ví dụ như đo huyết áp trước và sau khi can thiệp y tế.
- t-Test: Two-Sample Assuming Equal Variance (Giả sử hai mẫu có phương sai bằng nhau) nên được sử dụng khi các phép đo của bạn độc lập với nhau. Điều này thường có nghĩa là chúng được thực hiện trên hai nhóm đối tượng khác nhau.
- t-Test: Two-Sample Assuming Unequal Variances (Giả sử hai mẫu có phương sai khác nhau) cũng được dùng cho các phép đo độc lập, nhưng khi phương sai không bằng nhau.
Sau đó hãy nhập hai tập dữ liệu của bạn vào các hộp phạm vi đầu vào. Để giá trị alpha ở mức 0,05 trừ khi bạn muốn thay đổi nó – nếu bạn không biết điều đó có nghĩa là gì, hãy bỏ qua. Cuối cùng, click OK.
Excel sẽ cung cấp cho bạn kết quả trong một trang tính mới (trừ khi bạn chọn Phạm vi đầu ra/Output range và một ô trong trang tính hiện tại):
Bạn đang nhìn thấy giá trị P ở đây. Nếu P nhỏ hơn 0,05, bạn có phương sai không bằng nhau. Vì vậy, để chạy t -test, bạn nên sử dụng tùy chọn phương sai không bằng nhau.
Để chạy t -test, hãy chọn bài test thích hợp từ cửa sổ Công cụ phân tích (Analysis Tools) và chọn cả hai bộ dữ liệu của bạn theo cách tương tự như bạn đã làm đối với F-test. Để giá trị alpha là 0,05 và click OK .
Kết quả sẽ bao gồm mọi thứ bạn cần báo cáo cho một t-test: trung bình, bậc tự do (df), thống kê t và giá trị P cho cả thử nghiệm một phía (one-tailed test) và hai phía (two-tailed test). Nếu giá trị P nhỏ hơn 0,05 thì hai mẫu có sự khác biệt đáng kể.
4. ANOVA trong Excel
Công cụ phân tích dữ liệu Toolpak cung cấp ba loại phân tích phương sai (analysis of variance, hay ANOVA). Tuy nhiên, nó không cung cấp khả năng chạy các bài test cần thiết sau đó như Tukey hoặc Bonferroni. Nhưng bạn có thể check xem liệu có mối quan hệ giữa một vài biến số khác nhau hay không.
Ba bài kiểm tra ANOVA trong Excel là:
- ANOVA: Single Factor phân tích phương sai với một biến phụ thuộc và một biến độc lập. Tốt hơn hết bạn nên sử dụng nhiều t-test khi có nhiều hơn hai nhóm.
- ANOVA: Two-Factor with Replication tương tự như t -test được bắt cặp (paired t-test); nó liên quan đến nhiều phép đo trên các đối tượng đơn lẻ. Phần “hai nhân tố” (two-factor) của thử nghiệm này chỉ ra rằng có hai biến độc lập.
- ANOVA: Two-Factor without Replication liên quan đến hai biến độc lập, nhưng không lặp lại trong phép đo.
Chúng ta sẽ xem xét phân tích một nhân tố. Cụ thể, chúng ta sẽ xem xét ba bộ số, được gắn nhãn “Intervention 1”, “Intervention 2” và “Intervention 3”. Để chạy ANOVA, hãy nhấp vào Data Analysis, sau đó chọn ANOVA: Single Factor.
Chọn phạm vi đầu vào và cho Excel biết liệu các nhóm của bạn nằm trong cột hay hàng. Tôi chọn “Labels in first row” (Nhãn ở hàng đầu tiên) để tên nhóm được hiển thị trong kết quả.
Sau khi nhấn OK, chúng ta nhận được kết quả sau:
Giá trị P nhỏ hơn 0,05, vì vậy chúng ta có một kết quả có ý nghĩa. Điều đó có nghĩa là có sự khác biệt đáng kể giữa ít nhất hai trong số các nhóm trong bài test. Nhưng vì Excel không cung cấp các bài test để xác định nhóm nào khác nhau, nên bạn chỉ có thể xem xét các giá trị trung bình được hiển thị trong phần tóm tắt. Trong ví dụ trên, có vẻ như Intervention 3 là nhóm khác biệt.
>>> Đọc ngay: Phân tích dữ liệu là gì? Ứng dụng của nghề phần tích dữ liệu data Analyst
5. Tương quan trong Excel
Tính toán tương quan trong Excel khá đơn giản so với t -test hoặc ANOVA. Sử dụng nút Phân tích Dữ liệu để mở cửa sổ Công cụ Phân tích/Analysis Tools và chọn Tương quan/Correlation.
Chọn phạm vi đầu vào, xác định nhóm ở dạng cột hoặc hàng và cho Excel biết liệu bạn có nhãn hay không. Sau đó, click OK .
Bạn có thể thấy các nhóm có tương quan như thế nào với nhau. Giá trị 1 là tương quan tuyệt đối, nghĩa là các giá trị hoàn toàn giống nhau. Giá trị tương quan càng gần 1 thì quan hệ tương quan càng mạnh.
6. Hồi quy trong Excel
Hồi quy là một trong những bài test thống kê được sử dụng phổ biến nhất.
Giả sử biến phụ thuộc là huyết áp, và hai biến độc lập là cân nặng và lượng muối ăn. Chúng ta muốn xem cái nào sẽ dự đoán huyết áp tốt hơn.
Nhấp vào Phân tích dữ liệu và chọn Hồi quy (Regression). Bạn cần phải cẩn thận khi điền vào các hộp phạm vi đầu vào. Hộp Input Y Range phải chứa một biến phụ thuộc của bạn. Hộp Input Y Range có thể bao gồm nhiều biến độc lập. Đối với một hồi quy đơn giản, bạn không cần phải lo lắng về phần còn lại.
Sau khi nhấn OK , bạn sẽ nhận được một danh sách kết quả.
Như bạn thấy, giá trị P cho cân nặng lớn hơn 0,05, vì vậy không có mối quan hệ đáng kể nào giữa cân nặng và huyết áp. Tuy nhiên, giá trị P của muối dưới 0,05, cho thấy rằng đây là một yếu tố dự đoán huyết áp tốt.
>>> Xem thêm: Cách tạo Pivot table để phân tích dữ liệu trong Excel
Kết luận
Mặc dù Excel không được biết đến với sức mạnh thống kê, nhưng nó có một số chức năng thực sự hữu ích mà công cụ thống kê Data Analysis Toolpak là một ví dụ. Hy vọng sau bài viết này bạn đọc đã học được cách sử dụng Toolpak và có thể tự mình tìm hiểu cách sử dụng nhiều chức năng của nó.
>>> Xem thêm bài viết liên quan:
- Phân tích dữ liệu kinh doanh là làm gì năm 2022
- Data analyst là gì? Tất cả những gì cần biết về nghề phân tích dữ liệu Data analyst
- Trang bị Kỹ năng phân tích dữ liệu cho người mới
- Nhà phân tích dữ liệu làm gì: mô tả, trách nhiệm?
- Giải đáp về Các loại nhà phân tích dữ liệu Data Analyst
Vân Nguyễn
Dịch từ: https://www.makeuseof.com/tag/data-analysis-excel/
Bình luận (0
)