Cách nhập dữ liệu Excel vào tập lệnh Python bằng Pandas

Cách nhập dữ liệu Excel vào tập lệnh Python bằng Pandas

Chia sẻ kiến thức 26/09/2023

Microsoft Excel là phần mềm bảng tính được sử dụng rộng rãi nhất trên thế giới. Nó giao diện thân thiện với người dùng và các công cụ tích hợp mạnh mẽ giúp việc làm việc với dữ liệu trở nên đơn giản.
VIDEO MUO TRONG NGÀY

 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

 
 

Nhưng nếu muốn xử lý dữ liệu nâng cao hơn, nhu cầu của bạn sẽ vượt xa khả năng của Excel và bạn sẽ cần đến ngôn ngữ lập trình/tập lệnh như Python. Thay vì sao chép dữ liệu của bạn vào cơ sở dữ liệu theo cách thủ công, đây là hướng dẫn về cách tải dữ liệu Excel vào Python bằng Pandas.

Lưu ý: Nếu bạn chưa từng sử dụng Python trước đây thì hướng dẫn này có thể hơi khó. 

Pandas là gì?

Thư viện phân tích dữ liệu Python (“Pandas”) là thư viện nguồn mở dành cho ngôn ngữ lập trình Python được sử dụng để phân tích dữ liệu và thao tác dữ liệu.

Pandas tải dữ liệu vào các đối tượng Python được gọi là Dataframes, lưu trữ dữ liệu theo hàng và cột giống như cơ sở dữ liệu truyền thống. Khi một Dataframe được tạo, nó có thể được thao tác bằng Python, mở ra một thế giới khả năng.

Cài đặt Pandas

Lưu ý: Bạn phải có Python 2.7 trở lên để cài đặt Pandas.

Để bắt đầu làm việc với Pandas trên máy của bạn, bạn cần nhập thư viện Pandas. Nếu bạn đang tìm kiếm một giải pháp mạnh mẽ, bạn có thể tải xuống Bản phân phối Python Anaconda, có tích hợp sẵn Pandas. Nếu bạn không sử dụng Anaconda, Pandas rất dễ cài đặt trong thiết bị đầu cuối của bạn.

Pandas là gói PyPI, nghĩa là bạn có thể cài đặt bằng PIP cho Python thông qua dòng lệnh. Các hệ thống Mac hiện đại đi kèm với PIP. Đối với các hệ thống Windows, Linux và cũ hơn, thật dễ dàng tìm hiểu cách cài đặt PIP cho Python.

Khi bạn đã mở terminal, cài đặt phiên bản Pandas mới nhất bằng lệnh:

>> pip install pandas

Pandas cũng yêu cầu thư viện NumPy, cài đặt thư viện này trên dòng lệnh:

>> pip install numpy

Bây giờ bạn đã cài đặt Pandas và sẵn sàng tạo DataFrame đầu tiên của mình!

Chuẩn bị dữ liệu Excel

Trong ví dụ này, hãy sử dụng tập dữ liệu mẫu: sổ làm việc Excel có tiêu đề Cars.xlsx.

 

Tập dữ liệu này hiển thị hãng (make), model, màu sắc (color) và năm (year) của ô tô được nhập vào bảng. Bảng được hiển thị dưới dạng một phạm vi Excel. Pandas đủ thông minh để đọc dữ liệu một cách thích hợp.

Workbook này được lưu vào thư mục Desktop, đây là đường dẫn file được sử dụng:

 /Users/grant/Desktop/Cars.xlsx

Bạn sẽ cần biết đường dẫn tệp của sổ làm việc để sử dụng Pandas. Hãy bắt đầu bằng cách mở Visual Studio Code để viết kịch bản. Nếu bạn không có trình soạn thảo văn bản, chúng tôi khuyên dùng Visual Studio Code hoặc Atom Editor .

Viết tập lệnh Python

Bây giờ chúng ta sẽ kết hợp Python và sổ làm việc Cars (ô tô) của chúng ta để tạo một Pandas DataFrame.

Nhập thư viện Python

Mở trình soạn thảo văn bản và tạo một tệp Python mới. Hãy gọi nó là Script.py.

Để làm việc với Pandas trong tập lệnh của bạn, bạn sẽ cần nhập nó vào code của mình. Việc này được thực hiện bằng một dòng code:

import pandas as pd

Ở đây chúng ta đang tải thư viện Pandas và gắn nó vào một biến “pd”. Bạn có thể sử dụng bất kỳ tên nào bạn muốn, chúng tôi đang sử dụng “pd” là viết tắt của Pandas.

Để làm việc với Excel bằng Pandas, bạn cần một đối tượng bổ sung có tên ExcelFile. ExcelFile được tích hợp vào hệ sinh thái Pandas nên bạn nhập trực tiếp từ Pandas:

from pandas import ExcelFile

Làm việc với đường dẫn tệp

Để cấp cho Pandas quyền truy cập vào sổ làm việc của bạn, bạn cần hướng tập lệnh của mình đến vị trí của tệp. Cách dễ nhất để thực hiện việc này là cung cấp cho tập lệnh của bạn đường dẫn đầy đủ tới sổ làm việc.

Đường dẫn của chúng ta trong ví dụ này: /Users/grant/Desktop/Cars.xlsx

Bạn sẽ cần đường dẫn tệp này được tham chiếu trong tập lệnh của mình để trích xuất dữ liệu. Thay vì tham chiếu đường dẫn bên trong hàm Read_Excel, hãy giữ cho code được gọn gàng bằng cách lưu trữ đường dẫn trong một biến:

Cars_Path = '/Users/grant/Desktop/Cars.xlsx'

Bây giờ bạn đã sẵn sàng trích xuất dữ liệu bằng hàm Pandas!

Trích xuất dữ liệu Excel bằng Pandas.Read_Excel()

Với Pandas được nhập và bộ biến đường dẫn của bạn, giờ đây bạn có thể sử dụng các hàm trong đối tượng Pandas để hoàn thành nhiệm vụ của chúng tôi.

Hàm bạn cần sử dụng có tên thích hợp là  Read_Excel. Hàm Read_Excel lấy đường dẫn tệp của Sổ làm việc Excel và trả về đối tượng DataFrame có nội dung của Sổ làm việc. Pandas mã hóa chức năng này là:

pandas.read_excel(path)

Đối số “path” sẽ là đường dẫn đến sổ làm việc Cars.xlsx và chúng tôi đã đặt chuỗi đường dẫn thành biến Cars_Path.

Bạn đã sẵn sàng tạo đối tượng DataFrame! Hãy kết hợp tất cả lại với nhau và đặt đối tượng DataFrame thành một biến có tên “DF”:

DF = pd.read_excel(Cars_Path)

Cuối cùng, bạn muốn xem DataFrame, hãy in kết quả. Thêm câu lệnh in vào cuối tập lệnh của bạn, sử dụng biến DataFrame làm đối số:

print(DF)

Đã đến lúc chạy tập lệnh trong terminal của bạn!

Chạy tập lệnh Python

Mở terminal hoặc dòng lệnh của bạn và điều hướng đến thư mục chứa tập lệnh của bạn. Trong trường hợp này, tôi có “Script.py” nằm trên màn hình nền. Để thực thi tập lệnh, hãy sử dụng lệnh python theo sau là tệp tập lệnh:

 

Python sẽ kéo dữ liệu từ “Cars.xlsx” vào DataFrame mới của bạn và in DataFrame đến terminal!

Tìm hiểu kỹ hơn về đối tượng DataFrame

Thoạt nhìn, DataFrame trông rất giống một bảng Excel thông thường. Do đó, Pandas DataFrames rất dễ hiểu.

Các tiêu đề của bạn được gắn nhãn ở đầu tập dữ liệu và Python đã điền vào các hàng tất cả thông tin của bạn được đọc từ sổ làm việc “Cars.xlsx”.

Lưu ý cột ngoài cùng bên trái, chỉ mục (index) bắt đầu từ 0 và đánh số các cột. Pandas sẽ áp dụng chỉ mục này cho DataFrame của bạn theo mặc định, điều này có thể hữu ích trong một số trường hợp. Nếu không muốn tạo chỉ mục này, bạn có thể thêm một đối số bổ sung vào code của mình:

DF = pd.read_excel(Cars_Path, index=False)

Việc đặt đối số “index” thành Fase sẽ xóa cột chỉ mục, chỉ để lại dữ liệu Excel của bạn.

Làm được nhiều việc hơn với Python

Bây giờ bạn có khả năng đọc dữ liệu từ bảng tính Excel, bạn có thể áp dụng lập trình Python theo bất kỳ cách nào bạn chọn. Làm việc với Pandas là cách đơn giản để các lập trình viên Python có kinh nghiệm thao tác dữ liệu được lưu trữ trong Sổ làm việc Excel.

Tìm hiểu ngay chương trình học công nghệ thông tin trực tuyến tại FUNiX ở đây:

Vân Nguyễn

Dịch từ: https://www.makeuseof.com/tag/import-excel-data-python-scripts-pandas/

ĐĂNG KÝ TƯ VẤN HỌC LẬP TRÌNH TẠI FUNiX

Bình luận (
0
)

Bài liên quan

  • Tầng 0, tòa nhà FPT, 17 Duy Tân, Q. Cầu Giấy, Hà Nội
  • info@funix.edu.vn
  • 0782313602 (Zalo, Viber)        
Chat Button
Chat với FUNiX GPT ×

yêu cầu gọi lại