pandas处理excel简单记录

前言

一个项目需要处理比较大量的Excel数据,正好找了个教程学习一下,顺便就当是记录+翻译了。

原始网址:https://www.dataquest.io/blog/excel-and-pandas/

简单使用

跳过安装这个库和相关的依赖库的过程。

1
2
3
4
5
6
7
8
9
10
11
import pandas as pd

excel_file = 'movies.xls'
try:
movie_sheet1 = pd.read_excel(excel_file, sheet_name="1900s")
movie_sheet2 = pd.read_excel(excel_file, sheet_name="2000s")
movie_sheet3 = pd.read_excel(excel_file, sheet_name="2010s")
except FileNotFoundError as e:
print("file not found")

print(type(movie_sheet1))

首先要操作excel,自然是得找到那个Excel文件,然后Excel文件有sheet表格,这里可以看到用三个对象分别代表这三个sheet表格。这几个对象都是DataFrame对象。

然后就可以通过DataFrame对象来访问表格的数据了。

处理数据

读取某个特定的值

现在就可以通过这个DataFrame对象来获取数据了,比如movie_sheet1['Title'][0]就会返回在Title列下边的第一个元素的值。

读取整行

可以通过data=movie_sheet1.iloc[0].values获取一行的数据,这里注意,第0行是从Excel表格里面的第2行开始的。

也可以通过一次来读取多行:data = movie_sheet1.iloc[[0, 1, 7]].values

读取整列

而如果你要读取一整列的话,只需要data = movie_sheet1['Title'].values

排序

如果要排序的话,只需要指定排序的列名就行:movie_sheet.sort_values(['Gross Earnings'], ascending=False)