扫码一下
查看教程更方便
pandas 处理以下三种数据结构:
这些数据结构建立在 numpy 数组之上,这也意味着它们速度很快。
了解这些数据结构的最佳方式是,可以这样认为,高维数据结构是其低维数据结构的容器。比如 dataframe
是 series
的容器,panel
是 dataframe 的容器。
数据结构 | 维度 | 描述 |
---|---|---|
series | 1 | 一维标记齐次数组,大小不可变。 |
dataframe | 2 | 具有潜在异构类型列的通用 2d 标记、大小可变的表格结构。 |
panel | 3 | 一般 3d 标记的大小可变数组。 |
构建和处理二维或更多维数组是一个比较麻烦的任务,用户在编写函数时要考虑数据集的方向。但是使用 pandas 数据结构可以减少用户的脑力劳动。
例如,对于表格数据 (dataframe),考虑行和列的索引比考虑轴 0 和轴 1在语义上更有帮助。
所有 pandas 数据结构都是值可变的(可以更改),除了 series 之外数据结构大小也是可变的。series 数据结构大小不可变。
注意- dataframe 的使用是最广泛的并且是最重要的数据结构之一。panel 的使用要少得多。
series 是具有同构数据的一维数组状结构。例如,以下 series 是整数 10、23、56、……的集合。
10 | 23 | 56 | 17 | 52 | 61 | 73 | 90 | 26 | 72 |
dataframe 是一个具有异构数据的二维数组。例如,
姓名 | 年龄 | 性别 | 评分 |
---|---|---|---|
steve | 32 | male | 3.45 |
lia | 28 | female | 4.6 |
vin | 45 | male | 3.9 |
katie | 38 | female | 2.78 |
列 | 类型 |
---|---|
姓名 | string |
年龄 | integer |
性别 | string |
评分 | float |
面板是一种具有异构数据的三维数据结构。很难用图形表来表示面板。但是面板可以被描述为 dataframe 的容器。