计算 pandas dataframe 中的方差
本教程将演示如何计算 python pandas dataframe 中的方差。
方差的定义
统计方差是数据离散度的度量。通过方差,我们可以知道数据中的分布。
数据点离它们的平均值越远,方差越大。方差是平方标准差。
方差分三步计算:
-
确定每个数据点与平均值的差异程度。
-
计算每个差值的平方。
-
将平方差的总和除以样本中的观察数(减 1)。
我们使用 dataframe 对象调用 var()
方法来计算方差。此方法接受四个可选参数。
语法:
# python 3.x
variance = df.var(axis, skipna, level, ddof)
axis
:指定沿哪个轴计算方差。值 0 表示一列,值 1 表示一行。默认值为 0(列轴)。skipna
:指定是否跳过空值。默认值是 true。level
:与多索引(分层)轴的某个级别一起计数,折叠成一个系列。字符串指定级别的名称。ddof
:代表自由度。n – ddof
是计算中使用的除数,其中 n 是元素的数量。numeric_only
:仅使用浮点、整数和布尔列。如果 none,一切都会先尝试,然后只使用数字数据,对于 series,没有实现。
计算 pandas dataframe 中单列的方差
在调用 var()
方法计算方差时,我们可以通过在方括号中指定 dataframe 的列名来计算单列的方差。
示例代码:
# python 3.x
import pandas as pd
df = pd.dataframe(
{"c1": [2, 7, 5, 4], "c2": [4, 1, 8, 2], "c3": [6, 6, 6, 5], "c4": [3, 2, 8, 7]}
)
display(df)
c1_variance = df["c1"].var()
print("variance of c1:", c1_variance)
输出:
计算整个 pandas dataframe 的方差
我们可以使用 dataframe 对象的内置方法来计算整个 dataframe 的均值、标准差和方差。
在下面的代码中,我们有一个 dataframe,我们计算了所有这三个变量并将它们存储在另一个名为 stats
的 dataframe 中。
mean()
方法计算平均值。std()
方法计算标准差,var()
方法计算整个 dataframe 的方差。
最后,我们展示了 stats
dataframe。
示例代码:
# python 3.x
import pandas as pd
df = pd.dataframe(
{"c1": [2, 7, 5, 4], "c2": [4, 1, 8, 2], "c3": [6, 6, 6, 5], "c4": [3, 2, 8, 7]}
)
display(df)
stats = pd.dataframe()
stats["mean"] = df.mean()
stats["std_dev"] = df.std()
stats["variance"] = df.var()
display(stats)
输出:
计算 pandas dataframe 沿列轴的方差
为了逐列计算方差,我们将指定 axis=0
作为 var()
方法的参数。默认情况下,方差是按列计算的。
示例代码:
# python 3.x
import pandas as pd
df = pd.dataframe(
{"c1": [2, 7, 5, 4], "c2": [4, 1, 8, 2], "c3": [6, 6, 6, 5], "c4": [3, 2, 8, 7]}
)
display(df)
df.var(axis=0)
计算 pandas dataframe 沿行轴的方差
我们将指定 axis=1
作为 var()
方法的参数,以计算行值的方差。
示例代码:
# python 3.x
import pandas as pd
df = pd.dataframe(
{"c1": [2, 7, 5, 4], "c2": [4, 1, 8, 2], "c3": [6, 6, 6, 5], "c4": [3, 2, 8, 7]}
)
display(df)
df.var(axis=1)
输出:
转载请发邮件至 1244347461@qq.com 进行申请,经作者同意之后,转载请以链接形式注明出处
本文地址:
相关文章
pandas dataframe dataframe.shift() 函数
发布时间:2024/04/24 浏览次数:133 分类:python
-
dataframe.shift() 函数是将 dataframe 的索引按指定的周期数进行移位。
python pandas.pivot_table() 函数
发布时间:2024/04/24 浏览次数:82 分类:python
-
python pandas pivot_table()函数通过对数据进行汇总,避免了数据的重复。
pandas read_csv()函数
发布时间:2024/04/24 浏览次数:254 分类:python
-
pandas read_csv()函数将指定的逗号分隔值(csv)文件读取到 dataframe 中。
pandas 多列合并
发布时间:2024/04/24 浏览次数:628 分类:python
-
本教程介绍了如何在 pandas 中使用 dataframe.merge()方法合并两个 dataframes。
pandas loc vs iloc
发布时间:2024/04/24 浏览次数:837 分类:python
-
本教程介绍了如何使用 python 中的 loc 和 iloc 从 pandas dataframe 中过滤数据。
在 python 中将 pandas 系列的日期时间转换为字符串
发布时间:2024/04/24 浏览次数:894 分类:python
-
了解如何在 python 中将 pandas 系列日期时间转换为字符串