【Python】pandas的describe()参数 – 小飞侠

【Python】pandas的describe()参数

Post author:xfxia
Post published:2023年7月22日
Post category:python

Pandas提供describe方法，可以查看各列的计数、均值、最大最小值等，功能强大。下面介绍一种可根据自身要求，添加各个特征的其他描述的方法。

统计值变量说明：

count：数量统计，此列共有多少有效值

mean：均值

std ：标准差

min：最小值

25%：四分之一分位数

50%：二分之一分位数

75%：四分之三分位数

max：最大值

举例：

使用kaggle中titanic的数据进行分析。PassengerId为乘客编号，1~891，共891条。Survived为是否获救，获救值为1，未获救值为0，数据有效总量为891条。

由上到下：

count:总有效数据条数。
mean:均值，0.383838说明平均值更靠近0，也就是只有大概三分之一的人活下来（有三分之一数值为1）
std:方差。
min：最小值。
25%：0.25分值，223.5能够更容易看出，是1~891的0.25分值。而Survived的0说明从0到1，后面的25%都未获救。
50%：0.5分值，即中位数，同理25%。
75%：0.75分值，同理25%。可以看到到这时Survived变为1，说明至少前25%的人获救了。
max:最大值。

版权声明：本文为xiaohutong1991原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

原文链接：https://blog.csdn.net/xiaohutong1991/article/details/107647747