【Python】pandas的describe()参数

  • Post author:
  • Post category:python


Pandas提供describe方法,可以查看各列的计数、均值、最大最小值等,功能强大。下面介绍一种可根据自身要求,添加各个特征的其他描述的方法。


统计值变量说明:

count:数量统计,此列共有多少有效值

mean:均值

std :标准差

min:最小值

25%:四分之一分位数

50%:二分之一分位数

75%:四分之三分位数

max:最大值

举例:


使用kaggle中titanic的数据进行分析。PassengerId为乘客编号,1~891,共891条。Survived为是否获救,获救值为1,未获救值为0,数据有效总量为891条。

由上到下:

  1. count:总有效数据条数。
  2. mean:均值,0.383838说明平均值更靠近0,也就是只有大概三分之一的人活下来(有三分之一数值为1)
  3. std:方差。
  4. min:最小值。
  5. 25%:0.25分值,223.5能够更容易看出,是1~891的0.25分值。而Survived的0说明从0到1,后面的25%都未获救。
  6. 50%:0.5分值,即中位数,同理25%。
  7. 75%:0.75分值,同理25%。可以看到到这时Survived变为1,说明至少前25%的人获救了。
  8. max:最大值。



版权声明:本文为xiaohutong1991原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。