第一章 数据特征分析

  • Post author:
  • Post category:其他


一、几个基础分析思路

  • 分布分析:研究数据的分布特征、分布类型,按定量、定性数据区分基本统计量
  • 对比分析:两个互相联系的指标进行比较
  • 统计分析:对定量数据进行统计分析,常从集中趋势和离中趋势两个方面分析
  • 帕累托分析:贡献度分析,帕累托原则:20/80定律
  • 正太性检测:利用观测数据判断总体是否服从正态分布的检验,是统计判决中重要的一种特殊的拟合优度假设检验
  • 相关性分析:分析连续变量之间的线性相关程度的强弱

二、分布分析

1.极差:max-min

def d_range(df,*cols):
    krange = []
    for col in cols:
        crange = df[col].max() - df[col].min()
        krange.append(crange)
    return(krange)
# 创建函数求极差

2.频率分布情况 – 定量字段

① 通过直方图直接判断分组组数

data[key2].hist(bins=10)

② 求出分组区间

gcut = pd.cut(data[key2],10,right=False)
# pd.cut(x, bins, right):按照组数对x分组,且返回一个和x同样长度的分组dataframe,right → 是否右边包含,默认True

③ 求出目标字段下频率分布的其他统计量 → 频数,频率,累计频率

r_zj = pd.DataFrame(gcut_count)
r_zj.rena



版权声明:本文为qq_42865513原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。