一、几个基础分析思路
- 分布分析:研究数据的分布特征、分布类型,按定量、定性数据区分基本统计量
- 对比分析:两个互相联系的指标进行比较
- 统计分析:对定量数据进行统计分析,常从集中趋势和离中趋势两个方面分析
- 帕累托分析:贡献度分析,帕累托原则:20/80定律
- 正太性检测:利用观测数据判断总体是否服从正态分布的检验,是统计判决中重要的一种特殊的拟合优度假设检验
- 相关性分析:分析连续变量之间的线性相关程度的强弱
二、分布分析
1.极差:max-min
def d_range(df,*cols):
krange = []
for col in cols:
crange = df[col].max() - df[col].min()
krange.append(crange)
return(krange)
# 创建函数求极差
2.频率分布情况 – 定量字段
① 通过直方图直接判断分组组数
data[key2].hist(bins=10)
② 求出分组区间
gcut = pd.cut(data[key2],10,right=False)
# pd.cut(x, bins, right):按照组数对x分组,且返回一个和x同样长度的分组dataframe,right → 是否右边包含,默认True
③ 求出目标字段下频率分布的其他统计量 → 频数,频率,累计频率
r_zj = pd.DataFrame(gcut_count)
r_zj.rena
版权声明:本文为qq_42865513原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。