最近看了head first系列,重读了《深入浅出数据分析》,发现这是一本很好的书,在思维上开阔的不错,通过案例培养数据思维,把思路讲的很清楚,现总结笔记如下:
一、数据分析引言:分解数据
1、确定——分解——评估——决策
重在如何将一个大问题分解成若干易行的小问题,将手头的资料汇总为有用的格式。
2、心智模型:你对外界的假设和你确信的观点。心智模型决定你的观察结果。统计模型取决于心智模型。心智模型应当包括你不了解的因素。也就是说你以为这个世界是什么样子的,你就会看到什么样子的世界,不能以偏概全。
3、从原始数据中获得信息,从而深入挖掘数据。
二、实验:检验你的理论
- 客户调查
- 比较法:这个案例中运用了对比分析法、平均分析法、交叉分析法。
- 观察研究法:被研究的人自行决定自己属于哪个群体的一种研究方法。
- 混杂因素:研究对象的个人差异,他们不是你试图进行比较的因素,最终会导致分析结果的敏感度变差。
- 控制组(对照组):一组体现现状的处理对象,未经过任何新的处理。有比较就要有对照,就要有控制组和实验组。
实验是检验真理的唯一标准。
三、最优化:寻找最大值
- 约束条件:需要考虑的因素,c
- 决策变量:可以控制的因素,x
- 目标函数:p
- 任何最优化问题都有一些约束条件和一个目标函数
- 可行区域:约束条件范围内的区域
- “一切模型都是错误的,但其中一些是有用的”
- 详细的假设条件,以帮助优化模型。
四、数据图形化
- 散点图:散点图是探索性数据分析的工具,X轴自变量,Y轴因变量。可以用R创建散点图
五、假设检验:假设并非如此
- 变量之间正相关/负相关
- 假设检验的核心是证伪。只需要剔除无法证实的假设
六、贝叶斯统计
- 条件概率:以一件事情发生为前提的另一件事发生的概率。
P(+|L):表示在患流感的前提下,试验结果为阳性的概率。
- 基础概率:又叫事前概率。
- 贝叶斯规则:
PL+=
P(+|L)
P
+
L+P(+|-L)
七、主观概率:信念数字化
- 主观概率:用一个数字形式的概率表示自己对某事的确认程度。是对分歧内容和分歧大小的一种精确规范。
- 标准偏差:分析点与数据集平均值的差距。Excel里计算标准差的公式是STDEV
八、启发法:凭人类的天性作分析
- 启发法:一种解决问题的方法,可能会得出正确的答案,但不保证得出最优化的答案。
- 快省树:描述启发法的图形。快:完成这个过程费时不多;省:不需要大量认知资源。
九、直方图
- 直方图:显示数据点在数值范围内的分布情况