统计基础知识之数据类型(上)

  • Post author:
  • Post category:其他


1、概述

传统意义上,数据就是类似销量、平台曝光率或是身高体重性别之类的,但随着大数据时代的到来,大家对于数据的认识越来越深刻,数据也不再是传统意义上的定义,除了常见的数字是数据以外,文字是数据,图片是数据,声音也是数据。

算法可以通过解析文档来获取有用的文本信息、可以通过文字识别来屏蔽敏感信息和词汇、可以通过图像识别实现自动化驾驶、可以通过识别声音信息转化为文字等等,以上这些应用场景只是凤毛麟角,在实际应用中,我们会和各种各样的数据打交道,不同的数据类型的处理方式也是不同的,今天和大家一起来唠一唠传统的数据类型以及描述性统计方法。

2、数据类型



按计量层次的不同:



分类数据、顺序数据、数值型数据

  • 分类数据:

    性别、职业、学科

    等都是典型的分类数据。比如男、女之间是相互独立的,没有排序性也不能进行数值运算,彼此之间完全没有联系,也叫做名义变量。一般会用数值来表示分类数据,比如0代表男、1代表女,这样便于数据的记录和处理(分类数据的表示方法也是门学问哈哈哈,以后有机会再写一篇文章和大家详细聊一聊这个问题)
  • 顺序数据:顺序数据其实和分类数据很像,唯一的不同是顺序数据之间是有排序性的,比如

    学历、一/二/三等奖、优等品/劣质品

    ,取值之间并不是相互独立的,比如学历在性质上可以有高中>初中>小学这样的联系,学历有高低,但是学历取值之间却不是可以计算的,也叫做有序变量。顺序变量也可以用数字去表示,详细用法我们下次再细说
  • 数值型变量:数值型变量是我们最常见的变量类型啦,比如

    年龄、收入、温度

    等等都是数值型变量,用数值去表示,可以进行数值运算,这个很好理解,就不赘述了





按时间状态的不同:

截面数据、时间序列数据、面板数据


  • 截面数据:结合字面意思就是截取了一面的数据,就是时间定格在某一刻之后的数据情况,很难理解对吧哈哈哈,我们举个例子说:比如2021年全国各个省市的GDP值统计,这个就是截面数据,时间固定在2021年。想象一下用Excel表格去存放数据的话,每一行代表一个城市,只有一列就是GDP的值,假设我们有30个城市,那么就是30行1列的数据框
  • 时间序列数据:时间序列数据和截面数据是完全对立的情况,时间序列数据是固定统计对象,在时间轴上去观察数据情况,比如每年就业人数,只有一个对象—就业人数,按照年份来进行统计,用Excel去放数据的话,就是一行多列,每一列都代表一年
  • 面板数据:面板数据是结合了截面数据和时间序列数据构成的数据结构,用于记录多个统计对象随着时间的数据情况,比如我们非常熟悉的股票数据,一支股票的价格以日为频率进行更新,也就是每天的价格都不一样,这是时间序列,多只股票每天的价格放在一起,就构成面板数据,m个股票n天的价格存放在Excel里,就是m行n列的面板数据

3、不同数据类型的绘图方式




分类数据、顺序数据:条形图、饼图、环形图




①条形图:横坐标表示组别,比如男女等,纵坐标代表频数







②饼图:每种颜色代表不同的类,面积的大小代表每一类的占比,频数越大、占比越高、面积越大

③ 环形图:其实和饼图都是一样的,就是中间挖空了  O(∩_∩)O哈哈~




数值型数据:直方图、箱线图、散点图、气泡图、雷达图




①箱线图:箱线图是一个能够通过5个数字来描述数据的分布的标准方式,这5个数字包括:最小值,第一分位数,中位数,第三分位数,最大值。可以看出数据的分布和集中程度,中间红色部分越小数据越集中(具体原因不理解的同学请坐等,我下一篇分享),同时也可以用来检查异常值(具体原因以后会跟大家分享)





②散点图:主要用来呈现横纵坐标之间的关系,假如有两列数据分别是年龄和收入,用横坐标表示年龄,纵坐标表示收入,散点图会呈现一种倒U型(一般来说,高收入人群集中在30-50岁左右)

③ 气泡图:气泡图和散点图很像,但是散点图我们只能展示两个变量的信息,因为我们只有横纵坐标,气泡图除了横纵坐标可以呈现数据外,另外加入了每个点的面积大小来表示第三个数据,泡泡越大,数据越大

比如下面这张图,画出了二手车的价格,横坐标为里程,开的越久里程越大,车越不值钱,所以横坐标越往右,泡泡是越小的,纵坐标表示车的原价,原价越高二手车自然也就越贵,所以纵坐标越往上泡泡越大

④ 雷达图:雷达图像蜘蛛网一样,变量有几个类型就有几个角,下面这个图画出了7个地区的销量,销量越高的地方,蓝色的点越远,角度越小也就越尖


本人才疏学浅,若有理解有误的地方,还请各路大佬批评指正♡♡♡


ok!感恩的心~




版权声明:本文为HRMEMEDA原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。