描述统计学基本原理-06

一个维度的数据用不同的统计标准呈现出来的是完全不同的样貌。

这也是最容易迷惑受众的部分,对于分析业务为主的人来说,找到合适的统计标准是极为重要的。


1024更新

数据和统计基础

数据类型有:数值数据和分类数据。

数值数据 采用允许我们执行数学运算(例如计算狗的数量)的数值。

分类数据 用于标记一个群体或一组条目(例如狗的品种 —— 牧羊犬、拉布拉多、贵宾犬等)。

定序与定类

对于分类数据,我们分为两类: 定序与定类

分类定序数据 有排名顺序(例如与狗的互动从很差到很好排序)。

分类定类数据 没有排序或排名(如狗的品种)。

连续与离散数据

我们可以将数值数据视为连续或离散的。

连续数据 可以分为更小的单位,并且仍然存在更小的单位。一个例子就是狗的年龄 - 我们可以以年、月、日、小时、秒为单位测量年龄,但是仍然存在可以与年龄关联的更小单位。

离散数据 仅采用可数值。我们互动的狗的数量就是离散数据类型的一个例子。

连续数据是可以采用小数精度的数据类型,而离散数据是可计数的数据类型。

数值数据的四个方面

分析数值数据有四个主要方面:

  • Center 集中趋势测量
  • Spread 离散程度测量
  • Shape 数据的形状
  • Outliers 异常值

集中趋势测量

集中趋势测量的方式有三种:

  • Mean 均值
  • Median 中位数
  • Mode 众数

平均数、中位数、众数

平均数容易受到极值的影响,因为数据集并不能保证「干净」,各类运营数据经常受到扰动,比如薅羊毛党就会拉高营销活动的平均值。一般而言,可以用调整平均数(trimmed mean)消除异常波动,在数据集中删除一定比例的极大值和极小值,比如5%,然后重新计算平均数。

平均数、中位数、众数 描述的是数据的集中趋势,但是四分位数、方差、平方方差 描述的是数据的变异性

我们使用平均数还是中位数来描述数据集,很大程度上取决于我们数据集的形状以及是否有任何异常值。

要计算中位数,我们必须首先对值排序。

众数

无众数

如果数据集中的所有值出现的频数相同,则不存在众数。如果我们有一组数据集:

1, 1, 2, 2, 3, 3, 4, 4

则没有众数,因为所有观察值发生的次数相同。

多个众数
如果两个(或多个)数字出现的次数都是最多的,则有多个众数。如果我们有一组数据集:

1, 2, 3, 3, 3, 4, 5, 6, 6, 6, 7, 8, 9

其中有两个众数 3 和 6,因为这两个值都出现了三次,出现频率最高,而其他的值都只出现了一次。

1024更新结束


四分位数

数据分析师常将数据划分为四个部分,每一部分包含25%的数据集,划分的分割点叫做四分位数。

依次将数据升序排列,位于第25%位置的叫做第一四分位数Q1,位于第50%位置的叫做第二四分位数Q2,即中位数,位于第75%的叫做第三分位数Q3。这三个点,能辅助衡量数据的分布状态。

四分位数在统计学中的箱线图绘制方面应用也很广泛。所谓箱线图就是 由一组数据5 个特征绘制的一个箱子和两条线段的图形,这种直观的箱线图不仅能反映出一组数据的分布特征,而且还可以进行多组数据的分析比较。这五个特征值,即数据的最大值、最小值、中位数和两个四分位数。即:

数据的离散和变异:方差和标准差(重要概念)

方差和标准差的意义是相同的,但是标准差与原始数据的单位量纲相同,它更容易与平均数等度量比较。比如商品A的平均销量为11个,标准差为0.85个,于是我们知道这个商品卖的比较稳。

切比雪夫定理

其指出,至少有75%的数据值与平均数的距离在2个标准差以内,至少有89%的数据与平均数在3个标准差之内,至少有94%的数据与平均数在4个标准差以内。这是一个非常方便的定理,能快速掌握数据包含的范围。

假设上海地区的平均薪资是20k,标准差是5K,那么大约有90%的薪资,都在5k~35k的区间内。

如果数据本身符合正态(钟形)分布,那么切比雪夫定理的估算将进一步准确:68%的数据落在距离平均数一个标准差内,95%的数据值落在距离平均数2个标准差之内,几乎所有的数据落在三个标准差内。

箱线图

箱线图其实是展现一组数据的分布状况,它能读出数据的整体分布和倾斜趋势(偏态)。

如上图,红线位置,是各个城市中游水平的数据分析师能够获得的薪资标准,上边的蓝线区间为中上游,下边的蓝线区间为中下游,以此类推。简而言之,人群被四等分了。

我们解读一下:上海、北京、深圳的数据分析师,薪资范围接近,但是中上游水平的人,北京地区能获得更高的薪资,因为中位数的位置更高。西安、长沙、天津则不利于数据分析师的发展。杭州的水平接近北上深,但是薪资上限受到一定限制。

通过图表(直方图、散点图也算描述统计)快速解读数据,是数据分析师的基础能力之一。

本部分需要不断补充,参考 https://www.jianshu.com/p/26796aa9eaa0