public:math:statistics

这是本文档旧的修订版!


统计学 Statistics

  • 平均值(Mean) 所有数据之和除以数据点的个数,以此表示数据集的平均大小;其数学定义为 $$ \bar{x}=\frac{x_1+x_2+x_3+ \dots +x_n}{n} $$
  • 方差(Variance)这一概念的目的是为了表示数据集中数据点的离散程度;其数学定义为: $$ s_N^2=\frac{1}{N}\sum_{i=1}^{N}(x_i-\bar{x})^2 $$
  • 标准差(Standard Deviation)与方差一样,表示的也是数据点的离散程度;其在数学上定义为方差的平方根: $$ s_N^2=\sqrt{\frac{1}{N}\sum_{i=1}^{N}(x_i-\bar{x})^2} $$
  • 为什么使用标准差? 与方差相比,使用标准差来表示数据点的离散程度有3个好处:
    • 表示离散程度的数字与样本数据点的数量级一致,更适合对数据样本形成感性认知。依然以上述10个点的CPU使用率数据为例,其方差约为41,而标准差则为6.4;两者相比较,标准差更适合人理解。
    • 表示离散程度的数字单位与样本数据的单位一致,更方便做后续的分析运算。
    • 在样本数据大致符合正态分布的情况下,标准差具有方便估算的特性:66.7%的数据点落在平均值前后1个标准差的范围内、95%的数据点落在平均值前后2个标准差的范围内,而99%的数据点将会落在平均值前后3个标准差的范围内。
  • public/math/statistics.1484097022.txt.gz
  • 最后更改: 2017/01/11 09:10
  • oakfire