public:math:statistics

差别

这里会显示出您选择的修订版和当前版本之间的差别。

到此差别页面的链接

两侧同时换到之前的修订记录 前一修订版
后一修订版
前一修订版
public:math:statistics [2017/01/10 18:08] oakfirepublic:math:statistics [2018/10/30 23:25] (当前版本) oakfire
行 3: 行 3:
 ===== 一维数据分析 ===== ===== 一维数据分析 =====
   * [[http://www.tuicool.com/articles/ramiU3|一维数据分析]]   * [[http://www.tuicool.com/articles/ramiU3|一维数据分析]]
-  * **平均值(Mean)** 所有数据之和除以数据点的个数,以此表示数据集的平均大小;其数学定义为 $$ +  * **平均值(Mean)** 所有数据之和除以数据点的个数,以此表示数据集的平均大小;其数学定义为 $$ \bar{x}=\frac{x_1+x_2+x_3+ \dots +x_n}{n} $$ 
-\bar{x}=\frac{x_1+x_2+x_3+ \dots +x_n}{n} +  * **方差(Variance)**这一概念的目的是为了表示数据集中数据点的离散程度;其数学定义为: $$ s_N^2=\frac{1}{N}\sum_{i=1}^{N}(x_i-\bar{x})^2 $$
-$$ +
-  * **方差**这一概念的目的是为了表示数据集中数据点的离散程度;其数学定义为: $$ +
-s_N^2=\frac{1}{N}\sum_{i=1}^{N}(x_i-\bar{x})^2 +
-$$ +
- +
-  * **标准差**与方差一样,表示的也是数据点的离散程度;其在数学上定义为方差的平方根: $$ +
-s_N^2=\frac{1}{N}\sum_{i=1}^{N}(x_i-\bar{x})^2 +
-$$+
  
 +  * **标准差(Standard Deviation)**与方差一样,表示的也是数据点的离散程度;其在数学上定义为方差的平方根: $$ s_N^2=\sqrt{\frac{1}{N}\sum_{i=1}^{N}(x_i-\bar{x})^2} $$
 +  * **为什么使用标准差**? 与方差相比,使用标准差来表示数据点的离散程度有3个好处:
 +    * 表示离散程度的数字与样本数据点的数量级一致,更适合对数据样本形成感性认知。依然以上述10个点的CPU使用率数据为例,其方差约为41,而标准差则为6.4;两者相比较,标准差更适合人理解。
 +    * 表示离散程度的数字单位与样本数据的单位一致,更方便做后续的分析运算。
 +    * 在样本数据大致符合正态分布的情况下,标准差具有方便估算的特性:66.7%的数据点落在平均值前后1个标准差的范围内、95%的数据点落在平均值前后2个标准差的范围内,而99%的数据点将会落在平均值前后3个标准差的范围内。
 +  * **平均值与标准差的适用范围及误用** 大多数统计学指标都有其适用范围,平均值、方差和标准差也不例外,其适用的数据集必须满足以下条件: **中部单峰**:
 +    * 数据集只存在一个峰值。很简单,以假想的CPU使用率数据为例,如果50%的数据点位于20附近,另外50%的数据点位于80附近(两个峰),那么计算得到的平均值约为50,而标准差约为31;这两个计算结果完全无法描述数据点的特征,反而具有误导性。
 +    * 这个峰值必须大致位于数据集中部。还是以假想的CPU数据为例,如果80%的数据点位于20附近,剩下的20%数据随机分布于30~90之间,那么计算得到的平均值约为35,而标准差约为25;与之前一样,这两个计算结果不仅无法描述数据特征,反而会造成误导。
 +    * 遗憾的是,在现实生活中,很多数据分布并不满足上述两个条件;因此,在使用平均值、方差和标准差的时候,必须谨慎小心。
  • public/math/statistics.1484042881.txt.gz
  • 最后更改: 2017/01/10 18:08
  • oakfire