当前位置: 首页 > news >正文

【AI知识点】正态分布(高斯分布)和中心极限定理(CLT)

正态分布(Normal Distribution)中心极限定理(Central Limit Theorem, CLT) 是统计学中非常重要的概念,它们广泛应用于概率论、数据分析、机器学习等领域。以下将详细解释这两个概念及其关系。

1. 正态分布(Normal Distribution)

a. 定义

正态分布,也称为高斯分布,是一种非常常见的连续概率分布,用于描述许多自然现象和测量数据。它的概率密度函数(PDF)呈现典型的钟形曲线,具有对称性。

正态分布的数学表达式为:

f ( x ) = 1 σ 2 π exp ⁡ ( − ( x − μ ) 2 2 σ 2 ) f(x) = \frac{1}{\sigma \sqrt{2 \pi}} \exp \left( -\frac{(x - \mu)^2}{2 \sigma^2} \right) f(x)=σ2π 1exp(2σ2(xμ)2)

其中:

  • x x x 是随机变量。
  • μ \mu μ均值,表示分布的中心位置。
  • σ \sigma σ标准差,表示分布的离散程度或宽度。
  • σ 2 \sigma^2 σ2方差,方差越大,分布越宽。

b. 正态分布的特性

正态分布有几个重要的特性:

  • 对称性:正态分布是关于其均值 μ \mu μ 对称的。也就是说,分布的左右两边是镜像的。
  • 均值、中位数、众数相等:对于正态分布,均值 μ \mu μ、中位数和众数是相同的,且位于分布的中心。
  • 68-95-99.7 规则(68-95-99.7 Rule):在正态分布中,大约 68% 的数据落在均值 μ \mu μ ± 1 σ \pm 1\sigma ±1σ 范围内,95% 的数据落在 ± 2 σ \pm 2\sigma ±2σ 范围内,99.7% 的数据落在 ± 3 σ \pm 3\sigma ±3σ 范围内。

c. 图例

下图是一个班级的学生的 SAT 成绩。数据遵循正态分布,平均分数(M)为 1150,标准差(SD)为 150。

根据经验法则:

  • 大约 68% 的分数在 1000 到 1300 之间,分别是均值上下 1 个标准差。
  • 大约 95% 的分数在 850 到 1450 之间,分别是均值上下 2 个标准差。
  • 大约 99.7% 的分数在 700 到 1600 之间,分别是均值上下 3 个标准差。

在这里插入图片描述
图片来源:https://www.scribbr.com/statistics/normal-distribution/

d. 正态分布的例子

正态分布广泛存在于自然现象和测量数据中。常见的例子包括:

  • 身高:人的身高在一个群体内通常呈现正态分布,平均身高在分布的中心,离均值越远的人数越少。
  • 考试成绩:在某些考试中,学生的成绩往往呈现正态分布,大部分学生的成绩集中在平均值附近。
  • 测量误差:科学实验中的测量误差通常服从正态分布,因为误差通常是由许多微小、独立的因素共同作用的结果。

e. 标准正态分布

当正态分布的均值 μ = 0 \mu = 0 μ=0,标准差 σ = 1 \sigma = 1 σ=1 时,它被称为标准正态分布,其概率密度函数为:

f ( x ) = 1 2 π exp ⁡ ( − x 2 2 ) f(x) = \frac{1}{\sqrt{2 \pi}} \exp \left( -\frac{x^2}{2} \right) f(x)=2π 1exp(2x2)

标准正态分布是所有正态分布的基准,通过标准化过程,任何正态分布都可以转化为标准正态分布。

标准化公式:

z = x − μ σ z = \frac{x - \mu}{\sigma} z=σxμ

其中 z z z 是标准正态分布中的标准分数(z 分数),它表示某个值 x x x 在原分布中与均值 μ \mu μ 的距离,用标准差 σ \sigma σ 表示。


2. 中心极限定理(Central Limit Theorem, CLT)

a. 定义

中心极限定理是统计学中一个非常重要的定理,它表明:当从任意分布的总体中抽取足够多的独立随机样本时,这些样本的均值分布将近似服从正态分布,即使原始数据的分布并不是正态分布。

更正式地说,如果 X 1 , X 2 , … , X n X_1, X_2, \dots, X_n X1,X2,,Xn 是来自某个总体的独立同分布(i.i.d.)随机变量,且该总体的期望为 E ( X ) = μ E(X) = \mu E(X)=μ,方差为 V a r ( X ) = σ 2 Var(X) = \sigma^2 Var(X)=σ2,那么当样本数 n n n 足够大时,样本均值 X ‾ n \overline{X}_n Xn 的分布接近正态分布,具体表现为:

X ‾ n − μ σ / n → N ( 0 , 1 ) \frac{\overline{X}_n - \mu}{\sigma / \sqrt{n}} \to N(0, 1) σ/n XnμN(0,1)

其中:

  • X ‾ n = 1 n ∑ i = 1 n X i \overline{X}_n = \frac{1}{n} \sum_{i=1}^{n} X_i Xn=n1i=1nXi 是样本均值。
  • μ \mu μ 是总体的均值。
  • σ 2 \sigma^2 σ2 是总体的方差。
  • N ( 0 , 1 ) N(0, 1) N(0,1) 表示标准正态分布。

b. 中心极限定理的解释

中心极限定理的核心思想是:无论总体的分布是什么,当样本量足够大时,样本均值的分布总是接近正态分布。这意味着即使总体分布不是正态分布,样本均值仍然会趋于正态分布。这就是为什么正态分布在数据分析和统计推断中如此重要的原因。

c. 中心极限定理的关键点

  • 样本量足够大:中心极限定理要求样本量 n n n 足够大,通常认为 n ≥ 30 n \geq 30 n30 是一个经验标准。在某些情况下,样本量可以更小,如果总体分布相对对称。
  • 独立性:样本必须是独立的。中心极限定理要求抽样必须是独立的,即每个样本之间没有影响。
  • 相同分布:样本必须来自相同的分布(独立同分布),即每个样本都来自同一个总体。

d. 中心极限定理的应用

中心极限定理的一个重要应用是它为统计推断提供了理论基础。特别是,它允许我们在处理未知分布的数据时使用正态分布来进行近似估计,从而推导出各种统计推断方法,如置信区间假设检验

  • 置信区间:在统计推断中,我们可以根据样本均值的分布来构建总体均值的置信区间。由于中心极限定理,样本均值服从正态分布,因此我们可以利用正态分布来构建置信区间。

  • 假设检验:中心极限定理也为假设检验提供了基础。在假设检验中,样本均值的分布可以近似为正态分布,因此可以使用正态分布来计算检验统计量。

e. 例子

假设我们想要估计一个大城市的平均年收入,知道这个城市的收入分布并不是正态的(例如,可能是偏斜的)。然而,中心极限定理告诉我们,尽管总体分布不是正态的,只要我们从中抽取足够多的样本(例如 100 人的样本),那么这些样本的均值将近似服从正态分布。因此,我们可以利用正态分布的性质来对城市的平均收入进行推断。


3. 正态分布与中心极限定理的关系

正态分布中心极限定理是密切相关的概念。正态分布是一种常见的分布,许多自然现象都近似服从正态分布。中心极限定理则是统计学的一个重要定理,它解释了为什么正态分布如此普遍。

通过中心极限定理,我们可以理解,即使总体分布不是正态分布,只要我们抽取足够多的样本,样本均值的分布仍然会趋向于正态分布。这一结论为我们使用正态分布进行统计推断提供了坚实的理论基础。


4. 总结

  • 正态分布:是一种常见的连续概率分布,呈钟形曲线,对称,广泛用于描述自然现象中的数据。
  • 中心极限定理:表明无论总体分布如何,当样本量足够大时,样本均值的分布总是接近正态分布。这为我们使用正态分布进行统计推断提供了理论支持。

正态分布与中心极限定理在数据分析和机器学习中都有重要应用,尤其是在进行统计推断、假设检验、构建置信区间等方面,是基础且常用的工具。


http://www.mrgr.cn/news/43349.html

相关文章:

  • InnoDB 中的索引页与数据行的关联详解
  • 封装el-upload组件,用于上传图片和视频
  • 镜头、diffuser、DOE
  • Leecode热题100-295.数据流中的中位数
  • U3D游戏开发之场景解锁小系统(UGUI版)
  • MySQL基础之约束
  • Android2024.2.1升级错误
  • 表达式求值(可以计算两位数以上)
  • 【云原生】云原生架构的反模式
  • dll动态库加载失败导致程序启动报错以及dll库加载失败的常见原因分析与总结
  • 今日指数项目个股描述功能实现
  • 弧形导轨驱动器高效使用技巧!
  • 双十一狂欢派对 五款市面上获得好评的好物
  • 【深度学习】— softmax回归、网络架构、softmax 运算、小批量样本的向量化、交叉熵
  • 实现 Spring IOC 的关键问题和技术详解
  • 基于SpringBoot+Vue的高校运动会管理系统
  • X3U·可编程控制器的定位控制
  • 文心智能体——制作你的专属AI
  • 如何让猫咪长肉?瘦猫增重猫罐测评:fellicita、希喂、wellness好不好?
  • Python环境安装教程