现代数字信号处理I-P2概率论学习笔记
目录
学习视频链接:
1. 三要素及关系
2. 期望和方差的定义及基本性质
2.1 期望(均值)定义:
在实际工作中很难获得随机变量的分布或者概率密度,用矩描述随机变量
2.2 期望基本性质:
2.3 方差定义
2.4 凸函数下期望不等式
3. 均方意义下确定参数对随机变量的最优估计
4. 两组随机变量函数映射下的最佳逼近
4.1 条件期望的引入
4.2 条件期望的性质
a. 条件期望仍然是随机变量
b. 条件期望保留了期望的线性性质
c. 条件期望的期望,是无条件期望
d. 条件期望的提出性
关于条件期望计算的一个例子:
4.3 均方意义下,利用条件期望获得一个随机变量对另外一个随机变量的最佳估计
4.4 一个随机变量对另外一个随机变量的最佳估计结论
5. 参数化模型下的最优估计
5.1 参数化模型和非参数化模型
5.2 频率学派参数化模型的最优估计
5.3 方差和偏差的Tradeoff
5.4 两种估计量的简单对比
5.5 方差与样本方差
6. 条件方差
学习视频链接:
2.概率论复习_哔哩哔哩_bilibili
1. 三要素及关系
数据(data)
模型(model)
决策(Decision)
统计:由数据总结模型
概率:给定模型做决策,模型属于先验知识
仿真:由模型产生数据,蒙特卡洛,适用于真实数据很难获得的场景
大数据:由大量数据直接做决策,此处可能由于大量数据而无法收敛到一个可靠模型

2. 期望和方差的定义及基本性质
2.1 期望(均值)定义:
在实际工作中很难获得随机变量的分布或者概率密度,用矩描述随机变量

期望是随机变量的一阶矩,是一个数。
物理中表示刚体的重心,用一个点表示一个物体。
2.2 期望基本性质:

期望的基本性质恒成立。
2.3 方差定义
![]()
如果均值可以描述随机变量的中心未知,那么方差描述的是随机变量的散度(Dispersion)
2.4 凸函数下期望不等式
一般情况,非线性函数下期望的函数和函数的期望不相等:
![]()
对于凸函数,存在
![]()
进一步:


因此:
![]()
简单解释,凸函数图像类似:

凸函数具有性质:二阶导数大于等于0,存在任意a点,使得所有的x满足
![]()
是与
有关的线性函数。
当X是随机变量,两边取期望:
![]()
此时,取
,因此存在:
![]()
简单证明完毕。
3. 均方意义下确定参数对随机变量的最优估计
虑一组数据采样后得到的随机变量
,现在我们需要采用一些方法去逼近该随机变量。
常用的方法,可以认为该随机变量来自于对一个确定数值的采样,因此用一个常数
去尝试逼近。
在开始探讨方法之前,需要先定义逼近方法的评估手段,最常用的是比较两种数据的距离,一般我们可以采用均方误差来表示:
![]()
由于开根号在正数据域上不影响原始函数的单调性,因此可以直接去掉开根号展开优化,因此上述问题可以描述为:寻找一个待估计的常数
,使得
到
的距离最小,用数学语言描述为:
![]()
为求上述最小距离对应的
,一种简便的方法是可以直接对原始函数求导,并令导数为0求得:
![]()
得到:
![]()
因此,得到此时:
![]()
换句话说,期望就是在均方距离定一下,对随机变量的固定值最佳逼近。另外,方差此时就是最佳逼近下的误差,或者也称为残差:
![]()
4. 两组随机变量函数映射下的最佳逼近
4.1 条件期望的引入
上述问题进一步延申,如果存在两种不同的随机数据X
和Y![]()
在统计信号处理领域,我们希望构建某种模型/函数
后,完成对
产生一种映射,使得:
![]()
上述属于问题变成需要寻找某个函数g,使得距离最小。这是在函数空间中寻找最优函数。属于泛函优化,比较困难,需要引入新的工具:条件期望
4.2 条件期望的性质
a. 条件期望仍然是随机变量
可以认为消除了关于X的随机特性,但条件Y的随机性却是保留的,因此是以Y有关的随机变量

上式消除了X的随机特性,但是关于Y的随机变量
b. 条件期望保留了期望的线性性质

c. 条件期望的期望,是无条件期望
![]()
形式化证明过程:
是和
有关的随机变量,因此取期望需要乘
的概率密度函数
,再积分:

代入
的定义本身:

积分合并,并交换顺序:

根据联合概率密度定义:

因此:

根据边缘概率密度定义:

因此,最终:

d. 条件期望的提出性
条件期望中存在Y的因子,可以提出:本质上算X的期望,此时条件参数Y的随机性暂时消失,此时与Y相关的都是确定性的数据:
![]()
关于条件期望计算的一个例子:

如果
是独立同分布的:
那么

如果此时n如果也是随机性,即:求和的个数也具有随机性,可以采用条件期望计算,此时需要假设N与
独立:

![]()
4.3 均方意义下,利用条件期望获得一个随机变量对另外一个随机变量的最佳估计
此时回到上述问题,即:
![]()
思路是将后面的
暂时变成确定性的数,此时沿用上述结论,
得到
的最优估计应该就是
,但由于
此时属于条件,因此此时的最优估计应该是
,即:
![]()
根据条件期望的期望性质,得到:
![]()
此时,也就得到了
的最优估计,即:
![]()
上述的过程有点草率,下面进入严格证明:
均方意义下,一个随机变量对另外一个随机变量进行逼近,最优逼近就是条件期望:
![]()
![]()
如果上式中交叉项为0,就可以直接得到上述结论,即:
![]()
因此,下面的重点寻求证明![]()
上式中除了
之外,其他都是关于
的随机变量,因此,再次利用:
![]()
计算条件期望:
![]()
![]()
上式最后一般用到了在对X求期望时
不存在与X有关的随机变量,此时由于:
![]()
![]()
最终:
![]()
因此,最有逼近为:
![]()
4.4 一个随机变量对另外一个随机变量的最佳估计结论
经管上述结果比较完美,但在实际工作中,由于条件期望非常难求,因此需要兼顾好算和性能优异两个指标,寻求其他的估计方法。
5. 参数化模型下的最优估计
5.1 参数化模型和非参数化模型
统计信号处理的具体工作:
获得一批采样数据:
![]()
希望通过上述数据,建立模型Model,模型一般非两类:参数化模型和非参数化模型
参数化模型:对随机数据的分布有具体认识,即知道数据服从什么分布,如:
![]()
但是分布中的参数
未知。
例如,对应高斯分布:
![]()
非参数化模型:近年来,在机器学习中越来越流行,例如聚类Clustering Classification,关心的是数据分几类,但对具体的分布参数可以不感兴趣。
在统计信号处理中,我们希望构建一个有采集数据到待估计参数的映射函数:
![]()
该映射函数,可以称为是Estimator,对应机器学习中称为Feature,在统计学习中称为Feature Extraction。
5.2 频率学派参数化模型的最优估计
在频率学派的统计学范畴,我们认为待估计的参数
尽管未知,但是确定的参数。
在贝叶斯派中,未知参数认为也是随机的,将在后续贝叶斯估计中展开介绍。
在确定性参数假设下,统计信号处理需要寻找:
![]()
根据刚刚的推导,最优估计应该是:
![]()
但由于
的确定性的参数,因此没有随机性:
![]()
上述过程尽管说明了
就是
本身,但是没有给用户提供任何映射的函数,因此解决不了实际问题。
5.3 方差和偏差的Tradeoff
重新观察估计方差:
![]()
![]()
上式中
,
都是确定性参数,因此交叉项为0:
![]()
因此:
![]()
上式将估计的均方误差分为了两项,即:方差+偏差
随机误差对应方差Variance,系统误差对应的是偏差Bias。
实际的估计问题中,系统误差大一点没有关系,因为该偏差可以通过校准进行纠正。
换句话说:
大一点没有关系,因为里面由
贡献的偏差是可以通过系统校准进行有效识别并消除
因此我们需要尽量减小随机误差![]()
这就是在统计中需要考虑Tradeoff Bias-Variance。
5.4 两种估计量的简单对比
既然最优估计的证明过程没有给出实际可操作的映射函数,那么我们需要自己构建估计的具体映射。
例如采样一个直流信号的电压:
![]()
其中真值是A
构造一种估计:
![]()
该估计也是无偏的:
![]()
但:
![]()
因此该估计
经过无偏,但是估计的方差与噪声方差一致。
我们构造另外一个估计:

显然,该估计也是无偏的:


上式中,用到了:
![]()
其中
是确定性的常数。
另外,在
是不相关的假定下,上式中:
![]()
因此:

对比
和
的两种估计,尽管都是无偏估计,但是
估计的方差要小于
,这也是多次采样去平均的意义。
另外,当
时,
,该特性称为估计的Consistent相合估计。
5.5 方差与样本方差
在常规的实验中,我们一般采用如下两个公式处理数据:


数据平均的效果刚刚已经展现,
此时可以发现,样本方差的计算定义为:

其中分母不是
而是
,本质上
是在估计方差,而除
是确保该估计是无偏的。
如果在上述估计中,如果知道带估计量的真值
,那么:

这样才是无偏的,但是实际中,我们不知道
的真值,因此用样本平均替代
替代
,此时如果要保证估计的无偏性,那么需要除
,此时用
替代
计算的方差有,也称为是样本方差,下面是证明过程,我们计算:





其中用到了

因此,上式为:





假定当
独立同分布,那么:
![]()
![]()
因此:

代入:
![]()
而由于:
![]()
![]()
因此:
![]()
也就是:
![]()
即
是
方差的无偏估计。
6. 条件方差
基于上述已推导的结论,我们知道条件期望:
![]()
那么我们同样定义条件方差:

此时存在公式:
![]()
证明过程:



而上式中,
和
都不存在随机变量X,因此:


![]()
因此:

其中:

而:

因此:
![]()
证明结束。
