当前位置: 首页 > news >正文

机械学习—零基础学习日志(概率论总笔记5)

引言——“黑天鹅”

要获得95%以上置信度的统计结果,需要被统计的对象出现上千次,但是如果整个样本只有几千字,被统计的对象能出现几次就不错了。这样得到的数据可能和真实的概率相差很远。怎么避免“黑天鹅”?

古德-图灵折扣估计法

在词语统计中,有点词语虽然是出现0次,但是实际的出现概率并不是永远不可能的零。

那需要把一些概率转移给到这些词语。

古德的做法实际上就是把出现1次的单词的总量,给了出现0次的,出现2次单词的总量给了出现1次的,以此类推。

古德的这种做法被称为“古德-图灵折扣估计”,因为它实际上是把高频词的词频打了一个折,多出来的词频分配给了低频词。

插值法

贾里尼克把条件概率和非条件概率加起来,得到一个新的概率。在相加之前,分别给这两个概率权重。例如,条件概率的权重(更高)是0.7,非条件概率的权重是0.3。

如果条件P(X|Y)本身比较大,它在新的概率估计中会占主导地位。如果P(X|Y)本身比较小,说明它反正也不太可靠,而这时非条件概率,即P(X)本身则占了主导地位,因为X本身出现的次数会比较多,统计结果可信度会高一些。

插值法的精髓在于,相信那些见到次数比较多的统计结果,如果遇到统计数量不足时,就设法找一个可靠的统计结果来近似。

学习笔记:《数学通识50讲》吴军 ——得到 ,概率论章节

墙裂推荐大家去学习《数学通识50讲》,吴军老师讲解得超级超级好!


http://www.mrgr.cn/news/21836.html

相关文章:

  • Java 中的数组是如何声明和初始化的?
  • 解决面板安装Node.js和npm后无法使用的问题
  • 【详解 Java 注解】
  • java8 Stream流详解
  • STM32G474内部温度传感器的使用
  • linux高级学习10
  • Hive和Hbase的区别
  • 最新SMS测压SMS源码 全新版本
  • 彻底解决win10系统Tomcat10控制台输出中文乱码
  • 漫谈设计模式 [15]:观察者模式
  • 架构全景视图
  • RocketMQ之发送消息源码分析
  • 漫谈设计模式 [5]:建造者模式
  • 脏页写入磁盘的过程详解
  • 理解C++全局对象析构顺序与 IPC 资源管理:避免 coredump
  • windows10 卸载网络驱动以及重新安装
  • 前端工程化1:从0到1配置eslint (所有人一看就懂)
  • 数据集 CrowdPose 多人姿态估计 深度学习 >> DataBall
  • sping boot 基于 RESTful 风格,模拟增删改查操作
  • ue5 伤害插件