【小白学机器学习19】什么是量化分析(草稿)
目录
定义
1 定性和定量
2 什么叫显著
3 测量的4个尺度
4 总体和样本
4.1 总体,母体,population
4.2 样本 Sample
5 如何保证样本和总体同结构呢
6 量化
7 量化的对象
定义
量化分析:就是把要分析的一个真实事物/理念中概念:变项,进行数字化,从而成为一个变量 variable,然后分析这个变量。
建模:简单的就是建一个函数表达式 /一个方程等,复杂的,很多函数和方程组联立等等超过我的描述能力
1 定性和定量
两种分析方式
 定性,可以教基本路数,思维方式,但具体细节,其他靠悟,更接近艺术
 定量,可以教基本路数,还可以具体步骤,套路,招式,可证伪得思维方式
没啥好鄙视得,做定量研究得,也需要先定性
 定性相当于进行理论模型思考,
样本和整体的关系,不是局部和整体的关系
 而是微缩结构和整体结构的关系
量化之前
 定性分布
    现有的理论模型
    例外是机器学习的无监督学习
 量化之前,我们已经假设了
    总体是符合什么样的分布了,比如是正态分布
    正态分布的规律我们是知道的,但是不清楚每个具体的总体的正态分布的,均值,方差等具体参数!
2 什么叫显著
 显著,只是说两者存在,非随机的关系。 
 不等于重要,或者其他
 3 测量的4个尺度
 
 1 定类
 2 定距
 3 定比
 4 定量
4 总体和样本
4.1 总体,母体,population
 是一种理想化的东西,可以说永远无法真正的/完全的认识,可以部分认知
4.2 样本 Sample
 必须尽量和高度形似母体,结构相同
 尽量是1比1的缩略最好
 但是因为母体不可被真正完全认识,只能部分认识,所这个不可绝对验证,只能逼近。
5 如何保证样本和总体同结构呢
 如何保证样本和总体同结构呢:无法最终保证
 也就是结果的正确/正义无法保证
 只能从过程的正确/正义上去保证
 随机抽样
 有规律的往往就是非随机的
 除非是随机抽取的,比如编号后随机
 至少程序上保证每个个体都有被平等抽到的可能。
也说明了,公平也一样,只有过程的公平,没有结果的公平。
 但是这个又在变化,继续下一次的过程。
正态分布/自然分布也说了这个问题,一定是中间大,两头小。
 而且钟形曲线是无限的,天网恢恢,苏而不漏。
  
随意抽样,
Vary variable变项----变量
 6 量化
 
 个体两方面
 1 多个个体
 2 多个属性/特征,每个属性都有1 名字 2尺度
个体
 二维表
 横向,一个个体的多个属性(只挑一些)
 纵向,一个属性的组成的线/
 量化与数据
 数据种类一,界面数据
 数据种类2,时序类数据
7 量化的对象
 1 第1层级,个体  case  individual 
 2 第2层级,样本  sample
 3 第3层级,总体,母体的(认为的那个模型里)参数的具体参数 population
 4 
样本统计值
 1 均值
 2 回归系数
 3 偏回归系数,净回归系数.  前期是其他参数不变时,这个参数作为自变量和因变量之间的关系。
  
