算法葫芦书(笔试面试)
一、特征工程
1.特征归一化:所有特征统一到一个区间内
线性函数归一化(0到1区间)、零均值归一化(均值0,标准差1)
2.类比型特征->数值性特征
序号编码、独热编码、二进制编码(010,110)
3.高维数组组合特征处理:为了提高拟合能力
降维:用k维向量表示,再运算
4.组合特征:找到哪些特征应该组合,决策树
5.文本数据表示:词袋模型(只记录出现频率、TF-IDF、n-gram)、主题词、词嵌入
6.Word2Vec(两种网络结构:CBOW-上下文预测当前、skip-gram当前预测上下文)、LDA(隐狄利克雷-主题变概率分布)
7.图像数据不足处理方法:随机旋转、平移、缩放等、添加噪声、颜色变化、改变清晰度
二、模型评估
1.混淆矩阵:T对不对、P是不是
1.分类问题:准确率(TP/总样本)、精确率(查准率-TP/TP+FP)、召回率(查全率TP/TP+FN)、F1、PR曲线(精确率和召回率-两难全,平衡点即F1)、ROC(越陡越好-遍历所有阈值如>0.9,0.8来绘制-FP率和TP率)、AUC(曲线下的面积-越高越好)
2.回归问题:MAE(L1损失函数,绝对值)、MSE(L2损失函数,平方,对异常更敏感,但丢失部分正常)
3.余弦相似度(方向上的一致性)、欧氏距离(具体数值的一致性)
4.过拟合(更多数据、降低模型复杂度、正则化约束-对模型参数进行约束L1L2、drop)和欠拟合(添加新特征、加模型参数、多训练轮数)
三、经典算法
1.支持向量机:一种二类分类模型,在特征空间中寻找间隔最大的分离超平面,泛化性更好。
感知机是找到一个平面使误差点最小。
核函数:当样本在原始空间线性不可分时,可将样本从原始空间映射到一个更高维的特征空间,使得样本在这个特征空间内线性可分
k分类:1-训k个,取最高。2-训Ck2个。
2.逻辑回归(输出概率值、预测二分类是否患病)、线性回归(输出实数值、预测房价、温度等)
3.决策树:ID3、C4.5、CART等算信息增益和选择
四、降维
1.PCA(主成分分析、无监督):投影新坐标系、最大程度保留方差。根据特征值大小选前k个
2.LDA(线性判别分析、有监督):投到一条直线上,同类的尽可能近。最大化类间最小化类内。
五、非监督学习
1.k均值。调优:数据归一化和离群点处理,合理选择k值(手肘法),欧氏距离变核函数
kmeans++:越远的点越可能成为下一个聚类中心
2.高斯混合模型: