当前位置: 首页 > news >正文

算法葫芦书(笔试面试)

一、特征工程

1.特征归一化:所有特征统一到一个区间内

线性函数归一化(0到1区间)、零均值归一化(均值0,标准差1)

2.类比型特征->数值性特征

序号编码、独热编码、二进制编码(010,110)

3.高维数组组合特征处理:为了提高拟合能力

降维:用k维向量表示,再运算

4.组合特征:找到哪些特征应该组合,决策树

5.文本数据表示:词袋模型(只记录出现频率、TF-IDF、n-gram)、主题词、词嵌入

6.Word2Vec(两种网络结构:CBOW-上下文预测当前、skip-gram当前预测上下文)、LDA(隐狄利克雷-主题变概率分布)

7.图像数据不足处理方法:随机旋转、平移、缩放等、添加噪声、颜色变化、改变清晰度

二、模型评估

1.混淆矩阵:T对不对、P是不是

1.分类问题:准确率(TP/总样本)、精确率(查准率-TP/TP+FP)、召回率(查全率TP/TP+FN)、F1、PR曲线(精确率和召回率-两难全,平衡点即F1)、ROC(越陡越好-遍历所有阈值如>0.9,0.8来绘制-FP率和TP率)、AUC(曲线下的面积-越高越好)

2.回归问题:MAE(L1损失函数,绝对值)、MSE(L2损失函数,平方,对异常更敏感,但丢失部分正常)

3.余弦相似度(方向上的一致性)、欧氏距离(具体数值的一致性)

4.过拟合(更多数据、降低模型复杂度、正则化约束-对模型参数进行约束L1L2、drop)和欠拟合(添加新特征、加模型参数、多训练轮数)

三、经典算法

1.支持向量机:一种二类分类模型,在特征空间中寻找间隔最大的分离超平面,泛化性更好。

感知机是找到一个平面使误差点最小。

核函数:当样本在原始空间线性不可分时,可将样本从原始空间映射到一个更高维的特征空间,使得样本在这个特征空间内线性可分

k分类:1-训k个,取最高。2-训Ck2个。

2.逻辑回归(输出概率值、预测二分类是否患病)、线性回归(输出实数值、预测房价、温度等)

3.决策树:ID3、C4.5、CART等算信息增益和选择

四、降维

1.PCA(主成分分析、无监督):投影新坐标系、最大程度保留方差。根据特征值大小选前k个

2.LDA(线性判别分析、有监督):投到一条直线上,同类的尽可能近。最大化类间最小化类内。

五、非监督学习

1.k均值。调优:数据归一化和离群点处理,合理选择k值(手肘法),欧氏距离变核函数

kmeans++:越远的点越可能成为下一个聚类中心

2.高斯混合模型:


http://www.mrgr.cn/news/36704.html

相关文章:

  • python数据分析在进行时间序列分析时,如何选择合适的频率进行重采样?
  • AI篮球投篮分析与投篮姿势的机器学习应用
  • 详解 Spring Boot 的 RedisAutoConfiguration 配置
  • 塑封芯片多大才需要点胶加固保护?
  • 我的领域-关怀三次元成长的二次元虚拟陪伴 | OPENAIGC开发者大赛高校组AI创作力奖
  • 基于Ubuntu 20.04 LTS上部署MicroK8s(最小生产的 Kubernetes)
  • 【Redis技术进阶之路】「原理分析系列开篇」揭秘分析客户端和服务端网络通信交互实现(服务端篇 - 命令执行过程)
  • Python基础(4)- 运算符
  • 何为supervisorctl以及我们如何使用它
  • 介绍篇| 爬虫工具介绍
  • 图论系列(dfs岛屿) 9/26
  • 【含文档】基于Springboot+Vue的高校教务管理系统(含源码+数据库+lw)
  • 在Vue.js中,你可以使用Element UI的el-input组件结合计算属性来实现模糊查询
  • Linux这几个冷门的命令,简直不要太好用!
  • 如何在网站建设中不被外包建站公司忽悠?
  • Android常用C++特性之std::equal
  • 阿里电商再出海,蒋凡“翻身”的关键一役?
  • 免费的MBTI职业测试工具小程序
  • 自己开发一个网站系列之-网页开发初识
  • 如何利用供应链系统实现电商的高效运营