机器学习day1

news/2024/5/7 12:37:24

一、人工智能三大概念

人工智能三大概念 人工智能(AI)、机器学习(ML)和深度学习(DL)

人工智能:人工智能是研究计算代理的合成和分析的领域。人工智能是使用计算机来模拟,而不是人类的大脑。

人工智能(AI)是一个广泛的概念,它涵盖了使计算机能够执行类似人类智能任务的技术和方法。AI的目标是使计算机系统能够理解和分析复杂的信息,从而做出决策、学习、推理、理解语言、识别模式等。AI的应用领域非常广泛,包括语音识别、自然语言处理、计算机视觉、机器人技术、专家系统等。

机器学习:允许计算机无需明确地自动学习的研究领域

机器学习(ML)是人工智能的一个重要分支,它专注于研究和开发能够自动从数据中学习和改进的算法。机器学习算法通过训练数据来寻找规律或模式,并据此对新的、未见过的数据进行预测或分类。机器学习可以分为有监督学习、无监督学习、半监督学习和强化学习等多种类型,每种类型都有其特定的应用场景和优势。

深度学习:也叫深度神经网络,大脑仿生,设计一层一层的神经元模拟万事万物

深度学习(DL)是机器学习的一个子集,它基于神经网络模型,特别是深度神经网络模型。深度学习通过构建多层神经网络来模拟人脑的工作方式,从而实现对复杂数据的理解和分析。

三者的关系

人工智能是一个宏观的概念,机器学习是实现人工智能的一种关键方法,而深度学习则是机器学习的一个重要分支和前沿领域

 学习方式

基于规律的学习:程序员根据经验利用手工的if-else进行预测

基于模型的学习:从数据中自动学出规律

基于模型的学习:比如房价预测

二、机器学习的应用领域和发展史

机器学习的应用领域:

图像识别,无人驾驶,智能翻译,医疗智能翻译,数据挖掘

机器学习的发展史可以追溯到上个世纪五十年代。以下是一些关键的发展阶段和里程碑:

  1. 早期研究:在20世纪50年代和60年代,人工智能和机器学习的概念开始形成。这一时期的研究主要集中在符号逻辑和基于规则的专家系统上。然而,由于当时计算能力的限制,这些系统往往难以处理复杂的问题。
  2. 神经网络的出现:20世纪80年代,神经网络的研究开始兴起。神经网络是一种模拟人脑神经元连接和交互的模型,它具有较强的自学习和自适应能力。尽管当时神经网络的性能有限,但它为后来的深度学习技术奠定了基础。
  3. 统计学习方法的兴起:在90年代和21世纪初,统计学习方法如支持向量机(SVM)、决策树、随机森林等逐渐流行起来。这些方法在解决分类、回归等问题上取得了显著成效,并在许多实际应用中得到了广泛应用。
  4. 深度学习的崛起:自2012年以来,深度学习技术取得了突破性进展。通过构建深度神经网络模型并利用大量数据进行训练,深度学习在图像识别、语音识别、自然语言处理等领域取得了显著成果。特别是2016年AlphaGo战胜围棋世界冠军李世石的事件,更是引发了全球对人工智能和深度学习的关注。

人工智能发展三要素

数据   算法  算力

• CPU:主要适合I\O密集型的任务

• GPU:主要适合计算密集型任务

• TPU:专门针对大型网络训练而设计的一款处理器 

四、机器学习常用术语

在机器学习的领域中,理解并正确应用常用术语是掌握这一技术的基础。以下是对机器学习中的一些关键术语的理解:

  1. 样本(Sample):在机器学习中,样本通常指的是一组数据的实例,这些数据实例包含了描述对象的特征信息。样本是机器学习算法进行学习和预测的基础。例如,在房价预测的任务中,每一个房屋的相关信息(如面积、地理位置、楼层等)就可以视为一个样本。

  2. 特征(Feature):特征是指描述样本属性的变量。在机器学习中,特征是用来训练模型的关键信息。通过提取和选择有效的特征,我们可以帮助模型更好地理解和预测目标变量。在房价预测的例子中,房屋的面积、地理位置等都可以作为特征。

  3. 标签(Label):标签是机器学习任务中需要预测的目标变量。在监督学习中,每个样本通常都对应一个标签,这个标签是已知的,用于指导模型的学习过程。在房价预测的任务中,房价就是我们需要预测的标签。

  4. 训练集(Training Set):训练集是用于训练机器学习模型的数据集。在训练过程中,模型会学习如何从输入的特征中预测出目标标签。通过不断地迭代和优化,模型会逐渐提高预测的准确性。

  5. 测试集(Test Set):测试集用于评估训练好的模型的性能。与训练集不同,测试集中的数据在模型训练过程中是不可见的,因此可以用来检验模型对未知数据的预测能力。通过比较模型在测试集上的预测结果与实际标签的差异,我们可以评估模型的泛化能力。

五、机器学习算法分类

机器学习算法可以根据不同的学习方式和应用场景进行分类。以下是几种主要的机器学习算法分类:

  1. 监督学习(Supervised Learning)
    • 在监督学习中,算法通过训练数据集进行学习,训练数据集中的每个样本都有已知的标签或结果。算法的任务是找出输入和输出之间的映射关系,从而对新的、未见过的数据进行预测。
    • 常见的监督学习算法包括线性回归、逻辑回归、支持向量机(SVM)、决策树、随机森林和梯度提升机等。
  2. 无监督学习(Unsupervised Learning)
    • 在无监督学习中,算法从未标记的数据中找出隐藏的结构或模式。由于没有标签或目标变量,无监督学习算法主要关注数据的内在属性和关系。
    • 常见的无监督学习算法包括聚类算法(如K-均值聚类、层次聚类等)、降维算法(如主成分分析PCA、t-SNE等)和关联规则学习等。
  3. 半监督学习(Semi-supervised Learning)
    • 半监督学习是监督学习和无监督学习的结合,它使用部分标记的数据和大量未标记的数据进行训练。这种方法尤其适用于标记数据有限但未标记数据丰富的场景。
    • 半监督学习算法试图利用未标记数据中的结构信息来改进仅使用标记数据时的学习性能。
  4. 强化学习(Reinforcement Learning)
    • 强化学习是一种通过试错来学习的策略。在这种方法中,算法(或代理)通过与环境的交互来学习如何做出最佳决策,以最大化累积奖励。
    • 强化学习在游戏AI、机器人控制等领域有着广泛的应用,例如AlphaGo围棋算法就是强化学习的一个著名案例。

六、机器学习建模流程

1. 获取数据

  • 搜集数据集:根据机器学习任务的需求,搜集相关的数据集。这可以通过公开数据集、网络爬虫、API接口或企业内部数据仓库等途径获得。
  • 数据清洗:去除重复数据、无关数据或错误数据,确保数据的质量和准确性。

2. 数据基本处理

  • 异常值处理:检测并处理数据中的异常值,如通过删除、替换或插值等方法。
  • 缺失值处理:对于数据中的缺失值,可以通过删除含有缺失值的记录、填充缺失值(如均值填充、中位数填充、插值或模型预测等)来处理。
  • 数据变换:可能需要对数据进行标准化、归一化或编码(如独热编码)等操作,以便于后续的特征工程和模型训练。

3. 特征工程

  • 特征提取:从原始数据中提取出有意义的特征,这些特征应能够反映数据的内在规律和模式。
  • 特征转换:对提取出的特征进行必要的转换,如多项式特征、对数转换等,以增强模型的表达能力。
  • 特征选择:通过统计方法、模型选择或领域知识等方式,选择出对模型性能提升最有帮助的特征。

4. 机器学习(模型训练)

  • 选择合适的算法:根据任务类型和数据的特性,选择合适的机器学习算法。例如,对于分类任务可以选择逻辑回归、决策树或随机森林等;对于聚类任务可以选择K-means或层次聚类等。
  • 模型训练:使用处理好的数据和选定的算法进行模型训练。这通常涉及设置模型参数、优化算法和迭代次数等。

5. 模型评估

  • 评估指标:根据任务类型选择合适的评估指标,如准确率、召回率、F1值、AUC-ROC等。
  • 模型调优:根据评估结果对模型进行调优,包括调整模型参数、更换算法或进行进一步的特征工程等。
  • 交叉验证:使用交叉验证方法来评估模型的稳定性和泛化能力,选择最优的模型进行后续的上线服务。


http://www.mrgr.cn/p/66514144

相关文章

动态内存管理 柔性数组

文章目录 动态内存函数 malloc freecallocrealloc 重新开辟空间realloc 也可以第一个参数为NULL,则是直接开辟内存,类似于malloc用法 常见的动态内存错误对空指针进行解引用操作对开辟的内存越界访问对非动态开辟的内存使用free释放使用free释放动态开辟…

ABS10-ASEMI开关电源整流桥ABS10

ABS10-ASEMI开关电源整流桥ABS10编辑:ll ABS10-ASEMI开关电源整流桥ABS10 型号:ABS10 品牌:ASEMI 封装:ABS-4 正向电流(Id):1A 反向耐压(VRRM):1000V 正向浪涌电流:30A 正向电压(VF):1.10V 引脚数量:4 芯片个数:4 芯片尺寸:50MIL 功率(Pd):小功率设备 工作温…

揭露 FileSystem 引起的线上 JVM 内存溢出问题

本文主要介绍了由FileSystem类引起的一次线上内存泄漏导致内存溢出的问题分析解决全过程。作者:来自 vivo 互联网大数据团队-Ye Jidong本文主要介绍了由FileSystem类引起的一次线上内存泄漏导致内存溢出的问题分析解决全过程。内存泄漏定义(memory leak):一个不再被程序使用…

Docker镜像的创建 和 Dockerfile

一. Docker 镜像的创建 创建镜像有三种方法,分别为基于已有镜像创建、基于本地模板创建以及基于 Dockerfile 创建。 1 基于现有镜像创建 (1)首先启动一个镜像,在容器里做修改docker run -it --name web3 centos:7 /bin/bash …

nginx高级篇之location高级实战

nginx location高级实战location是nginx的核心重要功能,可以设置网站的访问路径,一个web server会有多个路径,那么location就得设置多个。 Nginx的locaiton作用是根据用户请求的URI不同,来执行不同的应用。 针对用户请求的网站URL进行匹配,匹配成功后进行对应的操作。1.语…

【树莓派】yolov5 Lite,目标检测,行人检测入侵报警

延续之前的程序: https://qq742971636.blog.csdn.net/article/details/138172400 文章目录 播放声音pygame不出声音怎么办(调节音量)树莓派上的音乐播放器(可选)命令行直接放歌(尝试放mp3歌曲) …

一般神经网络的微分与网络参数的初始化

(文章的主要内容来自电科的顾亦奇老师的 Mathematical Foundation of Deep Learning, 有部分个人理解) 一般深度神经网络的微分 上周讨论的前向和反向传播算法可以推广到任意深度神经网络的微分。 对于一般的网络来说,可能无法逐层分割,但仍然可以用流…

第十五届蓝桥杯省赛第二场C/C++B组D题【前缀总分】题解(AC)

暴力解法 O ( 26 n 5 ) O(26n^5) O(26n5) 枚举将第 i i i 个字符串的第 j j j 个字符改为 c c c 的所有方案,时间复杂度 O ( 26 n 2 ) O(26n^2) O(26n2),修改并计算总分, O ( n 3 ) O(n^3) O(n3)。 暴力优化 O ( 26 n 3 log ⁡ n ) O…

openGauss 函数

函数 openGauss常用的函数如下: 数学函数abs(x) 描述:绝对值。 返回值类型:和输入相同。 示例: openGauss=# SELECT abs(-17.4);abs ------17.4 (1 row)cbrt(dp) 描述:立方根。 返回值类型:double precision 示例: openGauss=# SELECT cbrt(27.0);cbrt ------3 (1 row)c…

宿舍Giwifi聚合方案

方案A: 方案B: 方案C:

在 Linux 上把 Vim 配置为默认编辑器

目录 ⛳️推荐 在 Linux 命令行中编辑 将 Vim 设置为其他程序的默认值 在 Alpine 中编辑电子邮件 总结 ⛳️推荐 前些天发现了一个巨牛的人工智能学习网站,通俗易懂,风趣幽默,忍不住分享一下给大家。点击跳转到网站 我使用 Linux 大概有…

SpringBoot整合AOP实现打印方法执行时间切面

pom.xml<dependency><groupId>org.springframework.boot</groupId><artifactId>spring-boot-starter-aop</artifactId></dependency>代码 创建注解 import java.lang.annotation.ElementType; import java.lang.annotation.Retention; imp…

MySQL中什么情况下会出现索引失效?如何排查索引失效?

目录 1-引言&#xff1a;什么是MySQL的索引失效&#xff1f;(What、Why)1-1 索引失效定义1-2 为什么排查索引失效 2- 索引失效的原因及排查&#xff08;How&#xff09;2-1 索引失效的情况① 索引列参与计算② 对索引列进行函数操作③ 查询中使用了 OR 两边有范围查询 > 或 …

rust中结构体的属性默认是不能修改的,要想修改可以有两种方式

Rust中结构体里面的属性默认是不支持修改的&#xff0c;而且默认不是pub的&#xff0c;要想修改的话&#xff0c;有两种方式&#xff0c;我以为和python里面的类似呢&#xff0c;但是还是需要一点技术含量的。如果想在引到外部修改&#xff0c;需要声明pub&#xff0c;如果想在…

Ubuntu 24.04 LTS x86_64 OVF (sysin) - VMware 虚拟机模板

Ubuntu 24.04 LTS x86_64 OVF (sysin) - VMware 虚拟机模板Ubuntu 24.04 LTS x86_64 OVF (sysin) - VMware 虚拟机模板 Ubuntu 24.04 LTS (GNU/Linux 6.8-generic x86_64) 请访问原文链接:Ubuntu 24.04 LTS x86_64 OVF (sysin) - VMware 虚拟机模板,查看最新版。原创作品,转…

路由选择协议三剑客--BGP协议

一、背景 边界网关协议(Border Gateway Protocol, BGP)是用来处理像因特网规模大小的网络协议,能够妥善处理好不相关路由域间的多路连接协议。BGP一般用于企业和企业之间,也就是运营商骨干网的通信,一般使用在AS内或AS间通信,在大型企业网中实现的比较多。 内部网关协议只…

Multitouch 1.27.28 免激活版 mac电脑多点触控手势增强工具

Multitouch 应用程序可让您将自定义操作绑定到特定的魔术触控板或鼠标手势。例如&#xff0c;三指单击可以执行粘贴。通过执行键盘快捷键、控制浏览器的选项卡、单击鼠标中键等来改进您的工作流程。 Multitouch 1.27.28 免激活版下载 强大的手势引擎 精心打造的触控板和 Magic …

【分布式通信】NPKit,NCCL的Profiling工具

NPKit介绍 NPKit (Networking Profiling Kit) is a profiling framework designed for popular collective communication libraries (CCLs), including Microsoft MSCCL, NVIDIA NCCL and AMD RCCL. It enables users to insert customized profiling events into different C…

Ubuntu 22.04.4 LTS磁盘扩容

安装gpartedsudo apt updatesudo apt install gparted然后启动gpartedsudo gparted启动成功会完成一个新的对话框,直接调整磁盘大小的话会提示失败扩容查看只读文件系统的详细信息,点击Information(信息) 查看磁盘的挂载位置按顺序运行以下命令sudo -i mount -o remount -r…