机器学习理论基础—聚类算法

news/2024/5/16 16:21:43

机器学习理论基础—聚类算法

聚类的距离计算

聚类:物以类聚。将相似的样本聚集到一起,使得同一类簇的样本尽可能接近,不同类簇的样本尽可能远离。(无监督算法

对于距离的定义:满足下面的四个特点

  1. 非负性
  2. 同一性
  3. 对称性
  4. 传递性

在这里插入图片描述

常用的距离度量(连续/离散有序)

  • 明可夫斯基距离(Minkowski distance)
    在这里插入图片描述
  • 当p=2时退化为欧式距离(Euclidean distance)
    在这里插入图片描述
  • p = 1 退化成曼哈顿距离(Manhattan distance)只能沿着坐标轴的方向来进行计算
    在这里插入图片描述

常用的距离度量(离散无序)

使用VDM (Value Difference Metric)方法来进行度量。
在这里插入图片描述
m:特征u取值a的情况下的数量

原型聚类

常用的原型聚类算法是kmeans算法

原型(prototye)指类结构能通过一组典型的特例刻画。比如男、女类似的。给定样本集D={x1,x2,···,xm},k均值算法针对聚类所得簇划分C={C1,C2,···,Ck},求解最小化平方误差问题

在这里插入图片描述
求解改式需要考虑样本集D所有可能的划分,是一个NP-hard问题。一般来说,我们采用迭代算法求解近似划分。
在这里插入图片描述

kmeans算法的流程
在这里插入图片描述

密度聚类

常用的密度聚类算法为:DBSCAN

密度聚类假设聚类结构能够通过样本分布的紧密程度确定。它从样本密度的角度考察样本间的可连接性,并基于可连接样本不断扩展聚类簇得到最终的聚类结果。DBSCAN是密度聚类的代表之一。 它基于一组邻域参数(∈,MinPts)刻画样本分布的紧 密程度。关于DBSCAN的几个概念如下:

在这里插入图片描述

DBSCAN定义的簇为:最大密度相连的样本集合为一个簇。

  1. 连接性:同一个簇内任意两样本必然密度相连
  2. 最大性:密度可达的两个样本必定属于同一个簇

算法的流程步骤:
在这里插入图片描述

层次聚类

层次聚类试图将数据划分成为不同的层次,因此聚类结果呈现明显的树状结构。

AGNES是一种采用自底向上聚合策略的层次聚类算法。在聚类过程中不断合并距离最近的两个类簇,知道达到预期的聚类簇数目。算法的核心在于如何定义类簇中之间的距离

  • 最小距离(两个簇最近的样本距离
    在这里插入图片描述

  • 最大距离(两个簇最远的样本距离
    在这里插入图片描述

  • 平均距离(两个簇两两平均的样本距离
    在这里插入图片描述
    AGNES算法流程
    在这里插入图片描述

总结:结合西瓜书中的具体案例来进行进一步的学习,文章只是对聚类算法进行简单的概述


http://www.mrgr.cn/p/17054215

相关文章

达梦(DM) SQL日期操作及分析函数

达梦DM SQL日期操作及分析函数 日期操作SYSDATEEXTRACT判断一年是否为闰年周的计算确定某月内第一个和最后一个周末某天的日期确定指定年份季度的开始日期和结束日期补充范围内丢失的值按照给定的时间单位查找使用日期的特殊部分比较记录 范围处理分析函数定位连续值的范围查找…

CSS Counter Styles

CSS Counter Styles允许您自动对 HTML 文档中的元素进行编号或标记。我们定义一个具有特定名称和起始值的 counter,然后根据 CSS 规则递增或递减该计数器。使用 counter-reset 属性定义计数器,设置其起始值,然后使用 counter-increment 属性根据需要递增或递减计数器。还可以…

Unity打开Android文件管理器并加载文件

1、在AssetStore商店中加入免费插件 2、调用代码 3、使用UnityWebRequest加载路径数据

linux开发板开机启动向日葵

硬件:orangepi 5 pro 操作系统:ubuntu 20.4 lts 安装向日葵 根据我的实测,arm架构的ubuntu系统只能安装向日葵提供的麒麟系统的那个版本,具体安装方式官网下载页面有 允许任意用户连接到 X11 使用root用户登录后打开终端输入一下…

国家标准信息查询

国家标准信息查询 在我们的项目工作中,经常会碰到涉及特殊字段的校验问题,比如身份证号码、统一社会信用代码、不动产产权证号等。这些字段都遵循着严格的国家标准(以下简称为国标),因此,仅仅依赖简单的位数校验是远远不够的,我们必须按照国标的要求对输入的字符串进行详…

深入理解Python多进程:从基础到实战

title: 深入理解Python多进程:从基础到实战 date: 2024/4/29 20:49:41 updated: 2024/4/29 20:49:41 categories:后端开发tags:并发编程 多进程管理 错误处理 资源调度 性能优化 异步编程 Python并发库引言 在Python编程中,多进程是一种重要的并发编程方式,可以让我们充分利…

IntelliJ IDEA - Lombok supports: OpenJDK javac, ECJ

问题描述 java: You arent using a compiler supported by lombok, so lombok will not work and has been disabled.Your processor is: com.sun.proxy.$Proxy26Lombok supports: OpenJDK javac, ECJ 解决方案 在 IDEA 设置中 File -> Settings 中找到配置如下&#xff1…

如何将本地项目上传到Github(SSH方式)

天行健,君子以自强不息;地势坤,君子以厚德载物。 每个人都有惰性,但不断学习是好好生活的根本,共勉! 文章均为学习整理笔记,分享记录为主,如有错误请指正,共同学习进步。…

Word插件开发

VSTO是Visual Studio Tools for Office的简称,它是Microsoft Visual Studio的一个扩展,用于开发基于Microsoft Office平台的应用程序。VSTO提供了一套API和工具,使开发人员能够利用Visual Studio IDE来开发定制的Office解决方案。 在 Visual…

prime1

prime1 主机发现发现服务、得到80 http、22 ssh有登录框就SQL注入、密码爆破 无登录框就目录扫描目录扫描:drib dirsearch 御剑 dirbuster(kali终端输入,启动图形化界面) burpsuite普通扫描 dirb http://192.168.218.146/得到 http://192.168.218.146/dev http://192.168.218…

时间序列+即插即用注意力模块!只需几行代码,预测误差狂降35.99%

即插即用的注意力模块可以显著提高时间序列预测模型的性能和准确性,同时保持模型的简洁和高效。 与传统的时序模型相比,注意力模块通过自适应处理输入数据的特征,以增强特征提取和空间/时间感知的能力。同时它可以很容易地集成到现有的深度学…

Vue从0-1学会如何自定义封装v-指令

文章目录 介绍使用1. 理解指令2. 创建自定义指令3. 注册指令4. 使用自定义指令5. 自定义指令的钩子函数6. 传递参数和修饰符7. 总结 介绍 自定义封装 v-指令是 Vue.js 中非常强大的功能之一,它可以让我们扩展 Vue.js 的模板语法,为 HTML 元素添加自定义行…

HTML随机点名程序

案例要求 1.点击点名按钮&#xff0c;名字界面随机显示&#xff0c;按钮文字由点名变为停止 2.再次点击点名按钮&#xff0c;显示当前被点名学生姓名&#xff0c;按钮文字由停止变为点名 案例源码 <!DOCTYPE html> <html lang"en"> <head> <m…

2024.4.29

2024.4.29 【锦水汤汤,与君长诀!】 Monday 三月二十一数论专题 同余 oi.wiki! 除法定理 对于任何整数a,和正整数m,存在唯一整数q,r,使得满足\(0\le r < m,a = qm+r\) 其中$$q = \lfloor \frac{a}{m}\rfloor$$ 为商,\(r = a \ mod \ m\)为余数 余数 将a mod m记作余数 …

C#上位机与S7-200Smart通信注意事项

S7-200SMART连接 问题描述 我们使用C#开发上位机和S7-200Smart系列PLC交互数据时&#xff0c;大多会用到Sharp7、Snap7之类的通信类库。有些通信类库默认的使用的是PG连接资源&#xff0c;而对于S7-200Smart来说&#xff0c;它的PG连接资源只有1个。 官网200smart提到的连接数…

【Android】 网络技术

前言 本文用于记录Android网络技术的使用&#xff0c; 包括我们如何发起一条HTTP请求、解析XML、JOSN格式的数据以及最好用的网络库Retrofit。 使用HTTP协议访问网络 关于HTTP协议的工作原理&#xff0c;我们只需要知道客户端向服务器发起一条HTTP请求&#xff0c;服务器接收…

3分钟了解拍摄VR全景需要哪些硬件

VR全景图片是一张水平方向360度&#xff0c;垂直方向180度&#xff0c; 图片尺寸宽高比为2:1的图片。 通过720yun APP或720yun官网上传生成全景H5页面&#xff0c;即可360度全方位观看画面中的景象。 拍摄VR全景有很多方法&#xff0c;下面介绍用单反相机、全景相机、智能手机…

阿里DMR论文阅读

论文链接:Deep Match to Rank Model for Personalized Click-Through Rate Prediction 代码链接背景 目前推荐系统大多集中在研究怎么建模用户的个性化推荐,对user和item相关性的研究比较少,这篇论文结合match和rank阶段的特征提出了DMR网络,该网络主要包含Item-to-Item和U…

保姆级指南,从0到1打造你的个人开源项目

本文主要是想给希望开始写开源项目的同学们一些开源项目维护的实操建议,也算是给自己梳理一下做一个开源项目需要注意的事项。前言 各位好久不见,有些小伙伴可能知道大概1年多以前我开始维护log-record项目(Java业务操作日志记录框架)。这期间项目陆陆续续更新迭代、发布新…

Mysql启动报错:Job for mysqld.service failed because the control process exited with error code.

该方法会删除 mysql 数据,慎用centos7上使用yum安装mysql后,启动报错 [root@localhost ~]# systemctl start mysqldJob for mysqld.service failed because the control process exited with error code. See "systemctl status mysqld.service" and "journal…