机器学习(四)之无监督学习

news/2024/5/19 16:24:40

前言:

前面写了监督学习的几种算法,下面就开始无监督啦!
如果文章有错误之处,小伙伴尽情在评论区指出来(嘿嘿),看到就会回复的。

 1.聚类(Clustering)

1.1 概述(Overview of clustering methods)

 

 当这个类有一定形状(图的最上两行),即非平面流体,并且标准的欧式距离不是正确的度量标准时,聚类是非常有用的。

1.2 K-means

1.2.1 概念

通过把样本分离成 n 个具有相同方差的类的方式来对数据进行聚类,最小化一个称为惯量或簇内平方和的准则(见下文)。该算法需要指定簇的数量。它可以很好地扩展到大量样本,并已经在许多不同领域的应用领域被广泛使用。

注:簇和类应该是一样的概念,我们一同使用。

 1.2.2 实现

X_{i}是样本,\displaystyle \mu _{i}是簇心。下面是误差公式:

  1. 输入K和数据集N,tol(阈值)
  2. 随意初始化一个K个样本作为一个簇的中心(质心)
  3. 将离质心近的样本归为一类,计算簇內平方和误差
  4. 计算簇內均值更新质心
  5. 重复3,4步骤直到误差<tol或者到了最大循环次数,跳出循环,返回簇心

 

说明:

这个K-Mean需要调参(比悲伤更悲伤的事) 

n_clusters(K值),

max_iter(最大收敛次数),

n_init(不同的初始化质心运行算法的次数,一般不需要修改,默认是10,如果你的K值较大,可以适当增大),

algorithm:有“auto”, “full” or “elkan”三种选择。"full"就是传统的K-Means算法, “elkan”是elkan K-Means算法。默认的"auto"则会根据数据值是否是稀疏的,来决定如何选择"full"和“elkan”。一般数据是稠密的,那么就是 “elkan”,否则就是"full"。一般来说建议直接用默认的"auto"

1.2.3 代码

import matplotlib.pyplot as plt
import mpl_toolkits.mplot3dimport numpy as npfrom sklearn import datasets
from sklearn.cluster import KMeansnp.random.seed(5)
iris=datasets.load_iris()
x=iris.data  #4个特征
y=iris.targetestimators=[('K_means_iris_8',KMeans(n_clusters=8)),('K_means_iris_3',KMeans(n_clusters=3)),('K_means_iris_bad_init',KMeans(n_clusters=3,n_init=1,init='random')),
]
fig=plt.figure(figsize=(10,8))   #指定宽高:画一个1500*1200的图
titles=["8 clusters","3 clusters","3 clusters,bad initialization"]
for idx,((name,est),title) in enumerate(zip(estimators,titles)):  #使用每个不同 的方法进行训练和画图ax=fig.add_subplot(2,2,idx+1,projection="3d",elev=48,azim=134)est.fit(x)labels=est.labels_ax.scatter(x[:,3],x[:,0],x[:,2],c=labels.astype(float),edgecolor='k')  #取了三个特征进行画图ax.xaxis.set_ticklabels([])ax.yaxis.set_ticklabels([])ax.zaxis.set_ticklabels([])ax.set_xlabel('Patel width')ax.set_ylabel('Sepal length')ax.set_zlabel('Patel length')ax.set_title(title)ax=fig.add_subplot(2,2,4,projection='3d',elev=48,azim=134)  #增加一个子图
for name,label in [("Setosa", 0), ("Versicolour", 1), ("Virginica", 2)]:ax.text3D(x[y==label, 3].mean(),   ###x[y==label, 3]中间有个空格,我找了半个小时!!!x[y==label, 0].mean(),x[y==label, 2].mean()+2,name,horizontalalignment="center",bbox=dict(alpha=0.2,edgecolor='w',facecolor='w'),)
ax.scatter(x[:,3],x[:,0],x[:,2],c=y,edgecolor='k')
ax.xaxis.set_ticklabels([])
ax.yaxis.set_ticklabels([])
ax.zaxis.set_ticklabels([])
ax.set_xlabel("Petal width")
ax.set_ylabel("Sepal length")
ax.set_zlabel("Petal length")
ax.set_title("Ground Truth")
plt.subplots_adjust(wspace=0.25,hspace=0.25)
plt.show()

 总结:

从上图中可以看出,K值很大影响了这个簇分的好不好,所以这个很重要。下面这个n_init比上面那个要差一点是因为值太小了。

模型好坏跟参数太息息相关啦!!!

1.2.4 拓展

Mini Batch K-Means:

这个和K-Means差不多,只是每次取小批量的数据进行训练。这些小批量极大减少了收敛到局部解所需的计算量。 与其他降低 k-means 收敛时间的算法相比,小批量 k-means 产生的结果一般只比标准算法略差。

1.3  AP聚类算法(Affinity propagation)

1.3.1 引入

概念:

通过在不同点之间不断的传递信息,从而最终选出聚类中心,完成聚类。

优点:
  1. 不需要指定最终聚类族的个数
  2. 已有数据点作为最终的聚类中心,而不是新生成一个族中心
  3. 模型对数据的初始值不敏感
  4. 对初始相似度矩阵数据的对称性没有要求
  5. 相比与K-centers聚类方法,其结果的平方差误差较小

1.3.2  实现

 好啦,后面有时间再填一些算法。

欢迎大家点赞,收藏!


http://www.mrgr.cn/p/68634564

相关文章

上位机图像处理和嵌入式模块部署(树莓派4b与视觉slam十四讲)

【 声明&#xff1a;版权所有&#xff0c;欢迎转载&#xff0c;请勿用于商业用途。 联系信箱&#xff1a;feixiaoxing 163.com】 实际使用中&#xff0c;树莓派4b是非常好的一个基础平台。本身板子价格也不是很贵&#xff0c;建议大家多多使用。之前关于vslam&#xff0c;也就是…

WAF攻防-漏洞发现协议代理池GobyAwvsXray

知识点 1、Http/s&Sock5协议 2、Awvs&Xray&Goby代理 3、Proxifier进程代理使用 4、Safedog&BT&Aliyun防护在漏洞发现中&#xff0c;WAF会对三个方向进行过滤拦截&#xff1a; 1、速度频率问题&#xff08;代理池解决&#xff09; 2、工具的指纹被识别&am…

XMU《计算机网络与通信》第三次实验报告

一、个人信息 学号:************** 姓名:### 二、实验目的理解TCP和UDP协议主要特点掌握socket的基本概念和工作原理,编程实现socket通信三、实验任务与结果 任务 1 前置任务开启两个终端窗口,分别编译、运行 server_example.c 和 client_example.c,观察它们实现的功能。可…

vis.js样式3d图形

代码案例<!DOCTYPE html> <html><head><title>Graph 3D demo</title><style>body {font: 10pt arial;}</style><scripttype="text/javascript"src="https://unpkg.com/vis-graph3d@latest/dist/vis-graph3d.min.j…

Redis系列之Cluster集群搭建

在上一篇博客&#xff0c;我们学习Redis哨兵Sentinel集群的搭建&#xff0c;redis的哨兵模式提供了比如监控、自动故障转移等高可用方案&#xff0c;但是这种方案&#xff0c;容量相对固定&#xff0c;要进行持续扩容或者数据分片就不适合&#xff0c;所以有另外一种更复杂的集…

使用 ECharts 绘制咖啡店各年订单的可视化分析

使用 ECharts 绘制咖啡店各年订单的可视化分析 在这篇博客中&#xff0c;我将分享一段使用 ECharts 库创建可视化图表的代码。通过这段代码&#xff0c;我们可以直观地分析咖啡店各年订单的情况。 饼图 这段代码包含了两个 ECharts 图表&#xff0c;一个是饼图&#xff0c;用…

vis.js线条3d图形

代码案例<!DOCTYPE html> <html><head><title>Graph 3D demo</title><style>body {font: 10pt arial;}</style><scripttype="text/javascript"src="https://unpkg.com/vis-graph3d@latest/dist/vis-graph3d.min.j…

华为数通HCIA ——企业网络架构以及产品线

一.学习目标&#xff1a;精讲网络技术&#xff0c;可以独立搭建和维护中小企业网络&#xff01; 模拟器&#xff08;华为方向请安装ENSP&#xff0c;Ensp-Lite已有安装包&#xff0c;号称功能更加完善-这意味着要耗费更多的系统资源但是仅对华为内部伙伴申请后方可使用&#x…

Linux RTC驱动深入解析

目录标题 实时时钟&#xff08;RTC&#xff09;基础Linux内核中的RTC框架RTC设备类设备树&#xff08;Device Tree&#xff09; 编写Linux RTC驱动1. 初始化和注册2. RTC设备操作函数3. 清理函数 测试RTC驱动驱动开发的挑战总结 在许多嵌入式系统和服务器上&#xff0c;实时时钟…

一三云:教你小型企业如何选择云服务器

在数字化时代,云服务器已成为小型企业实现数字化转型的关键工具。对于小型企业而言,选择合适的云服务器不仅能够降低IT成本,提高运营效率,还能够确保数据的安全性和业务的连续性。然而,面对市面上众多云服务器提供商和复杂的产品选择,小型企业往往感到困惑和不知所措。本…

深入理解高级加密标准(Advanced Encryption Standard)

title: 深入理解高级加密标准&#xff08;Advanced Encryption Standard&#xff09; date: 2024/4/23 20:04:36 updated: 2024/4/23 20:04:36 tags: AES概述加密原理优势特点算法详解安全性应用实践案例分析 第一章&#xff1a;AES概述 AES的历史和背景 历史&#xff1a; 高…

YOLOV8训练问题

代码如上,效果如下:无限循环打印权重文件修改为如下即可,通过if __name__ == __main__使得代码不会被其余文件循环调用(具体为何被调用不知):

【MySQL 数据宝典】【磁盘结构】- 005 Undo log 撤销日志

一、基本介绍 ​ 每当我们要对一条记录做改动时&#xff08;这里的改动可以指 INSERT 、 DELETE 、 UPDATE &#xff09;&#xff0c;都需要留一手 -> 把回滚时所需的东西都给记下来 ​ 你插入一条记录时&#xff0c;至少要把这条记录的主键值记下来&#xff0c;之后回滚的…

maven仓库下载不下来的包如何自己安装(本地宝导入到maven仓库)

1.下载jar包 https://mvnrepository.com/ 在官网上搜索jar包,点击下载2.将jar包放在一个没有中文的路径下(我放在了D盘根路径下) 打开CMD框执行下面的命令 mvn install:install-file -Dfile=D:\kingbase8-8.6.0.jar -DgroupId=com.kingbase -DartifactId=kingbase8 -Dversio…

在PostgreSQL中如何实现递归查询,例如使用WITH RECURSIVE构建层次结构数据?

文章目录 解决方案使用WITH RECURSIVE进行递归查询示例代码 总结 在PostgreSQL中&#xff0c;递归查询是一种非常强大的工具&#xff0c;它可以用来查询具有层次结构或树形结构的数据。例如&#xff0c;你可能会在员工-经理关系、目录结构或组织结构图中遇到这样的数据。为了处…

ZStack教育云计算解决方案入选高质量数字化转型技术解决方案集

近日&#xff0c;中国信通院“铸基计划”《高质量数字化转型技术解决方案&#xff08;2023年度&#xff09;》&#xff08;以下简称“方案集”&#xff09;发布&#xff0c;云轴科技ZStack智慧教育云计算解决方案入选《高质量数字化转型技术解决方案集》。 为促进数字化转型相…

HarmonyOS NEXT 实战开发—Grid和List内拖拽交换子组件位置

本示例分别通过onItemDrop()和onDrop()回调,实现子组件在Grid和List中的子组件位置交换。介绍 本示例分别通过onItemDrop()和onDrop()回调,实现子组件在Grid和List中的子组件位置交换。 效果图预览使用说明:拖拽Grid中子组件,到目标Grid子组件位置,进行两者位置互换。 拖拽…

An Analysis of Sequential Recommendation Datasets

目录概统计角度论证实验论证代码Woolridge D., Wilner S. and Glick M. An analysis of sequential recommendation datasets. PERSPECTIVES, 2021.概 本文讨论了 MovieLens 系列数据集是否适用于序列推荐. 统计角度论证作者为了论证 MovieLens 不适合作为序列推荐数据集, 首先…

Docker(二十)-Docker容器CPU、memory资源限制

背景 在使用 docker 运行容器时,默认的情况下,docker没有对容器进行硬件资源的限制,当一台主机上运行几百个容器,这些容器虽然互相隔离,但是底层却使用着相同的 CPU、内存和磁盘资源。如果不对容器使用的资源进行限制,那么容器之间会互相影响,小的来说会导致容器资源使用…

Docker(十七)-修改Docker容器启动配置参数

有时候,我们创建容器时忘了添加参数 --restart=always ,当 Docker 重启时,容器未能自动启动,现在要添加该参数怎么办呢,方法有二: 1、Docker 命令修改 docker container update --restart=always 容器名字 2、直接改配置文件 首先停止容器,不然无法修改配置文件 配置文件…