数据挖掘(一)数据类型与统计

news/2024/5/21 4:17:49

前言

打算新开一个笔记系列,基于国防科技大学 丁兆云老师的《数据挖掘》
数据挖掘

1、数据类型与统计

在这里插入图片描述

数据统计

最大值,最小值,平均值,中位数,位数,方差等统计指标

df.describe() 
#当调用df.describe()时,它会计算DataFrame中数值列的统计指标,并返回一个包含以下统计信息的新DataFrame:计数(count):每列非缺失值的数量。平均值(mean):每列的平均值。标准差(std):每列的标准差。最小值(min):每列的最小值。四分位数(25%50%75%):每列的第25%,第50%,和第75%的百分位数。最大值(max):每列的最大值。
异常值可视化分析

箱线图、直方图、散点图

箱线图(Box Plot)、直方图(Histogram)和散点图(Scatter Plot)是常用的数据可视化工具,可以用于异常值检测。

  1. 箱线图:箱线图通过展示数据的分布情况来检测异常值。它将数据分为四分位数,并根据四分位数的范围绘制一个箱体,箱体中的中位数标记为一条线。在箱体上方和下方绘制了称为"whiskers"的线段,用于表示数据的分布范围。超出"whiskers"范围的点被认为是异常值。因此,箱线图可以通过观察超出箱体范围的点来检测异常值。
  2. 直方图:直方图可以显示数据的分布情况。它将数据划分为一系列的区间(称为"bin"),并计算每个区间中数据点的数量。直方图可以帮助我们观察数据是否呈现正态分布或偏态分布。异常值通常在直方图中表现为与主要数据分布不一致的极端值。
  3. 散点图:散点图可以展示两个变量之间的关系。通过绘制数据点的坐标,我们可以观察数据的分布模式。在散点图中,异常值通常是与其他数据点明显分离的点,远离其他数据点的位置。另外还可以用来观察相关性分布

在这里插入图片描述

数据相似性

在这里插入图片描述

二值属性

对于二值属性(Binary Attribute),可以使用以下方法进行邻近度(Proximity)测量:

  1. 汉明距离(Hamming Distance):汉明距离是衡量两个等长字符串之间的差异的度量。对于二值属性,可以将其表示为由0和1组成的字符串。汉明距离是指在相同位置上不同的位数。例如,对于属性A和属性B,A的取值为[0, 1, 1, 0],B的取值为[1, 0, 1, 1],它们之间的汉明距离为2,因为有两个位置上的值不同。
  2. 杰卡德相似系数(Jaccard Similarity Coefficient):杰卡德相似系数用于衡量两个集合的相似性。对于二值属性,可以将其视为集合,其中1表示属性存在,0表示属性不存在。杰卡德相似系数定义为两个属性同时存在的比例除以两个属性中任何一个存在的比例。例如,对于属性A和属性B,A的取值为[0, 1, 1, 0],B的取值为[1, 0, 1, 1],通过计算它们的交集数量和并集数量,杰卡德相似系数为0.33。
  3. 包含关系(Containment):对于二值属性,可以检查两个属性之间的包含关系。如果一个属性的取值完全包含在另一个属性的取值中,那么它们的包含关系为真。例如,属性A的取值为[0, 1, 0, 1],属性B的取值为[0, 1, 0, 1, 1],属性A包含于属性B。

数值属性

对于数值属性(Numeric Attribute),可以使用以下方法进行邻近度(Proximity)测量:

  1. 欧氏距离(Euclidean Distance):欧氏距离是最常用的距离度量方法,用于衡量数值属性之间的差异。对于两个数值属性,欧氏距离定义为它们在每个维度上差值的平方和的平方根。例如,对于属性A和属性B,它们的取值分别为a和b,则欧氏距离为√((a₁ - b₁)² + (a₂ - b₂)² + … + (aₙ - bₙ)²)。
  2. 曼哈顿距离(Manhattan Distance):曼哈顿距离也称为城市街区距离,用于衡量数值属性之间的差异。对于两个数值属性,曼哈顿距离定义为它们在每个维度上差值的绝对值之和。例如,对于属性A和属性B,它们的取值分别为a和b,则曼哈顿距离为|a₁ - b₁| + |a₂ - b₂| + … + |aₙ - bₙ|。
  3. 闵可夫斯基距离(Minkowski Distance):闵可夫斯基距离是欧氏距离和曼哈顿距离的推广形式,可以根据参数p的不同取值来衡量数值属性之间的差异。当p=2时,闵可夫斯基距离等同于欧氏距离;当p=1时,闵可夫斯基距离等同于曼哈顿距离。
  4. 切比雪夫距离(Chebyshev Distance):切比雪夫距离用于衡量数值属性之间的最大差异。对于两个数值属性,切比雪夫距离定义为它们在每个维度上差值的绝对值的最大值。例如,对于属性A和属性B,它们的取值分别为a和b,则切比雪夫距离为max(|a₁ - b₁|, |a₂ - b₂|, …, |aₙ - bₙ|)。

余弦相似性

余弦相似性(Cosine Similarity)是一种常用的相似性度量方法,用于衡量两个向量之间的方向相似程度,特别适用于文本或高维度数据的相似性计算。

在信息检索、推荐系统、文本聚类等领域,余弦相似性常被用于计算文本或高维度数据之间的相似性或相关性。

在这里插入图片描述


http://www.mrgr.cn/p/37473024

相关文章

ContEA阅读笔记

Facing Changes: Continual Entity Alignment for Growing Knowledge Graphs 面对变化:不断增长的知识图谱的持续实体对齐 Abstract 实体对齐是知识图谱(KG)集成中一项基本且重要的技术。多年来,实体对齐的研究一直基于知识图谱是静态的假设&#xff…

4. 从感知机到神经网络

目录 1. 从感知机到神经网络 2. 最简单的神经网络 3. 激活函数的引入 1. 从感知机到神经网络 之前章节我们了解了感知机,感知机可以处理与门、非与门、或门、异或门等逻辑运算;不过在感知机中设定权重的工作是由人工来做的,而设定合适的&a…

深入Django:用户认证与权限控制实战指南

title: 深入Django:用户认证与权限控制实战指南 date: 2024/5/7 18:50:33 updated: 2024/5/7 18:50:33 categories: 后端开发 tags: AuthDecoratorsPermissionsGuardianRESTAuthSessionMgmtMFA 第1章:入门Django与设置 1.1 Django安装与环境配置 在…

深入理解TDD(测试驱动开发):提升代码质量的利器

在日常的软件开发工作中,我们常常会遇到这样的问题:如何在繁忙的项目进度中,保证我们的代码质量?如何在不断的迭代更新中,避免引入新的错误?对此,有一种有效的开发方式能帮助我们解决这些问题&a…

H5 处理点击元素高亮、自定义按钮、去除焦点边框

1、设置移动设备上点击元素时出现的高亮颜色 *{-webkit-tap-highlight-color: transparent; }2、如果你想要自定义按钮的样式,你可以使用 -webkit-appearance: none; 来移除按钮的默认样式 .button {-webkit-appearance: none;appearance: none; /* 兼容性更好的通…

如何创建window11虚拟机,超详细!!!

为什么要创建window11虚拟机,有了虚拟机,可以避免一些软件的危害,我们可以在虚拟机里,测试软件的安全性。当然你也可以在虚拟机里体验下流氓软件带来的快乐。众所周知,流氓软件会修改默认浏览器,将几款流氓…

OpenWRT有线桥接部署教程

前言 之前咱们讲到OpenWRT部署WAN实现PPPoE拨号上网和自动获取IP模式上网的办法: OpenWRT设置PPPoE拨号教程 OpenWRT设置自动获取IP,作为二级路由器 这一次,咱们尝试用OpenWRT有线桥接上一级路由器的教程。 可能有小伙伴敏锐地发现了&am…

金丝燕智能门锁技术支持

1、如何通过金丝燕App设置门锁? 在首页App首页,您可以通过点击门锁右上角设置按钮进入门锁设置页面,进行省电模式设置,开启通知,设备解绑等操作以下是门锁设置页面:2、 如何给让我的门锁连接网络? 第一步:点击金丝燕App首页右下角“+”号: 第二步:选择设备第三步:输入Wi-Fi信…

Docker-harbor

一、搭建本地私有仓库 1.1 下载Registry镜像 1.2 添加本地私有仓库配置 1.3 重启服务并运行Registry容器 1.4.容器的操作 1.4.1 拉取Nginx镜像并为镜像打标签 1.4.2 上传到私有仓库 1.4.3 列出私有仓库所有镜像 1.4.4 列出私有仓库的镜像的所有标签 1.4.5 先删除原有…

[uniapp] 配置ts类型声明

我想引进图片,但是报错 声明一下就行 TypeScript 支持 | uni-app官网 创建tsconfig.json文件,复制官网的配置 然后在随便一个目录下写一个随便名字的.d.ts文件 例如这样 保存就行 因为ts是默认扫描全部的,所以要按照官网的写法 把不必要的排除掉就行,免得浪费性能

e语言----让信息框弹出位置跟随窗口

提醒:调试不起效果,需要编译好才行本文来自博客园,作者:__username,转载请注明原文链接:https://www.cnblogs.com/code3/p/18185605

单词反转字符串函数设计

简单设计一个以单词为个体的字符串翻转函数/*************************************************** file name:ReverseWorld.c* author :eon4051@163.com* date :2024/05/11* brief :单词反转字符串函数设计* note :None** CopyRight (c) 2024 eon…

Kettle连接Mysql数据库时报错——Driver class ‘org.gjt.mm.mysql.Driver‘ could not be found

一、问题描述 当我们使用ETL工具Kettle需要连接Mysql数据库进行数据清洗操作,在配置好Mysql的连接串内容后,点击【测试】按钮时报错【错误连接数据库 [MysqlTestConnection] : org.pentaho.di.core.exception.KettleDatabaseException: Error occurred while trying to conne…

e语言读写配置ini

两种方法本文来自博客园,作者:__username,转载请注明原文链接:https://www.cnblogs.com/code3/p/18185595

word 毕业论文格式调整

添加页眉页脚 页眉 首先在页面上端页眉区域双击,即可出现“页眉和页脚”设置页面: 页眉左右两端对齐 如果想要页眉页脚左右两端对齐,可以选择添加三栏页眉,然后将中间那一栏删除,即可自动实现左右两端对齐&#x…

Java毕设之学院党员管理系统的设计与实现

运行环境 环境说明: 开发语言:java 框架:springboot,vue JDK版本:JDK1.8 数据库:mysql5.7(推荐5.7,8.0也可以) 数据库工具:Navicat11 开发软件:idea/eclipse(推荐idea) Maven包:Maven3.3.9 系统实现 管理员功能实现 党员管理 管理员进入指定功能操作…

element ui的table多选

使用el-table的selection-change事件来获取选中的值&#xff1b; 例&#xff1a; html代码&#xff1a; <el-button type"primary" click"openTableSet">列表设置</el-button><!-- 列表设置弹框 --> <el-dialog :close-on-click-mo…

【专题】中国银行业2023年发展回顾及2024年展望报告合集PDF分享(附原数据表)

原文链接 :https://tecdat.cn/?p=36145 原文出处:拓端数据部落公众号 2023年,尽管面临全球经济复杂多变与国内经济多重挑战,中国银行业依然稳健前行,不仅圆满完成了社会经济发展的主要任务,还以“稳进相济,进而有为”的姿态,为实体经济的高质量发展提供了有力支撑,展望…

Docker 加持的安卓手机:随身携带的知识库(一)

这篇文章聊聊&#xff0c;如何借助 Docker &#xff0c;尝试将一台五年前的手机&#xff0c;构建成一个随身携带的、本地化的知识库。 写在前面 本篇文章&#xff0c;我使用了一台去年从二手平台购入的五年前的手机&#xff0c;K20 Pro。 为了让它能够稳定持续的运行&#xf…

力扣-题号2997

2997. 使数组异或和等于 K 的最少操作次数题目给你一个下标从 0 开始的整数数组 nums 和一个正整数 k 。 你可以对数组执行以下操作 任意次 :选择数组里的 任意 一个元素,并将它的 二进制 表示 翻转 一个数位,翻转数位表示将 0 变成 1 或者将 1 变成 0 。你的目标是让数组里…