【机器学习】集成学习---投票法(Voting)

news/2024/5/18 22:39:45

一、引言

  集成学习(Ensemble Learning)是机器学习领域中的一种重要策略,它通过结合多个模型的预测结果来提高整体性能。在单个模型容易过拟合或欠拟合的情况下,集成学习能够通过综合多个模型的优点来减少这种风险,从而提高模型的泛化能力。

  集成学习的核心思想在于“集思广益”,即多个模型通过不同的角度和方式来解决问题,从而得到更加全面和准确的答案。在实际应用中,集成学习已经被广泛应用于各种机器学习任务中,包括分类、回归、聚类等。

  在分类任务中,Voting集成学习算法是一种简单而有效的方法。它的基本思想是将多个分类器的预测结果进行汇总,通过投票的方式产生最终的分类结果。Voting算法可以充分利用不同分类器的优点,从而提高整体分类性能。

  具体来说,Voting算法可以分为硬投票软投票两种方式。硬投票是指每个分类器只输出一个最可能的类别标签,然后根据这些标签进行投票,选择票数最多的类别作为最终的分类结果。而软投票则允许分类器输出每个类别的概率或置信度,然后按照这些概率或置信度进行加权投票,从而得到更加准确的分类结果。

  Voting集成学习算法在实际应用中具有广泛的应用场景。例如,在图像识别领域,我们可以使用多个不同的卷积神经网络模型进行训练,并通过Voting算法将它们的预测结果进行集成,从而提高图像识别的准确率。在文本分类任务中,我们可以结合多种不同的特征提取方法和分类器,通过Voting算法来提高文本分类的性能。

  总的来说,Voting集成学习算法通过结合多个模型的预测结果,能够在分类任务中提高整体性能,减少过拟合和欠拟合的风险,是一种值得深入研究和应用的机器学习技术。在接下来的内容中,我们将对Voting集成学习算法进行更加详细的介绍,包括其基本原理、数学公式、应用案例以及实现代码等方面。

二、集成学习概述

  集成学习是一种强大的机器学习方法,它通过构建并结合多个学习器(也称为“基学习器”或“弱学习器”)的预测结果来完成学习任务。集成学习的主要目的是通过结合多个学习器的预测结果来提高模型的泛化能力和鲁棒性,降低单一学习器可能存在的过拟合或欠拟合风险。

  集成学习的基本原理在于,不同的学习器往往具有不同的偏差和方差特性,它们在各自的训练数据集上可能会产生不同的预测结果。当我们将这些学习器的预测结果进行某种形式的结合时,可以期望它们的偏差和方差特性能够相互抵消或互补,从而得到更加稳定和准确的预测结果。

  集成学习的方法有很多种,其中一些常见的包括Bagging、Boosting和Stacking等。

  Bagging(Bootstrap Aggregating)是一种基于自助采样法的集成学习方法。它通过从原始数据集中随机抽取多个子数据集,并在每个子数据集上训练一个学习器,然后将这些学习器的预测结果进行结合。由于每个子数据集都是随机抽取的,因此每个学习器都是在不同的数据分布上进行训练的,这有助于降低模型的过拟合风险。

  Boosting则是一种通过迭代方式训练多个学习器的方法。在每次迭代中,Boosting都会根据当前学习器的预测结果对训练样本进行加权调整,使得后续学习器能够更加关注那些被错误分类的样本。通过这种方式,Boosting能够逐渐提高学习器的性能,并得到一个更加强大的集成模型。

  Stacking则是一种更加复杂的集成学习方法,它通过训练一个元学习器(meta-learner)来结合多个基学习器的预测结果。具体来说,Stacking首先使用原始数据集训练多个基学习器,然后将这些基学习器的预测结果作为新的特征输入到元学习器中进行训练。通过这种方式,Stacking能够充分利用不同基学习器的优点,并得到一个更加准确的集成模型。

  在这些集成学习方法中,Voting作为一种简单而有效的方法,受到了广泛的关注和应用。Voting的基本思想是将多个学习器的预测结果进行投票,选择票数最多的预测结果作为最终的输出。这种方法不需要像Bagging、Boosting或Stacking那样进行复杂的训练过程,因此实现起来相对简单。同时,由于Voting可以充分利用不同学习器的优点,它往往能够在分类任务中取得较好的性能。

  在后续的内容中,我们将对Voting集成学习算法进行更加详细的介绍,包括其基本原理、数学公式、应用案例以及实现代码等方面。

三、Voting集成学习算法介绍

  1、Voting的基本原理

  Voting,即投票法,是集成学习中一种直观且有效的方法。其核心思想是通过结合多个模型的预测结果来提高整体性能。在Voting集成中,每个模型都会根据输入数据给出自己的预测结果,然后这些预测结果会被汇总起来,通过某种方式产生一个最终的预测结果。

  Voting通常分为硬投票和软投票两种方式。硬投票是指每个模型只输出一个最可能的类别标签,然后根据这些标签进行投票,选择票数最多的类别作为最终的预测结果。而软投票则允许模型输出每个类别的概率或置信度,然后根据这些概率或置信度进行加权投票,从而得到最终的预测结果。

  硬投票的优点是简单直观,易于实现。但由于它只考虑了模型预测的类别标签,而没有利用模型对每个类别的概率或置信度信息,因此在某些情况下可能不是最优的。软投票则能够充分利用模型输出的概率或置信度信息,通过加权的方式结合不同模型的预测结果,通常能够取得更好的性能。

  2、Voting的数学公式

  对于硬投票,假设有N个模型参与投票,每个模型对样本 x x x的预测结果为 c i ( i = 1 , 2 , . . . , N ) c_i(i=1,2,...,N) cii=1,2,...,N,则最终的预测结果 C C C可以通过下式得出:

C = a r g m a x ( ∑ i = 1 N δ ( c i = C j ) ) C = argmax(∑_{i=1}^{N} δ(ci = Cj)) C=argmax(i=1Nδ(ci=Cj))
其中 j = 1 , 2 , . . . , K j=1,2,...,K j=1,2,...,K K K K为类别总数, δ δ δ为指示函数,当 c i c_i ci等于 C j C_j Cj时取值为1,否则为0。

  这个公式表示对每个类别进行投票计数,选择票数最多的类别作为最终的预测结果。
在这里插入图片描述

  对于软投票,假设每个模型输出的是样本 x x x属于各个类别的概率或置信度 p i ( j ) ( j = 1 , 2 , . . . , K ) p_i(j)(j=1,2,...,K) pi(j)j=1,2,...,K,则最终的预测结果 C C C可以通过下式得出:

C = a r g m a x ( ∑ i = 1 N w i ∗ p i ( j ) ) C = argmax(∑_{i=1}^{N} w_i * p_i(j)) C=argmax(i=1Nwipi(j))
  其中 w i w_i wi为每个模型的权重,通常可以取平均值(即 w i = 1 / N w_i=1/N wi=1/N)或者根据模型的性能进行调整。
在这里插入图片描述
  这个公式表示根据每个模型输出的概率或置信度进行加权投票,选择加权和最大的类别作为最终的预测结果。

  3、Voting的优缺点分析

  Voting方法的优点主要体现在以下几个方面:

  • 提高稳定性:通过结合多个模型的预测结果,可以减少单一模型可能存在的误差和噪声,从而提高整体预测的稳定性。
  • 降低过拟合风险:当使用不同的模型进行投票时,由于不同模型可能具有不同的偏差和方差特性,它们之间可能存在一定的互补性,从而降低过拟合的风险。
  • 简单易实现:Voting方法相对简单直观,不需要复杂的训练过程,易于在实际应用中实现。

  然而,Voting方法也存在一些潜在的缺点

  • 模型多样性要求高:为了充分发挥Voting的优势,参与投票的模型应该具有一定的多样性。如果所有模型都过于相似或者性能较差,那么投票结果可能并不会比单一模型更好。
  • 对异常值敏感:在某些情况下,如果某个模型对某个样本的预测结果存在异常值(如极端概率或置信度),那么这可能会对整个投票结果产生较大影响。因此,在使用Voting方法时需要注意对异常值的处理。

  综上所述,Voting作为一种简单而有效的集成学习方法,在实际应用中具有广泛的应用前景。然而,在使用时需要根据具体问题和数据集的特点进行合理选择和调整,以充分发挥其优势并避免潜在缺点。

四、Voting集成学习算法的案列实现代码

  Voting集成学习算法在实际问题中广泛应用,下面我们将通过一个具体的分类任务案例来展示其应用效果,并分析案例中的数据集、模型选择、性能评估等方面。

  1、应用案例

  假设我们面临一个分类问题,即根据数据集load_iris判断类别。我们有一个包含一份的数据集,每个样本都有一些特征,如尺寸等。

  为了解决这个问题,我们可以使用Voting集成学习算法来结合多个模型的预测结果。具体来说,我们可以选择几个不同的分类器,如决策树、朴素贝叶斯和支持向量机,然后在同一个数据集上进行训练。

  在训练完成后,我们可以使用这些分类器对测试集中的邮件进行预测,并将预测结果进行Voting集成。对于硬投票,我们直接统计每个分类器预测的类别标签,并选择票数最多的类别作为最终的预测结果。对于软投票,我们则根据每个分类器输出的概率或置信度进行加权投票,得到最终的预测结果。

  通过应用Voting集成学习算法,我们可以发现整体分类性能得到了提升。与单个分类器相比,Voting集成能够更好地处理复杂和多样的数据特征,提高预测的准确性和稳定性。

  2、案例实现

  在Python中,我们可以使用scikit-learn库来方便地实现Voting集成学习算法。下面将展示一个使用scikit-learn库实现Voting集成学习算法的例子,包括数据预处理、模型训练、Voting集成以及性能评估等步骤。

  首先,我们需要导入必要的库和模块:

import numpy as np
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.svm import SVC
from sklearn.tree import DecisionTreeClassifier
from sklearn.ensemble import VotingClassifier
from sklearn.metrics import accuracy_score

  接下来,我们加载数据集并进行预处理:

# 加载iris数据集
iris = load_iris()
X = iris.data
y = iris.target# 划分训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

  然后,我们创建并训练多个基础模型:

# 创建基础模型
log_reg = LogisticRegression(max_iter=1000)
svm = SVC(probability=True)
dec_tree = DecisionTreeClassifier()# 将模型放入列表中
models = [('lr', log_reg), ('svm', svm), ('dt', dec_tree)]

  现在,我们创建一个VotingClassifier对象,并传入这些模型:

# 创建VotingClassifier对象,使用软投票
voting_clf = VotingClassifier(estimators=models, voting='soft')# 训练VotingClassifier
voting_clf.fit(X_train, y_train)

  接下来,我们使用训练好的VotingClassifier进行预测,并评估其性能:

# 对测试集进行预测
y_pred = voting_clf.predict(X_test)# 计算准确率
accuracy = accuracy_score(y_test, y_pred)
print(f"Voting Classifier Accuracy: {accuracy:.2f}")

  在这个例子中,我们使用了iris数据集,它是一个多分类问题。我们选择了逻辑回归、支持向量机和决策树作为基础模型,并将它们放入VotingClassifier中进行集成。我们使用了软投票方式,即根据每个模型输出的概率进行加权投票。最后,我们计算了模型在测试集上的准确率作为性能评估指标。

  请注意,在实际应用中,我们可能需要进行更多的模型选择和调优,以及使用交叉验证等技术来更准确地评估模型的性能。此外,对于不同的问题和数据集,可能还需要进行适当的数据预处理和特征工程,以提高模型的性能。

  通过以上的代码示例,我们可以看到使用scikit-learn库实现Voting集成学习算法是非常简单和直观的。读者可以根据自己的需求和问题,灵活调整模型的选择、参数的设置以及性能评估的方法。

五、注意事项与改进方向

  在使用Voting集成学习算法时,我们需要注意一些问题,并对算法进行改进以提高其性能。下面将分别介绍注意事项和改进方向。

注意事项

  1. 模型的选择:选择合适的基模型对于Voting集成算法至关重要。基模型之间应该具有一定的差异性和互补性,以便在集成时能够充分利用它们的优点。在选择模型时,可以考虑模型的性能、复杂度和训练时间等因素。

  2. 权重的调整:在Voting集成中,权重的分配会直接影响最终的预测结果。默认情况下,每个基模型的权重是相等的,但在实际应用中,某些模型可能比其他模型更准确。因此,我们可以根据模型的性能调整权重,给予更准确的模型更大的权重。

  3. 数据集的划分:在训练基模型时,需要注意数据集的划分。要确保每个模型都是在相同的训练集上进行训练的,以便在集成时能够公平地比较它们的性能。同时,还需要使用独立的测试集来评估Voting集成模型的性能。

改进方向

  1. 引入模型选择机制:可以通过引入模型选择机制来自动选择最佳的基模型组合。例如,可以使用交叉验证和性能评估指标来评估不同模型组合的性能,并选择性能最好的组合作为最终的Voting集成模型。

  2. 优化投票策略:除了硬投票和软投票外,还可以探索其他的投票策略。例如,可以考虑使用加权投票的方式,根据模型的性能或不确定性来分配权重。此外,还可以研究基于其他指标的投票策略,如模型的置信度或输出的概率分布。

  3. 集成其他类型的模型:Voting集成不仅限于使用相同类型的基模型,还可以考虑将不同类型的模型进行集成。例如,可以将决策树、神经网络和支持向量机等不同类型的模型结合起来,以充分利用它们的互补性。

六、总结与展望

  Voting集成学习算法是一种简单而有效的集成方法,通过结合多个基模型的预测结果来提高整体的分类性能。它具有易于实现、灵活性高和可解释性强等优点,适用于各种分类任务。

  然而,Voting集成也存在一些局限性,如基模型的选择和权重的调整等问题。为了进一步提高其性能,我们可以探索改进方向,如引入模型选择机制、优化投票策略以及集成其他类型的模型等。

  展望未来,集成学习将继续是机器学习领域的研究热点之一。随着数据量的不断增加和模型复杂度的提高,我们需要更加高效和准确的集成方法来应对各种挑战。同时,还可以结合深度学习、强化学习等其他机器学习方法,探索更加综合和强大的集成策略。

  总之,Voting集成学习算法作为一种有效的集成方法,在实际应用中具有广泛的应用前景。通过不断的研究和改进,我们可以进一步提高其性能,为机器学习领域的发展做出更大的贡献。

附录:本案列完整的代码如下:

import numpy as np
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.svm import SVC
from sklearn.tree import DecisionTreeClassifier
from sklearn.ensemble import VotingClassifier
from sklearn.metrics import accuracy_score# 加载iris数据集
iris = load_iris()
X = iris.data
y = iris.target# 划分训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)# 创建基础模型
log_reg = LogisticRegression(max_iter=1000)
svm = SVC(probability=True)
dec_tree = DecisionTreeClassifier()# 将模型放入列表中
models = [('lr', log_reg), ('svm', svm), ('dt', dec_tree)]# 创建VotingClassifier对象,使用软投票
voting_clf = VotingClassifier(estimators=models, voting='soft')# 训练VotingClassifier
voting_clf.fit(X_train, y_train)# 对测试集进行预测
y_pred = voting_clf.predict(X_test)# 计算准确率
accuracy = accuracy_score(y_test, y_pred)
print(f"Voting Classifier Accuracy: {accuracy:.2f}")

http://www.mrgr.cn/p/47554188

相关文章

记内网http洪水攻击,导致网页无法访问一事

事由 最近两日,部分同事在访问税纪云平台时,登录跳转页面频繁转圈、要么就是出现无法连接的错误提示。 无法访问此页面 已重置连接。 请尝试: 检查连接检查代理和防火墙运行 Windows 网络诊断经过以下几方面的排查,无果。 后续通过检查…

[题解]CF61E Enemy is weak

CF61E Enemy is weak 如下图,第\(i\)行\(j\)列表示第\(j\)个数结尾,向前长度为\(i\)的逆序子序列个数。递推方式见下图。第一行全为\(1\)。 要填第\(2\)行的值,就往前找所有\(>\)当前元素的位置,把它们第\(1\)行的值加起来。 要填第\(3\)行的值,就往前找所有\(>\)当…

SSTV音频转图片

SSTV工具有很多,这里使用RX-SSTV慢扫描工具 下载安装 RX-SSTV解码软件 下载地址:https://www.qsl.net/on6mu/rxsstv.htm 一直点下一步,安装成功如下图: 虚拟声卡e2eSoft 由于SSTV工具是根据音频传递图片信息,正常解法需要一…

Visual Studio 项目发布时将资源目录文件夹所有文件拷贝到发布路径

1.背景 在 .NET 项目开发过程中,时常需要将资源文件夹复制到生成目录,以确保这些资源随项目输出。 2.方法找到当前项目例如:xxxxx.Api 双击 进入,对 .csproj文件内容 ,加入如下信息:<Target Name="CopyResourcesPublish" AfterTargets="Publish"…

04、数据保护技术

数据保护技术 1.磁盘镜像制作 1.1.Windows 磁盘镜像制作及恢复 GetData Forenisc Imager 该工具安装后,可将安装后的文件复制出来(类似绿色运行) 使用(需要管理员运行):https://getdataforensics.com/product/fex-imager/DataNumen Disk Image 1.2.Linux 磁盘镜像制作(命…

虚拟机VMware安装与Ubuntu

1.虚拟机安装 链接&#xff1a;百度网盘 请输入提取码 提取码&#xff1a;2fr6 CG54H-D8D0H-H8DHY-C6X7X-N2KG6 2.Ubuntu下载 Download Ubuntu Desktop | Ubuntu 3.设置 如后续要下一些软件越大越好

ctfshow web29-web40

命令执行 看清都过滤了些什么&#xff01;&#xff01; 知识点&#xff1a; web34&#xff1a;当;和()被过滤了就用语言结构&#xff0c;一般有echo print isset unset include require web37&#xff1a;data协议是将后面的字符串当成php代码执行&#xff0c;例如 /?cdat…

ASP.NET基于WEB的选课系统

摘要 设计本系统的目的是对选课信息进行管理。学生选课系统维护模块主要完成的是系统管理与维护功能。课题研究过程中&#xff0c;首先对系统管理模块进行了详尽的需求分析&#xff0c;经分析得到系统管理模块主要完成如下的功能&#xff1a;用户基本信息、选课信息的录入,查看…

感染了后缀为.360勒索病毒如何应对?数据能够恢复吗?

导言&#xff1a; 360勒索病毒&#xff0c;作为一种新型网络威胁&#xff0c;近年来在网络安全领域引起了广泛关注。这种病毒不仅危害个人计算机和数据安全&#xff0c;还对企业和组织造成了严重损失。深入了解.360勒索病毒的特点、传播途径和防范策略&#xff0c;对于保护我们…

visualstudio着色器设计器shadergraph使用

第一次使用着色器设计器。 vs的着色器设计器是hlsl的着色器设计器。不得不说里面节点得翻译是一坨屎。 附一个光线于法向量夹角渲染的设计图

MySQL表列数和行大小限制详解

MySQL表列数和行大小限制详解 MySQL在表的列数和行大小方面有一些限制&#xff0c;本文将对这些限制进行详细解释。 列数限制 MySQL对每个表的列数有硬限制为4096列&#xff0c;但对于给定的表&#xff0c;实际的最大列数可能会更少。确切的列限制取决于几个因素&#xff1a…

linux系统管理

1.用户、用户组 创建用户 useradd [-g -d] 用户名 选项:-g指定用户的组,不指定-g,会创建同名组并自动加入,指定-g需要组已经存在,如已存在同名组,必须使用-g 选项:-d指定用户HOME路径,不指定,HOME目录默认在:/home/用户名 删除用户 userdel [-r] 用户名 选项:-r,删…

Ubuntu22.04.4 - apt - 笔记

一、修改源配置 这里使用的时候又出现了联不通的情况&#xff0c;换成国内镜像 在update cp /etc/apt/source.list /etc/apt/source.list.bak vim source.list 换源地址 修改完&#xff08;网上有&#xff0c;注意&#xff1a;根据Ubuntu版本不一样&#xff0c;部分内同也会不…

小型架构实验模拟

一 实验需求 二 实验环境 22 机器&#xff1a; 做nginx 反向代理 做静态资源服务器 装 nginx keepalived filebeat 44机器&#xff1a; 做22 机器的备胎 装nginx keepalived 99机器&#xff1a;做mysql的主 装mysqld 装node 装filebeat 77机器&#xff1a;做mysq…

Gitlab: Python项目CI/CD实践

目录 1. 说明 2. 准备工作 2.1 服务器 2.2 开发机hosts文件 2.3 项目 3. 步骤过程 3.1 建仓Fastapi T1 3.2 开发机测试构建与推送 ​编辑 3.3 在工作站添加gitlab-runner 3.4 提交代码&#xff0c;查看Pipelines结果 3.5 观察部署情况 4. 参考 1. 说明 分别以一个…

探索飞行奥秘:3D模型带你走进飞机涡轮发动机的世界

飞机涡轮发动机3D模型不仅是对真实发动机的精准复制,更是科技与艺术的完美结合。每一个细节都经过精心打磨,无论是复杂的叶片结构、精致的燃烧室,还是精密的控制系统,都让人叹为观止。仿佛置身于真实的发动机内部,感受着那股强大的力量从心底涌起。在浩瀚的蓝天下,飞机如…

C++高级特性:异常概念与处理机制(十四)

1、异常的基本概念 异常&#xff1a;是指在程序运行的过程中发生的一些异常事件&#xff08;如&#xff1a;除数为0&#xff0c;数组下标越界&#xff0c;栈溢出&#xff0c;访问非法内存等&#xff09; C的异常机制相比C语言的异常处理&#xff1a; 函数的返回值可以忽略&…

openwrt wifi连接做中继

连接目标wifi 重命名下 3. 4. 在无线安全里设置wifi密码后 保存应用 大功告成