当前位置：首页 > news >正文

[论文阅读]Stealing Machine Learning Models via Prediction APIs

news 2025/7/9 6:21:34

25th USENIX security symposium (USENIX Security 16)

Stealing Machine Learning Models via Prediction APIs | USENIX

文章探究的是对机器学习模型的一种模型提取攻击，目标是训练出机器学习模型，使得训练结果能够和目标模型保持高度一致。

16年的论文，有些老了，ML现在用的少，都用的是深度学习了，大家都在堆参数的量，而这篇论文则是对传统机器学习模型的一个模型提取攻击，有用的就是它的方程求解攻击了，但是这对于现在的LLM来说并不现实了，因为模型参数太多了，根本求不了，其次隐藏层还有随机drop呢，更让这种完全把隐藏层给剥离暴露出来的方法就不太可行了。

后文的补充直接搁置掉，此阅读记录没有任何参考价值。

模型提取攻击，利用了 ML 模型中查询访问和机密性之间的紧密关系

当攻击者获得对某个目标模型 f 的黑盒访问权限并试图学习与 f 非常接近甚至匹配的模型 f 时，就会出现 ML 模型提取攻击

文章的目标就是要用一个本地的模型来逼近目标的ML模型。

对逼近，使用了两种不同的错误统计：

测试误差：在测试集D上的平均误差， $R_{test} (f, \hat{f}) = \sum_{(x,y)\in D} d(f (x), \hat{f(x)})/|D|.$
统一误差：

使用置信度提取

大多数 ML API 都揭示了支持它们的模型的置信度值

方程求解攻击

这样的攻击方式就是针对ML模型进行数学建模，使用输入输出对来不断逼近目标模型的超参数。

二元Logistic回归

线性方程求解问题，就是用输入输出对来逆向计算一个回归方程的超参数。文中强调，对于所有的情况，都达到了测试误差和同意误差均为0，也就是说完美复刻了一个二元回归模型。

多元LR和多层感知机

就是说这种使用方程求解的方法可以拓展到多元LR和多层感知机MLP上。

对于MLR回归任务，依赖于多个参数，系统的方程非线性且没有解析解，比如softmax函数。常用方法是最小化损失函数，比如logistic损失。使用正则化项，损失函数是强凸的，因此使用最小化损失函数可以找到全局最小值，这样就能保证训练出来的模型可以和目标模型有一致的输出。

该方法可以被拓展到神经网络。使用这种方程求解方式的攻击，MLP和MLR之间的差别实际上就在于多少个未知参数待求解。其次是MLP的损失函数不是强凸的，这就意味着可能会收敛到局部最优解，使得训练模型和目标模型不能完全对齐。

核LR的训练数据泄露

略

对提取模型的模型反演攻击

决策树路径查找攻击

在线模型提取攻击

http://www.mrgr.cn/news/52592.html

相关文章：

Java集合常见知识总结（上）

Luogu P1528 切蛋糕 || SCOI2005 栅栏

es索引库操作和使用RestHignLevelClient客户端操作es

C++笔记之静态多态和动态多态

HarmonyOS NEXT 应用开发实战(六、组件导航Navigation使用详解)

laravel清除不同缓存

基于Leaflet和SpringBoot的全球国家综合检索WebGIS可视化

洛谷P3478 [POI2008] STA-Station（换根dp）

【AI知识】距离度量和相似性度量的常见算法

多进程思维导图

开源节流-2024年10月17日-思维学习笔记

【二刷hot-100】day2

跟着导师学东西，学什么怎么学

深入理解Dubbo原理鱼实现，提升职场竞争力

【素数练习题】

可变参数函数、可变参数模板和折叠表达式

二叉树与堆讲解

《计算机视觉》—— 疲劳检测

Redux与Redux-thunk详解