WAIC2023:图像内容安全黑科技助力可信AI发展

news/2024/5/10 2:11:16

目录

  • 0 写在前面
  • 1 AI图像篡改检测
  • 2 生成式图像鉴别
    • 2.1 主干特征提取通道
    • 2.2 注意力模块
    • 2.3 纹理增强模块
  • 3 OCR对抗攻击
  • 4 助力可信AI向善发展
  • 总结

0 写在前面

2023世界人工智能大会(WAIC)已圆满结束,恰逢全球大模型和生成式人工智能蓬勃兴起之时,今年参会的人们更加关注AIGC技术在未来可以如何作用于人们的生活。

在这里插入图片描述

自AIGC技术兴盛以来,生成式造假也让人们倍感忧虑。

图像是信息的重要载体,也是信息保护的重点关注对象。图像编辑软件的发展和普及降低了虚假图像的制作门槛,大量基于虚假图片产生的诈骗案件、网络暴力事件在全球范围内造成了恶劣的影响。图像内容的安全与可信性也成为了公众关注的焦点,但图像领域的“可信AI”才刚刚起步。

在本次世界人工智能大会可信AI论坛上,合合信息展示了“三大技术,一项标准”,探索AI在图像内容安全领域可信化发展的多重可能

1 AI图像篡改检测

篡改文本检测(TTD,tampered text detection)作为多媒体信息安全领域的一个新兴研究方向,是指通过对文本图像中纹理特征的分析,捕捉真实文本和篡改文本之间的纹理差异性,以确定文本图像中文字区域的真伪性。常见的应用场景有:谣言检测流水、合同造假识别、欺诈图像识别、学历造假检测、保单PS检测等。

篡改文本检测任务有两个主要挑战。

  • 局部纹理差异性捕捉困难。篡改文本与真实文本仅存在局部纹理差异;
  • 真实和篡改文本检测精度平衡困难。

P图是常见的图像篡改手段之一。去年的世界人工智能大会上,合合信息PS篡改检测技术首次亮相,像素级起底修改痕迹,覆盖身份证、护照等多种证照识别类目,吸引了社会各界关注。该技术基于深度学习的图像篡改检测技术及相关系统,通过学习图像被篡改后统计特征的变化,智能捕捉图像在篡改过程中留下的细微痕迹,并以热力图的形式展示图像区域篡改地点,相关技术已在银行、保险等领域落地应用

今年图像篡改检测“黑科技”持续优化升级,应用面也拓展至截图篡改检测。此前,图像篡改检测的技术研究对象主要集中于自然场景图像,然而,真正为人们的生活带来风险的通常是被篡改的资质证书、文档、截图等。

在这里插入图片描述

合合信息AI图像篡改检测技术可检测包括转账记录、交易记录、聊天记录等多种截图,无论是从原图中“抠下”关键要素后移动“粘贴”至另一处的“复制移动”图片篡改手段,还是“擦除”、“重打印”等方式,图像篡改检测技术均可“慧眼”识假

这类截图篡改检测比传统篡改检测更困难,原因在于,与自然图像相比,截图的背景没有纹路和底色,整个截图没有光照差异,难以通过拍照时产生的成像差异进行篡改痕迹判断,现有的视觉模型通常难以充分发掘原始图像和篡改图像的细粒度差异特征。

2 生成式图像鉴别

相较传统的文本检测任务,生成式篡改文本检测任务需要进一步区分篡改和真实文本。由于真实和篡改文本分类难度不一致,训练过程中网络无法平衡两类的学习过程,导致在测试过程中两类检测精度差异较大。上述挑战极大地限制了篡改文本检测方法的性能。因此,如何准确地捕捉局部纹理差异性,同时平衡篡改和真实类别学习难度,是目前篡改文本检测研究的重要方向。

该任务的难点主要分为两点

  • 生成出来的图像场景繁多,不能穷举,不能通过细分来一一训练解决;
  • 有些生成图和真实图片的相似度过高,很贴近于人类的判断,对于机器而言,真伪判定只会更难

为此,合合信息提出了一种基于HRNet的编码器-解码器结构的图像真实性鉴别模型,结合图像本身的信息包括但不限于噪声、频谱等,能够在不用穷举图片的情况下,利用多维度特征来捕捉真实图片和生成式图片细粒度的视觉差异,达到高精度鉴别目的。模型结构如下图所示

在这里插入图片描述

2.1 主干特征提取通道

上述模型的第一个通道由若干主干提取网络层组成

主干提取网络(Backbone Network)在计算机视觉任务中扮演着关键的角色,通过一系列的卷积层、池化层和激活函数等操作,从原始图像中提取出各种特征,这些特征具有较好的局部感受野和平移不变性,能够捕捉到图像的结构和纹理信息,负责提取图像特征的主要组成部分。

在这里插入图片描述

主干网络的目标是将输入的图像转化为高级语义特征表示,通常是一系列的特征图。通过多层的卷积和非线性激活函数,主干网络可以学习到图像中的抽象特征表示。这些特征表示具有层次化的结构,能够逐渐提高语义表达能力,从低级的边缘、角点到高级的物体形状和语义信息,为后续的任务提供了更丰富和有意义的输入。同时,主干网络通常采用多层卷积和池化操作,可以在不同的层次上提取特征。这样的设计使得网络对于不同尺度的目标具有一定的感知能力,能够处理从小物体到大物体的尺度变化。在一些任务中,主干网络还可以进行特征融合操作,将来自不同层次的特征进行组合,以获取更全局和综合的特征表示。例如,通过连接或级联多个分辨率的特征图,可以获得更好的目标检测或语义分割结果。

2.2 注意力模块

注意力机制(Attention Mechanism)在计算机视觉任务中发挥着重要的作用。它是一种模拟人类视觉系统中注意力机制的方法,通过对输入的图像或特征进行加权,将注意力集中在具有重要信息的区域上,从而提高任务的性能和效果。

在这里插入图片描述

举例而言,在目标检测任务中,注意力机制能够帮助模型更关注感兴趣的目标区域,提高检测的准确性和鲁棒性。通过将注意力权重应用于特征图中的不同位置,可以突出目标的位置并抑制背景信息;在图像分类任务中,注意力机制可以提高模型对图像中重要区域的关注度,减少对无关区域的注意力分配。通过将注意力权重应用于特征图的不同通道,可以选择性地突出重要的图像特征,提高分类的准确性;在语义分割任务中,注意力机制可以帮助模型更好地理解图像的语义结构。通过对特征图的每个像素位置应用注意力权重,可以增强重要的语义区域并抑制非重要区域,从而提高分割的精度和细节。

而在本文介绍的图像生成任务中,注意力机制可以用于生成具有更好质量和多样性的图像。通过对生成器模型的输入特征进行加权,可以指导生成过程集中在重要的特征或区域上,生成更真实的图像结果进行对抗训练。

在这里插入图片描述

现在热门的Transformer也正是基于注意力机制构建

2.3 纹理增强模块

对于纹理缺失的截图图像鉴别而言,纹理增强模块扮演着重要的角色。它的作用是通过增强图像的纹理信息,提供更丰富、更清晰的视觉特征,从而改善图像分析和理解的效果。

纹理增强模块首先对输入图像进行预处理,包括去噪、平滑等操作,以减少噪声对后续处理的影响;接着利用各种纹理特征提取算法,如局部二值模式(Local Binary Patterns, LBP)方向梯度直方图(Histogram of Oriented Gradients, HOG)等,提取图像中的纹理信息。根据提取的纹理特征,使用图像增强算法对图像进行增强,如调整对比度、增加锐度等,使纹理信息更加清晰和鲜明。最后,根据具体任务的需求,可以对增强后的图像进行后处理,如去除无关的纹理信息、进一步提取图像特征等。

总之,纹理增强模块可以帮助算法在低对比度、模糊、噪声等不良环境下更好地工作,提升算法的鲁棒性和性能。

3 OCR对抗攻击

在印刷体的文字识别领域,开展最早,且技术上最成熟的是国外的西方文字识别技术。早在 1929 年,德国的科学家Taushek已经取得了一项光学字符识别(optical character recognition, OCR)专利。自上个世纪五十年代以来,欧美国家就开始研究关于西方各个国家的文字识别技术,以便对日常生活中产生的大量文字材料进行数字化处理。经过长时间的不断研究和完善,西文的OCR技术已经有一套完备的识别方案,并广泛地用在西文的各个领域中。

说到光学字符识别大家可能比较陌生,但或多或少都应该听说过OCR,通俗来讲,OCR技术采用电子设备(例如扫描仪或数码相机)检查纸上打印的字符,然后用字符识别方法将形状翻译成计算机文字。人们会出于生活、工作需要,拍摄自己的相关证件、文件并发送给第三方,这些图片上承载的个人信息可能被不法分子使用OCR技术识别提取并泄露。

在这里插入图片描述

那么什么是对抗攻击(Adversarial Attack)呢?这是近年来深度学习研究中出现的一个新问题,Szegedy等在图像分类问题上发现深度神经网络容易遭受到对抗样本的攻击,从而威胁到神经网络的安全性。对抗样本是指在图像上添加一些不影响人眼判断的干扰噪声,但能有效的迷惑深度模型,使其作出错误判断的样本。如下图左侧是一张大熊猫的图像,当添加一个噪声生成右侧的对抗样本。对于某个神经网络,能够正确的判定左图为大熊猫,却错误的判定右侧为长臂猿,而且相应的置信度为99.3%。而对于人眼来说,左右两张图像并没有明显的差异。

在这里插入图片描述

对抗样本产生的机理比较复杂,通常来说较大的模型参数对输入信号具有放大作用,某些微弱的信号被严重放大之后会对分类器产生干扰。使用正则化技术能够在一定程度上减弱对抗样本的攻击,但是效果非常有限。目前比较有效的防御手段是生成足够的对抗样本,然后将这些样本添加到训练集中进行二次训练,这样获得的模型则对大多数对抗样本具有较强的防御能力。

基于个人、企业业务的文件资料保密需求,合合信息进行了创新技术探索,研发了OCR对抗攻击技术来进行文档图片“加密”。该技术可在不影响肉眼观看与判断的情况下,对场景文本或者文档内文本进行扰动,对包含中文、英文、数字等关键信息的内容进行“攻击”,防止第三方通过OCR系统读取并保存图像中所有的文字内容,降低数据泄露的风险,以此达到保护信息的目的。

4 助力可信AI向善发展

图像安全的重要性与日俱增,标准规范的出台迫在眉睫。合合信息与中国信通院等权威机构一道,携手国内顶尖院校、研究机构及企业,共同探索AI技术在图像领域的可信化落地这一深远命题,助力科技向上的同时向善发展。

中国信通院牵头启动了《文档图像篡改检测标准》制定工作,合合信息、中国图象图形学学会、中国科学技术大学等科技创新企业及知名学术机构联合编制。

《文档图像篡改检测标准》将为文档图像内容安全提供可靠保障,助力新时代AI安全体系建设。作为牵头方,中国信通院表示,《文档图像篡改检测标准》将基于产业现状,围绕“细粒度”视觉差异伪造图像鉴别、生成式图像判别、文档图像完整性保护等行业焦点议题,凝聚行业共识,以期为行业提供有效指引。

总结

近期,合合信息相关产品接连获得中国信通院在智能文档处理、OCR智能化领域的高分评级。智能文档处理系统评估结果显示,AI核心能力方面,合合信息产品在NLP领域的文本分类、知识图谱领域的实体识别、关系抽取及OCR领域的字符识别、文本行识别均获得5分评分。合合信息智能文档处理产品获得“5级”评定。据悉,“5级”为该模块最高评定等级。

OCR评估中,合合信息智能文字识别产品顺利通过全部7项基础类功能指标测试以及9项增强类功能指标测试,获得“增强级”评级。评估报告认为,公司智能文字识别产品展现出良好的性能和服务成熟度。以具有较大难度的证件类和票据类性能测试为例,面对旋转、阴影、反光、褶皱、形变、模糊、多语言、低像素、光照不均等复杂场景,合合信息智能文字识别产品均有较高的识别准确率,字符准确率分别为99.21%和99.59%,字段准确率分别为97.87%和98.42%。

测试结果还显示,合合信息智能文字识别产品支持超过50种复杂语言的识别,为全球化、多语言背景下的信息智能识别提供了技术支撑。现阶段,公司已获得超百项自主知识产权发明专利,为全球超过200个国家和地区的上亿用户提供智能文字识别产品及AI服务。未来,公司将持续关注图像领域新需求、新动态,用“过硬”的AI为行业发展注入安全感。


http://www.mrgr.cn/p/55144345

相关文章

【沐风老师】归纳总结50个3dMax常用的方法和技巧

​在日常工作中,我们总能总结出一些方法和技巧,用以在今后的工作中提高工作效率。下面是50个3dMax最常见的方法和技巧,这些方法和技巧已经成为众多3dMax用户日常工作流程中不可或缺的一部分。 1.使用“重命名对象”工具可以同时重命名多个对象…

【Chat GPT】用 ChatGPT 运行 Python

前言 ChatGPT 是一个基于 GPT-2 模型的人工智能聊天机器人,它可以进行智能对话,同时还支持 Python 编程语言的运行,可以通过 API 接口进行调用。本文将介绍如何使用 ChatGPT 运行 Python 代码,并提供一个实际代码案例。 ChatGPT …

golang pprof

pprof是一个用于分析数据的可视化和分析工具,由谷歌公司的开发团队使用go语言编写成的。一般用于对golang资源占用进行分析。不是原创,参考:https://juejin.cn/post/7122473470424219656 1. 通过页面查看golang运行情况 访问 http://127.0.0…

PostgreSql 锁

一、概述 在 PostgreSQL 事务中提到,多个用户访问相同数据时可能出现脏读,不可重复度,幻读,更新丢失的问题,为解决这些问题,定义了不同的隔离级别,而隔离级别的具体实现,依靠的就是数…

Kubernetes 使用 helm 部署 NFS Provisioner

文章目录 1. 介绍2. 预备条件3. 部署 nfs4. 部署 NFS subdir external provisioner4.1 集群配置 containerd 代理4.2 配置代理堡垒机通过 kubeconfig 部署 部署 MinIO添加仓库修改可配置项 访问nodepotingress 1. 介绍 NFS subdir external provisioner 使用现有且已配置的NFS…

在外远程NAS群晖Drive - 群晖Drive挂载电脑磁盘同步备份【无需公网IP】

文章目录 前言1.群晖Synology Drive套件的安装1.1 安装Synology Drive套件1.2 设置Synology Drive套件1.3 局域网内电脑测试和使用 2.使用cpolar远程访问内网Synology Drive2.1 Cpolar云端设置2.2 Cpolar本地设置2.3 测试和使用 3. 结语 前言 群晖作为专业的数据存储中心&…

tinkerCAD案例:24. Ruler - Measuring Lengths 标尺 -量勺

tinkerCAD案例:24. Ruler - Measuring Lengths 标尺 - 测量长度 Project Overview: 项目概况: A machine shop, where any idea can become a reality, can cost millions and million of dollars. Still, the most important tool in the shop is the…

“华为杯”研究生数学建模竞赛2019年-【华为杯】D题:汽车行驶工况构建

目录 摘 要: 1.问题背景与问题重述 1.1 问题背景 1.2 问题重述 2.模型假设 3.符号说明 4.问题一的求解 4.1 问题分析 4.2 异常数据的处理 4.2.1 明显错误数据的处理 4.2.2 加减速异常数据的处理 4.3 缺失数据的处理 4.3.1 数据插补处理 4.3.2 视为长期停车处理 4.3.…

Linux 学习记录60(ARM篇)

Linux 学习记录60(ARM篇) 本文目录 Linux 学习记录60(ARM篇)一、SPI总线1. 概念2. 硬件连接 二、SPI总线协议三、SPI总线通信模式四、对比IIC总线和SPI总线1. 相同点2. 不同点 思维导图 一、SPI总线 1. 概念 1、SPI总结是Motorola首先提出的全双工三线/四线同步串行总线 2、采…

车道线检测|利用边缘检测的原理对车道线图片进行识别

前言 那么这里博主先安利一些干货满满的专栏了! 这两个都是博主在学习Linux操作系统过程中的记录,希望对大家的学习有帮助! 操作系统Operating Syshttps://blog.csdn.net/yu_cblog/category_12165502.html?spm1001.2014.3001.5482Linux S…

15.Netty源码之EventLoop

highlight: arduino-light Netty配置主从Reactor模式 通过将NioServerSocketChannel绑定到了bossGroup。 将NioServerSocketChannel接收到请求创建的SocketChannel放入workerGroup。 将2个不同的SocketChannel绑定到2个不同的Group完成了主从 Reactor 模式。 分配NIOEventLoop的…

Git的安装以及本地仓库的创建和配置

文章目录 1.Git简介2.安装Git2.1在Centos上安装git2.2 在ubuntu上安装git 3.创建本地仓库4.配置本地仓库 1.Git简介 Git是一个分布式版本控制系统,用于跟踪和管理文件的更改。它可以记录和存储代码的所有历史版本,并可以方便地进行分支管理、合并代码和协…