人工智能 :2024年01期 (--) (Z-Library)

Author: Unknown Author

商业

No Description

📄 File Format: PDF
💾 File Size: 17.9 MB
39
Views
0
Downloads
0.00
Total Donations

📄 Text Preview (First 20 pages)

ℹ️

Registered users can read the full content for free

Register as a Gaohf Library member to read the complete e-book online for free and enjoy a better reading experience.

📄 Page 1
(This page has no text content)
📄 Page 2
—产业赋能,新一轮视觉智能技术展望 视觉感知 2024 年 2 月 第 1 期 总第 38 期
📄 Page 3
人工智能技术正以前所未有的速度发展,深刻地影响着我们的生活和工作方式。它 不仅推动了信息技术的飞速进步,也在重塑着传统行业,加速新型工业化进程。 在自动驾驶、智能病理诊断、深度学习模型优化等领域,人工智能已经开始展现出 巨大的潜力和价值。为了探索和展望人工智能如何赋能业务场景,我们特此推出此次“视 觉感知”专题,希望能为学术界和产业界提供一些有益的思考和参考。 自动驾驶技术的发展正处于快速变革期。高精地图作为自动驾驶系统的“眼睛”, 对于确保驾驶安全和提高导航精度至关重要。本期将介绍高精地图构建的最新技术和方 法,探讨如何通过人工智能技术提升地图的精度和更新速度,以适应自动驾驶的需求。 智能病理诊断作为医疗健康领域的一项重要应用,正逐步展现出其深远的影响力。 通过高精度的图像识别和深度学习技术,智能病理诊断能够帮助医生更快更准确地诊断 疾病,为患者提供更加个性化的治疗方案。本期将探讨智能病理诊断技术的最新进展、 应用挑战和未来展望,希望能为医疗健康领域的人工智能应用提供新的思路。 深度模型作为人工智能的核心,其优化方法一直是学术界和产业界关注的焦点。此 外,模型蒸馏与重组作为提升模型效率和性能的有效手段,对于推动深度学习技术的应 用具有重要意义。本期将介绍这一领域的最新研究成果,探索如何使深度学习模型在资 源有限的环境下仍能保持高效和强大的性能。 通过本次专题相关研究成果介绍,我们可以看到,人工智能在提高生产效率、降低 成本、优化资源配置等方面的巨大潜力,其将为新型工业化的发展提供强大支撑。我们 相信,随着技术的不断进步和应用的不断深化,人工智能将会在未来的工业革命中扮演 更加重要的角色,带来更加广阔的发展空间和机遇。未来,我们需要进一步探讨相关挑战, 以实现工业生产的智能化、数字化和网络化。 区块链与数据安全全国重点实验室 2024 年 2 月 专题序言
📄 Page 4
区块链与数据安全全国重点实验室 2024 年 2 月
📄 Page 5
广告主 广告内容 版位 《机器人产业》 期刊征订 赛迪智库 形象 美敦力康辉常州科技园创新孵化中心 形象 目 次 专题:视觉感知 智能论坛 91 100 P44-A P44-B 论生成式人工智能的“避风港”规则 生成式人工智能赋能高等教育的价值、风险与纾解路径 1自动驾驶中的高精地图构建 朱建科,刘晓璐,王松 郑志峰,罗力铖 赵博,王海福 9图像内容精细化感知及其安全关键技术研究 王蕊,荆丽桦,邹聪,吕飞霄,朱子璇 24视觉深度模型炼知技术 宋明黎 45 54 智能病理诊断技术应用与展望 视觉大模型参数高效微调技术应用与展望 冯尊磊,俞晓天,张秀明 程乐超 综述分析 技术研究 66 81 下肢外骨骼机器人步态识别系统综述 基于案例和模糊推理的泌尿系统炎症诊断方法研究 孙晓强,于旭东 程云芬,陈承源,邹顺水,彭晨 主管单位:中华人民共和国工业和信息化部 主办单位:中国电子信息产业发展研究院 赛迪工业和信息化研究院(集团)有限公司 出版单位:北京赛迪出版传媒有限公司 编辑单位:《人工智能》编辑部 总编辑:王沛霖 副总编:张含阳 编辑部电话:+86(10)88558766 编辑部邮箱:aiview@ccidmedia.com 广告部电话:+86(10)88559742 / 88558711 广告部邮箱:wanglili@ccidmedia.com gexiaoxi@ccidmedia.com 订阅热线:+86(10)88558777 读者服务邮箱:wangwu@ccidmedia.com 法律顾问:北京市华泰律师事务所律师 王郁生 本刊地址:北京市海淀区紫竹院路 66 号赛迪大厦 17 层 邮编:100048 英文刊名:AI-VIEW 汉语拼音:Rengong Zhineng 创刊年份:2017 年 国内统一连续出版物号:CN 10-1530/TP 国际标准连续出版物号:ISSN 2096-5036 发行单位:北京市报刊发行局 邮发代号:80-381 广告发布登记:京海工商广登字 20170178 号 印刷:廊坊市纸颜印刷有限公司 出版日期:2024 年 2 月 10 日 定价:60 元 本刊网址:aiview.cbpt.cnki.net 本刊为人工智能产业创新联盟会刊 版权声明:本刊刊登的所有文章仅代表作者个人观点。 凡投稿本刊或授权本刊刊登的作品,均视为已授权刊登 于本刊网站、微信等所有信息网络使用。未经书面许可, 任何人、任何单位不得转载、摘编本刊所刊载的作品。 关注人工智能产业创新联盟 人工智能 2024 年 2 月 第 1 期 总第 38 期 广告目次 P107-A
📄 Page 6
1 0 引言 高精度地图指的是具有厘米级别精度的电子 地图,相比于普通的电子导航地图,它包含详细 的道路信息,是目前自动驾驶技术得以在现实场 景中部署的关键技术,可以极大简化自动驾驶功 能的研发,弥补感知功能的上限。随着自动驾驶 技术的发展,传统意义上的导航地图以及卫星提 供的定位信息缺乏有效道路元素,无法满足当前 自动驾驶发展的需求。高精地图可以为自动驾驶 系统提供更为精确、全面的环境信息,为自动驾 驶的发展提供了至关重要的基础。 研究领域中主流的高精地图构建可以分为 传统的离线标注和基于感知模型的在线生成两 种方式。离线地图的构建包括特征点云地图和 人工标注的矢量地图。通过激光雷达等传感器 获得点云数据,可以通过离线处理,将点云数 据转化为地图表示。依赖人工进行矢量地图的 标注可以将道路边缘线、车道线、交通标志等 关键要素转化为矢量地图的形式。虽然离线的 人工标注可以提供精确稳定的道路信息,高成 本和低效率成为了自动驾驶规模化部署主要成 本和阻碍。在线的地图生成依托于实时采集的 物理传感器数据(如环视相机、激光雷达等), 通过实时的感知算法处理生成语义地图或者矢 量地图,并相应地更新地图数据。虽然实现了 高效的生成和实时的更新,但距离实际工业中 需要的高精度地图格式仍有很大差距。与此同 时,国内的路况十分复杂,道路施工、潮汐车 道等因素导致高精地图必须不断更新,以适应 路网变化,增加了更多的成本。 考虑到自动驾驶任务的挑战,赋予地图更 丰富的语义信息可以增强中心车辆对周围环境 的理解,这需要感知系统具备实时分析并在线 更新地图的能力。预先构建的高精地图可以提 供精确的先验信息,但构建和维护需要付出昂 自动驾驶中的高精地图构建 □文 / 朱建科,刘晓璐,王松 (浙江大学 计算机科学与技术学院,杭州 310027) 摘要:高精地图是自动驾驶系统至关重要的一环,不仅为车辆提供当前位置和道路环境的信息, 更为自动驾驶车辆的决策和规划提供了基础的数据。本文首先分析了激光雷达点云地图与传 统离线地图构建的方法,包括其优势、不足与应用。其次,详细阐述了新兴的在线语义和矢 量地图构建的技术突破点、方案与发展趋势。在此基础上,本文总结和分析了高精地图发展 存在的问题和未来的研究方向。通过全面梳理和分析相关领域的关键内容,旨在为读者提供 对自动驾驶地图领域最新进展的全面理解,促进相关技术的探索与应用。 关键词:自动驾驶;高精地图;感知和在线建图 中图分类号:U463;P285 文献标志码:A 文章编号:2096-5036(2024)01-0001-08 DOI:10.16453/j.2096-5036.202409 自动驾驶中的高精地图构建
📄 Page 7
2 专题:视觉感知 AI-VIEW  2024 年第 1期 贵的成本,在线构建的语义地图和矢量地图成 本更低,但可靠性有待提高。未来,高级别的 自动驾驶需要解决如何利用不同形式的地图以 辅助决策、规划等任务的问题。 3D场景理解是自动驾驶中在线建图的关 键,对于多视角相机和三维点云数据,现有的 基于深度学习的方法可以有效地解决语义分割 等3D场景理解任务。然而,大部分的方法都 很难直接应用到现实场景中。首先,这些方法 严重依赖具有大量标注的相机和点云数据,然 而高质量的3D注释的获取成本很高。除此之 外,它们通常无法识别训练数据中不存在的对 象,如果要识别这些新对象,需要额外的标注 和模型训练过程,不具有时效性。因此,自动 驾驶的3D场景理解任务的解决方案,既应该 满足现实场景对于准确性和实时性的需要,同 时更应该考虑模型训练的成本和时间问题。 综上所述,一个理想的高精度地图构建的 解决方案,既应当达到高度的自动化程度,节 省人力成本,又需要保证地图的精准度和可拓 展性,而且应当具有很强的兼容性,以满足各 种仿真场景使用。 1 技术突破点 1.1 离线高精地图 通常高精度地图的构建起始于传感器与相 机自采道路数据生成的矢量地图,且支持不同 规模的矢量地图,如支持道路边缘线与中心线 基准的矢量地图,可以将矢量地图自动化转换 为多种满足自动驾驶仿真需求的高精度地图, 包 括OpenStreetMap与OpenDrive等 格 式, 且不丧失道路矢量地图的精准度。生成的大规 模高精度地图可以导入现有的自动驾驶模拟 器,例如Carla[1],以支持自动驾驶仿真工作, 也能直接应用在实际道路场景下的自动驾驶车 辆导航中。这样的仿真工作可以提供更真实的 仿真环境,帮助开发人员进行后续自动驾驶感 知算法,决策和规划等任务的的测试和验证, 以评估自动驾驶系统的性能。 1.2 在线构建语义地图 在现有3D场景理解技术的基础上,需要 充分利用自动驾驶车辆配备的多视角相机和激 光雷达点云数据,能够在线构建包含道路静态 元素和车辆动态元素的语义地图,并能实时更 新,生成的在线地图通过时序融合可以获得完 整场景下的地图形式,辅助校正离线地图的标 注。未来的自动驾驶时代,每一个自动驾驶车 辆都可以是数据采集车,通过云端共享数据, 实时地在线生成道路和地图数据,为下游的任 务提供依据,充分保障道路安全。 1.3 在线构建矢量地图 为了满足实时性和效率的需求,在线构建 矢量地图正成为一个备受关注的研究方向和技 术挑战。实时地从传感器数据中提取道路信息, 通过借助计算机视觉相关领域的方法,可以在 线构建矢量化的地图。基于此,自动驾驶车辆 可以快速、准确地更新地图信息,适应不断变 化的道路环境。这种实时构建的矢量化地图包 含有更加丰富的实例和位置信息,能够为车辆 提供更加可靠的路径规划和决策支持,实现更 安全、更高效的自动驾驶体验。 2 技术分析 自动驾驶领域研究中使用的地图包含传统 的特征地图和点云地图、离线高精地图、语义 地图、矢量地图等。
📄 Page 8
3 自动驾驶中的高精地图构建 图 2  ECTLO:基于 LiDAR Odometry 的定位与地图构建 [2] 2.1 特征地图和点云地图 特征地图通过从传感器数据中提取特征 和对应的空间位置以获取对周围环境的稀疏表 示,提取的特征取决于使用的传感器和具体的 应用场景。早期的工作往往使用手工设计的图 像特征或点云特征,深度神经网络为提取和学 习特征表示提供了更多的选项,可以应对大规 模数据和复杂的应用环境。但特征地图提供的 只是空间的稀疏表示,只能应用于重定位、特 征匹配等少数任务。 点云地图可以通过聚合采集的激光雷达点 云得到,LiDAR SLAM领域已经有一部分解 决方案提高点云建图的实时性和鲁棒性,希望 机器人从未知环境和未知地点出发,在运动过 程中通过重复观测到的地图特征,定位自身位 置和姿态,再根据自身位置增量式构建地图, 从而达到同时定位和地图构建的目的。应用于 固态激光雷达,ECTLO[2] 展示了一种有效的 连续时间激光雷达里程计方法。在激光雷达的 视场中采用覆盖历史点的单一距离图像进行高 效的地图表示。为了考虑地图更新后遮挡产生 的噪声数据,模型采用了基于滤波器的点对面 高斯混合模型进行鲁棒配准,同时引入了连续 时间的运动模型用来消除不可避免的畸变。 2.2 离线高精地图 2.2.1离线高精地图的构建 高精地图通过建模道路的几何拓扑关系为 系统提供车道线、中心线、道路边缘、行驶方 向和速度限制等信息。早期的大部分工作依赖 于手工注释,近年来得益于计算资源的优化和 大规模预训练模型的出现,研究者们对高精地 图自动化构建的研究越来越多,但仍需要付出 较大成本来维护。 2.2.2高精地图在仿真中的应用 在自动驾驶仿真中,高精度地图的意义更 加重要。在场景重建时,地图是最重要的组成 部分之一,需要做到与真实世界尽可能相近, 以保证实际场景下的自动驾驶能力与仿真中的 能力对齐。高精地图可以提供真实的世界道路、 交通标识、建筑物等详细信息,为仿真环境的 建模提供了坚实的基础。自动驾驶需要在仿真 环境中进行路径规划和行为预测,高精地图可 以提供准确的道路信息,帮助系统进行合理规 划和对其他交通参与者的行为进行预测。目前,图 1  点云地图 原始扫描点云 连续滤波配准 建图 运动补偿 球面投影 收敛 里程计输出 滤波配准 法向量估计 地图更新
📄 Page 9
4 自动驾驶仿真器Carla支持OpenStreetMap (OSM)与OpenDrive两种高精度地图格式。 OSM地图存在一个现有的开源地图库,但这 一版本的地图缺乏精准性,且更新缓慢,不能 有效满足地图的实时性与安全性。OpenDrive 格式虽然存在一些较为精准的开源地图,但均 规模较小、不在中国大陆,且为手工标注所得, 无法直接推广应用在自动驾驶仿真中。 2.2.3离线标注高精地图的发展困境 近期,“重感知、轻地图”的发展趋势席 卷自动驾驶行业,车企自动驾驶大多通过宣布 摆脱高精地图从而展示拓展高阶自动驾驶功 能的覆盖范围。尽管基于人工标注的高精地图 可以提供详细精确的道路信息,极大地简化自 动驾驶功能的研发,但高精地图自身存在的问 题依然限制了自动驾驶的发展。一方面,传统 高精地图的构建方法需要昂贵的采集设备,详 细道路信息的标注也需要大量的人工投入,再 加上道路信息的不断更新,很难实现精确地大 规模道路信息覆盖;另一方面,我国对于地图 测绘资质的严格管理也会限制自动驾驶产品 功能的扩展。自动驾驶逐步出现了摆脱高精地 图发展的趋势,希望通过不依赖高成本的离线 高精地图实现更高阶的发展。基于此,轻量级 的在线地图生成逐步成为了自动驾驶感知中 的关键一环,旨在通过车载传感器提供的图像 或激光雷达点云信息,在线地生成道路信息和 定位,逐步替代昂贵且缺乏实时信息的离线标 注地图。 2.3 语义地图 2.3.1语义地图的在线生成 语义地图将3D空间离散为2D或3D的网 格单元,每个网格单元包含占用信息和语义信 息。目前,在自动驾驶应用中常常使用2D或包 含高度信息的2.5D网格单元,使用更加简单且 易于维护。将网格扩展到3D时,也就成了常见 的体素,会带来更大的计算量和存储压力。 语义地图是车辆周围环境的一种紧致的表 示形式,规划和决策等下游任务能较为方便地 使用。实际语义网格地图的构建过程需要对环 境中的静态元素 [3,4](人行道、车道线、道路边 界等)和动态元素 [5](车辆、行人、不明障碍 物等)进行感知理解,这一部分的算法也与感 知系统息息相关,对建图算法的实时性也提出 了要求。近期,引起广泛关注的BEV感知算法 有效推动了这一领域的发展。通过提供全局视 角、准确目标检测与跟踪等优势,推动了语义 专题:视觉感知 AI-VIEW  2024 年第 1期 点云数据 位置信息 图像 检测分类 点云配准 点云图像配准 基础元素提取 标注 高精地图 图 3  高精地图的构建流程
📄 Page 10
5 自动驾驶中的高精地图构建 地图建立和应用的发展。未来,不同车辆间的 协同在线感知将会提供更完整的场景地图,为 高级别自动驾驶的实现提供了保障。 该 方 向 代 表 性 工 作HDMapNet[3] 通 过 BEV空 间 上 的 图 像 特 征 信 息 和 雷 达 点 云 特 征 的 融 合,实 现 了 在 线 语 义 地 图 的 生 成。 BEVFusion[5] 也 通 过 对 于 传 感 器 信 息 的 融 合实现了对于道路动态元素的检测和理解。 基 于 环 视 图 像 的 输 入,BEVFormer[12] 通 过 Transformer的结构融合了多帧时序信息, 为后续的检测提供了更加鲁棒和高质量的BEV 特征。SuprFusion[13] 通过不同层面的信息融 合实现了长距离语义地图的构建,弥补单传感 器感知距离不足的问题。 LiDAR2Map[4] 展示了一种基于激光雷达点 云的语义地图构建的新范式。BEV空间的多层 金字塔结构用于获得多尺度的BEV特征,以增 强语义地图的鲁棒性。模型还设计了图像到雷 达点云的蒸馏模块以增强雷达点云中缺乏的语 义信息,其中包含特征层面和回归层面的蒸馏。 基于此,模型可以更好地融合点云和图像的3D 特征和语义信息,实现高性能的在线语义地图 的构建和理解。此外,LiDAR2Map也在动态车 辆元素的分割和理解上取得了较好的性能。 图 4  LiDAR2Map:在线静态元素语义地图理解 [4] 图 5  动态元素理解 [5] 雷达点云 训练和测试阶段 训练阶段 点云 编码器 3D到 BEV 转换 特征 解码器 特征级别 蒸馏 图像 编码器 特征 解码器 环视到 BEV 转换 特征融合 真值 预测阶段 蒸馏 环视图像 环视图像 雷达点云 最终检测结果 图像编码器 环视图像特征 点云检测结果 图像检测结果 2D → 3D 转 换 融 合 模 块 BE V 编 码 3D 自车坐标 3D 目 标 检 测 头 图像 BEV 特征 点云 BEV 特征 图像分支 点云分支 BEVFusion 预测
📄 Page 11
6 2.4 矢量地图 2.4.1在线矢量地图的构建 矢量地图是对于地图元素的有序建模和稀 疏表示。对于在线矢量地图的构建,一方面, 目前部分工作通过在栅格化语义地图的基础上 进行聚类和拟合的后处理以获得矢量化地图。 但是,这样的方案会造成耗时和误差累积的问 题,也需要较大的维护成本。另一方面,端到 端的在线矢量化地图构建成为了目前研究和发 展的主流框架和趋势。 在线的矢量化地图构建主要包括特征的提 取和统一、地图元素的矢量化建模和端到端输 出三个阶段。我们将地图元素建模为具有一组 等效排列的点集,作为检测和回归的目标,利 用特征提取器和特征的转换网络将多模态特征 统一到BEV空间,通过采用分层查询嵌入以编 码地图结构化信息和Transformer的结构,实 现检测结果的端到端输出。 1) 特征提取和统一:这个阶段的目标是从 多种输入源(环视图像、激光雷达)提取特征, 并将它们转换成一个统一的表示。这一步通常 包括处理不同传感器数据的融合,确保它们在 相同的BEV空间。 2) 地图元素的矢量化建模:地图元素(比 如人行横道、道路边缘、道路分割线等)被建 模为一组等效排列的点。方便地图元素的表示 以及更好地进行检测和回归。 3) 端到端输出:在获得统一的BEV特征 之后,地图元素实例级和点级的分层查询嵌入 和Transformer的结构实现了检测结果的端 到端输出,得到每个地图元素实例中的点在 BEV平面上的二维坐标。最终的预测结果统一 构成地图元素的矢量化表示。 其 中,VectorMapNet[6] 提 出 了 两 阶 段 的 检 测 方 法。在 获 得BEV特 征 之 后,利 用 Transformer[7] 的结构,第一阶段输出关键点 的位置坐标,第二阶段学习点之间的连接,从 而输出最后的道路元素。与此同时,MapTR[8] 提出了更为高效轻量级的矢量地图在线生成 方法,它将地图元素建模成等效排列的点, 提前定义好地图元素实例,直接通过回归点 的位置坐标实现地图元素的定位。基于此, BeMapNet[9] 和PivotNet[10] 展 现 了 新 的 地 图 元素建模方法,分别通过贝塞尔曲线和核心点 的建模和表达实现了更为精细的检测。 2.4.2在线矢量地图的应用与发展 在线生成的矢量化地图在自动驾驶中扮演 着至关重要的角色,除了可以辅助人工标注之 外,通过提供精确的道路几何信息,在线生成 的矢量地图可以为自动驾驶车辆提供了精准的 定位和导航支持,促进了端到端自动驾驶的发 展和进步。 专题:视觉感知 AI-VIEW  2024 年第 1期 图 6  在线矢量地图的构建 [6] 车载传感器数据 映射 检测 生成 BEV 特征 元素关键点 折线表示 矢量地图 可驾驶区域 道路边界 人行横道 道路分割线
📄 Page 12
7 自动驾驶中的高精地图构建 在线生成的矢量地图提供了预先标注的 基础信息,可以大幅度减少标注人员的工作 量,通过仅需的微调和修正,可以节省时间和 精力,提高标注效率。与此同时,通过随时的 更新和维护,标注人员可以及时获取最新的地 图数据,保持与实际地理情况的一致性。在线 生成的矢量地图可以极大地辅助和促进人工标 注的过程。 此外,矢量地图在决策和规划方面发挥着 重要的作用。通过提供详细的道路信息,车辆 可以准确地了解周围的道路布局、障碍物位置, 从而更好地感知和理解当前的行驶环境。实时 在线生成的地图使得自动驾驶系统更具有灵活 性和适应性,能够根据实时变化的道路环境做 出相应的调整。这种灵活性使得车辆能够更好 地适应复杂多变的城市交通环境,及时做出驾 驶决策,提高行驶的效率和安全性。 另一方面,在线生成的矢量地图包含的道 路信息较少,基于深度学习的在线生成方式也 无法实现精确的定位和检测,长尾问题和边缘 情况的存在也限制了检测精度的提升。模型的 训练也依赖于大量的标注数据,需要逐步完善 对于数据的自动标注、众包标注和基于模型辅 助的半自动标注方法。自动驾驶系统通常需要 快速的决策和规划,因此在线地图的生成也需 要在实时性和效率之间实现平衡。 3 发展趋势分析 高精地图在自动驾驶系统中扮演着关键的 角色,其发展呈现出不断精细化、语义化和实 时化的趋势。这种发展有望为自动驾驶系统提 供更为准确和全面的地图数据支持。尽管高精 度地图有着巨大的潜力,但在实践中仍然存在 着一些问题,比如数据更新速度、数据一致性、 数据安全性,以及对动态环境变化的实时响应 能力等方面的挑战。 高精地图自身具备一定的复杂性,既可以 当作硬件的一部分,也可以看作是系统的输入 数据,涉及感知、定位、决策等模块。从数据 维度看,基于感知的控制、决策与规划,需要 以高精地图为核心建立车辆行驶的环境定位, 并将行车规划转化为车辆的动力学控制。这不 仅需要包括路网的静态数据,更需要高精度的 动态数据和3D数据的支持与保障。 随着自动驾驶系统的不断更新换代,高精 度地图需要实现实时更新和维护,以确保其与 道路实际情况的一致性,这意味着需要更加智 能高效地数据采集、处理和更新技术。未来的 研究方向可能集中在更加深入的语义化地图数 据上,以支持自动驾驶系统对复杂道路环境的 感知和理解,包括交通标志、行人、动态交通 情况等。随着地图数据的增加和使用,数据安 全和隐私保护将变得尤为重要。未来的研究可 能会集中在如何确保地图数据的安全传输、存 储和使用,以及在尊重个人隐私的前提下实现 数据共享和利用。图 7  基于矢量地图的运动和规划 [11] 规划 直行 矢量化 运动
📄 Page 13
8 专题:视觉感知 AI-VIEW  2024 年第 1期 4 结束语 自动驾驶的发展离不开地图,无论是离线 的高精地图标注还是新兴的在线生成范式,都 存在自身的优势和不足。在未来,如何在实现 地图生成高度自动化,节省人力资金投入的同 时,保障地图的信息丰富和高精度定位,为自 动驾驶的决策和规划等下游任务提供保障,依 然是自动驾驶发展和追求的方向。 参考文献 [1] DOSOVITSKIY A, ROS G, CODEVILLA F, et al. CARLA: an openurban driving simulator[C]//Proceedings of the 1st Annual Conference on Robot Learning. PMLR, 2017, 88: 1–16. [2] ZHENG X, ZHU J K. Effective solid state lidar odometry using continuous-time filter registration[Z]. arXiv preprint arXiv: 2206.08517, 2022. [3] LI Q, WANG Y, WANG Y L, et al. HDMapNet: an online HD map construction and evaluation framework[C]//2022 International Conference on Robotics and Automation (ICRA), Philadelphia, PA, USA. IEEE, 2022: 4628-4634. [4] WANG S, LI W T, LIU W Y, et al. LiDAR2Map: in defense of LiDAR-based semantic map construction using online camera distillation[C]//2023 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), Vancouver, BC, Canada. IEEE, 2023. [5] LIANG T T, XIE H W, YU K C, et al. BEVFusion: A simple and robust LiDAR-camera fusion framework[M]// Advances in Neural Information Processing Systems 35 (NeurIPS 2022). Red Hook: Curran Associates, 2023. [6] LIU Y C, YUAN T Y, WANG Y, et al. VectorMapNet: end- to-end vectorized HD map learning[C]//Proceedings of the 40th International Conference on Machine Learning, Honolulu, Hawaii, USA. ACM, 2023: 22352–22369. [7] VASWANI A, SHAZEER N, PARMAR N, et al. Attention is all you need[C]//Proceedings of the 31st International Conference on Neural Information Processing Systems (NIPS'17). Red Hook: Curran Associates, 2017: 6000–6010. [8] LIAO B C, CHEN S Y, WANG X G, et al. MapTR: structured modeling and learning for online vectorized HD map construction[Z]. arXiv preprint arXiv: 2208.14437, 2022. [9] QIAO L M, DING W J, QIU X, et al. End-to-end vectorized HD-map construction with piecewise bezier curve[C]//2023 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), Vancouver, BC, Canada. IEEE, 2023: 13218-13228. [10] DING W J, QIAO L M, QIU X, et al. PivotNet: vectorized pivot learning for end-to-end HD map construction[C]//2023 IEEE/CVF International Conference on Computer Vision (ICCV), Paris, France. IEEE, 2023: 3649-3659. [11] JIANG B, CHEN S Y, XU Q, et al. VAD: vectorized scene representation for efficient autonomous driving[Z]. arXiv preprint arXiv: 2303.12077, 2023. [12] LI Z Q, WANG W H, LI H Y, et al. BEVFormer: learning bird's-eye-view representation from Multi-camera images via Spatiotemporal transformers[M]//Lecture Notes in Computer Science. Cham: Springer Nature Switzerland, 2022: 1-18. [13] DONG H, ZHANG X J, XU J T, et al. SuperFusion: multilevel LiDAR-camera fusion for long-range HD map generation[Z]. arXiv preprint arXiv: 2211.15656, 2022. 男,浙江大学计算机科学与技术学院教授,IEEE资深会员。于2009年获计算机科学与工程博士学位,是同 年度香港中文大学工程学院最优博士论文奖以及香港中文大学青年学者论文奖获得者。攻读博士期间曾作 为访问学者于UIUC ECE系Image Foundation and Processing Group交流。2009年1月进入瑞士ETH Zurich BIWI Computer Vision Lab进行博士后阶段研究。研究方向为计算机视觉与机器人。目前担任国际 期刊Neurocomputing编委,担任包括IEEE TPAMI/TIP/TNNLS、ACM Computing Survey/TOIS/TIST 在内的多个国际期刊审稿人,以及AAAI/IJCAI/CVPR等会议的PC和SPC。 朱建科 女,浙江大学计算机科学与技术学院博士生在读。主要研究方向为计算机视觉,自动驾驶和多模态融合感知。刘晓璐 男,浙江大学计算机科学与技术学院硕博连读生。主要研究方向为计算机视觉和多模态融合感知。王 松 作者简介
📄 Page 14
9 0 引言 人工智能的迅猛发展正在深刻地改变人类 生活。作为人工智能领域内的重要研究方向, 计算机视觉是智能机器认识和感知外部世界的 核心手段之一。其中,图像内容感知是该研究 领域的基础性问题之一,其应用已渗透至生活 和生产的各个方面,在各类人工智能设备、系 统、工具及应用(如智慧城市、网络监管、智 能驾驶、人机交互、自动问答等)中广泛存在, 成为智能分析的基础甚至是必备能力。随着应 用的不断加深,对图像内容理解的粒度和深度 需求不断提升,图像内容精细化感知无论在学 术界还是产业界都有着广泛的研究需求与应用 场景。 相对于一般的图像内容感知,精细化感知 任务对感知的范围和精细化程度提出了更高的 要求。从图像中物体类别的精细化判别到物体 相互之间的关系识别,再到图像内容的整体描 述,图像内容精细化感知任务旨在形成对图像 内容细致深入的全方位理解,是一项极具挑战 的研究任务。 1 图像内容精细化感知研究发展现状 1.1 细粒度图像识别方法研究 细粒度图像识别通常也被叫做“细粒度 图像分类”或“细分类”,其目标是识别出图 图像内容精细化感知及其安全 关键技术研究 □文 / 王蕊 1,2,荆丽桦 1,2,邹聪 1,2,吕飞霄 1,2,朱子璇 1,2 (1. 中国科学院信息工程研究所,北京 100085;2. 中国科学院大学 网络空间安全学院,北京 100190) 摘要:图像内容精细化感知是计算机视觉领域内的一个基础性问题,旨在对图像中包含的信 息进行精细化理解,具有重要的研究价值和广阔的应用场景。根据关注范围的不同,图像内 容精细化感知主要包括细粒度识别、场景图生成和图像描述等方面。本文首先对各关键技术 的研究进展和现状进行综述;然后讨论了直接影响感知模型预测结果的安全威胁,概述了相 关攻击及防御技术的研究进展;最后对该领域的未来发展趋势作出展望。 关键词:图像识别;细粒度感知;场景图生成;图像描述;对抗攻击及防御;后门攻击及防御 中图分类号:TP391;TP18 文献标志码:A 文章编号:2096-5036(2024)01-0009-15 DOI:10.16453/j.2096-5036.202404 基金项目:国家自然科学基金项目(62176253,U20B2066) 图像内容精细化感知及其安全关键技术研究
📄 Page 15
10 专题:视觉感知 AI-VIEW  2024 年第 1期 像中主要物体所属的细粒度类别,这些类别 一般是同属于一个大类别的子类别,如鸟类 的品种、汽车的型号、衣服的种类等。细粒度 图像识别任务的特性要求细粒度图像识别方 法具有找到细微差别之处、识别细微差别的 能力。这种细微的差别性区域也被称为辨别 性 区 域(Discriminative Region),是 能 够 显著帮助进行类别区分的区域。相对应地,细 粒度图像识别的另一关键是学习辨别性特征 (Discriminative Feature),能够显著表达 该类别的特征信息。早期的细粒度图像识别方 法与通用图像识别方法类似,往往采用手工特 征,再结合姿态校正等方法进行识别。在深度 学习和卷积神经网络兴起之后,细粒度图像识 别领域的主流方法迅速被基于深度特征的方法 所取代。如图1所示,按照是否具有显式定位 辨别性区域的过程,可以分为定位-分类网络 和端到端特征编码。 1.1.1 定位-分类网络 “定位-分类网络”方法包含两个子网络, 定位子网络和分类子网络。定位子网络的作用 为定位到图像中存在的多个辨别性区域,进而 对这些区域提取区域特征。分类子网络则对提 取到的区域特征进行融合,输出最终的分类结 果。定位-分类网络方法的核心是定位子网络, 通过提高辨别性区域定位的准确性提高分类的 准确率。 早期的定位 - 分类网络方法采用物体部位 标注或包围盒标注训练定位子网络。如,首 先将深度学习成功应用到细粒度图像识别领 域的 Part R-CNN[1],其通过物体标注训练了 R-CNN[2] 作为定位子网络,进而定位到若干 个候选的辨别性区域,最后使用区域间的几 何关系对候选区域进行筛选,得到最终定位 结果。Part R-CNN[1] 采用了不同的特征提取 网络对不同区域进行特征提取,然后将这些 局部特征和原始图像提取得到的全局特征进 行融合,得到的分类特征送入分类子网络中 得到识别结果。 但是,这种方式依赖于物体部位标注或包 围盒标注,获取这种标注往往是耗时耗力的, 限制了细粒度图像识别方法的应用。因此,后 续的研究侧重于仅仅使用物体类别标注训练, 常使用弱监督定位模块、卷积响应或注意力机 制定位物体辨别性区域。使用弱监督定位模块 的方法如RA-CNN[3],其采用了迭代式的网络 结构,使用分类结果修正不断监督定位结果。 RA-CNN[3] 使用了弱监督的定位模块,并且在 每次迭代后,定位到的辨别性区域都比迭代前 更小,这使得其能够不断聚焦,不断定位到更 具有辨别性的区域。使用卷积响应定位物体辨 别 性 区 域 的 方 法 如MA-CNN[4]。MA-CNN[4] 注意到卷积神经网络中不同的卷积核会对应于 不同的区域和模式,可以视作是特定的区域特 征提取器。因此,MA-CNN[4] 采用了聚类的方 法,将卷积核分为了不同的几组,组内进行融 图 1  细粒度图像识别主流方法示意图
📄 Page 16
11 图像内容精细化感知及其安全关键技术研究 合得到辨别性区域的位置。基于卷积响应的可 视化方法在细粒度图像识别任务中也得到了广 泛的应用。如S3N[5] 使用了类别激活图 [6] 的方 法定位物体辨别性区域,进而对前景进行采样, 放大物体的辨别性区域。近年来,注意力机制 引起了计算机视觉领域内的广泛关注,也成功 应用到了细粒度图像识别领域。如TASN[7] 设 计了一种三线性的自注意力定位模块,通过 不同像素间的注意力权重定位辨别性区域。 TASN[7] 还使用了前景采样的方法放大物体的 辨别性区域,使用这种方式可以实现突破固定 辨别性区域数量的限制。 定位-分类网络方法是一种比较符合人类 物体识别习惯的细粒度图像识别方法。该方法 将物体识别过程分为两个阶段—首先定位具 有辨识度的区域,然后再对这些区域进行物体 识别。这种方法具有较高的可解释性,因为它 的识别过程可以被清晰地描述和解释。除了可 解释性的优点以外,定位-分类网络方法还具 有较高的分类准确率。 1.1.2 端到端特征编码 与定位-分类网络不同,“端到端特征编 码”方法没有显式地定位辨别性区域的过程, 而是直接进行特征学习,旨在得到更加具有辨 别性的图像特征。这一过程往往通过特殊的网 络结构设计、特殊的损失函数设计实现。 代 表 性 的 工 作 如Bilinear CNN[8]。 Bilinear CNN[8] 采用了双支路的结构,两条支 路分别提取不同的图像特征。其核心模块是采 用了双线性池化的操作,对两条支路提取的特 征向量采用了矩阵外积的操作,得到了图像的 高阶特征。相较于一般网络提取到的题解图像 特征,这种特征包含的信息更充分、更能帮助 进行细粒度内容感知。区别于Blinear CNN[8] 设计了独特的网络结构进而使用双线性池化 外,设计特定损失函数指导网络提取辨别性特 征也是端到端特征编码的常用方式。如PC[9] 认为在类间相似度极大的情况下,网络容易关 注到样本里的特定模式,很容易出现过拟合现 象,通过抑制这种现象可以提高分类的准确 率。PC[9] 提出了基于样本对的迷惑性约束,在 输入图像相似的情况下,约束其输出的概率分 布也类似,进而减轻过拟合现象。MAMC[10] 则发现不同区域的特征之间的亲疏关系可以用 于指导特征学习。MAMC[10] 设计了一个N元 组损失函数,约束同一类别的相同区域特征相 距最近,同一类别的不同区域和不同类别的相 同区域其次,不同类别的不同区域相距最远, 从而实现了辨别性特征的提取。与之类似, Cross-X Learning[11] 也利用了这一关系改进 基于自注意力机制定位到的辨别性区域。 端到端特征编码方法具有简洁和直接的 优点。但区别于定位-分类网络方法,端到端 特征编码方法不进行显式的辨别性区域定位, 因此其可解释性稍差。除此以外,这种方法的 性能一般也稍逊于同时期的定位-分类网络方 法,且在不同数据集上的稳定性稍差。 1.2 场景图生成方法研究 场景图生成是人工智能领域对图像语义理 解从浅层到深层的重要一步。通过详细描述图 像中隐含的语义关系,其结果不仅能直接为图 像描述、视觉问答等领域的结果提供参考,也 能为图像分割、物体识别等基础任务提供特征 优化。 场景图生成任务具有场景信息复杂及模型 训练偏差两大难点。场景信息复杂指同一场景 中物体众多且互相存在关联,逐个单独识别往 往难以充分利用图像中包含的信息,导致模型 判断失误。针对场景信息复杂问题,已有方法
📄 Page 17
12 主要研究利用视觉上下文信息加强物体和谓词 的特征,以提高生成场景图的准确性。模型训 练偏差是指由于物体间关系的语义模糊性,具 有较高信息量标签的训练样本较少,导致模型 偏向出现频率较高的简单谓词类别。针对模型 训练偏差问题,已有方法主要研究去除训练偏 差的场景图生成方法。如图2所示,上述两类 方法分别从任务中的不同阶段入手优化模型。 1.2.1 视觉上下文利用 视觉上下文能为场景图生成模型的物体识 别和谓词识别提供有效的信息佐证,从而纠正 模型中单独判断时看似正确,放到整个场景中 却可能性较低的预测结果。将物体识别网络与 谓词识别网络分为两部分进行,首先通过预训 练好的已有物体检测网络进行物体定位与特征 提取,接着通过物体识别网络进行消息传递并 得出物体识别结果。最后,通过谓词识别网络 根据关系三元组(主语,谓词,宾语)中已知 的主语、宾语的特征与类别信息等组成谓词特 征,再次消息传递并进行谓词识别以完成关系 三元组的预测,从而构成场景图。 根据消息传递网络所采用的基础连接模式 的不同,可将现有相关研究分为三类。 1) 基于全连接图的方法。Xu等 [12] 先驱性 的工作中,物体和谓词分别构成一组对偶的图 结构,并在网络中在不同图之间随着迭代通过 GRU[13] 互相传递信息,以优化视觉特征。然而, 基于全连接图的消息传递给物体特征带来了大 量不相关的信息,使图像中的关系对难以被充 分表达,严重影响了后续的识别精度。 2) 基于线性顺序连接图的方法。Zellers 等 [14] 提出一种堆叠式基序网络。该方法根据 候选区域的大小,对所有物体进行排序,并顺 序连接,通过双向LSTM[15] 和单向LSTM分别 对物体特征和谓词特征进行优化。 3) 通过打分网络估计连接的方法。Yang 等 [16] 提出了面向图数据的区域候选卷积神经 网络,以借鉴物体检测任务的经验进行场景图 生成。其中包含关系候选网络及带注意力机制 的GCN。其中关系候选网络为两层的多层感 知机,通过训练集中的标签进行训练,用以预 测主语宾语之间连接。Tang等 [17] 提出了一种 视觉上下文树模型以动态、层次化地估计视觉 上下文信息。该方法也通过训练一个类似关系 候选网络的独立打分网络,估计两个物体间可 能存在的连接情况。 1.2.2 训练偏差去除 对于训练偏差的探索一直是场景图生成 领域长久以来的研究重点。对于训练偏差的成 因,现有研究存在两大较为主流的观点。 1) 训练偏差由训练数据中谓词类别存在 的长尾分布问题引起。Li等 [18] 提出了一种二 分图神经网络适应性地进行消息传递,并采用 了双层数据重采样缓解谓词类别中的长尾分布 专题:视觉感知 AI-VIEW  2024 年第 1期 图 2  不同场景图生成方法在整体流程中的优化重点
📄 Page 18
13 图像内容精细化感知及其安全关键技术研究 图 3  图像描述生成主流方法示意图 问题。Li等 [19] 提出基于谓词概率分布的损失 函数,将谓词类别间的语义相关性引入模型中。 2) 物体间关系的复杂语义内涵导致单一 谓词难以对其准确描述,因此对实例的谓词标 注存在语义模糊问题,进而导致模型在训练时 被误导,产生训练偏差。Goel等 [20] 通过使用 有偏场景图生成模型的预测结果污染数据集 中的标签,从而使一对物体有多个谓词标签。 Li[21] 等根据训练好的场景图生成模型的输出 进行判断,依次检测负例和正例中的噪声样 本,并对其进行修正,从而从数据源上缓解语 义模糊问题。 1.3 图像描述生成方法研究 图像描述融合了人工智能两大研究领域, 即计算机视觉与自然语言处理,涉及检测和识 别物体,理解场景类型、图像中的不同物体及 其相互作用,并生成符合语法规则的文字表 达。图像描述任务的主要难点在于:① 图像内 容和结构的深度分析,为保证生成描述的粒度 与准确性,图像描述不仅要求理解图像中存在 的实体(包括实体的整体结构与局部属性),还 要求掌握实体之间的关系(包括位置关系和逻 辑关系);② 图像特征与文字特征的对齐和转 化,由于图像描述是双模态任务,用自然语言 表示图像中的内容为其最终目的,因此需要对 图像进行语义特征的提取和深度挖掘,并对齐 到文字特征,从而转化为描述。 早期的图像描述方法大多基于句子检索[22]: 将句子表示与图像表示匹配,可以从一组庞大 的描述数据集中提取最适合该图像的句子。然 而,这种方法的匹配过程的计算代价昂贵,构 建庞大描述数据集也存在不小的挑战。随着深 度学习的发展,图像描述任务也进入了新的阶 段。如图3所示,按照是否具有显示地检测图 像中实体的过程,可以将图像描述方法分为二 阶段方法和一阶段方法。 1.3.1 二阶段的图像描述生成 二阶段方法往往包括检测和描述两个子网 络,具有检测-描述的图像描述框架。检测网 络检测图像中包含的实体并提取实体的特征, 一般利用目标检测网络提取图像中的实体区域
📄 Page 19
14 图取代以往的整幅图像作为输入,描述网络输 入实体特征,并结合语言模型生成最终的描述。 具有代表性的方法为Anderson等 [23] 提 出的“检测-描述”框架,该方法利用Faster- RCNN[24] 提取图像中的实体区域图,取代以往 的整幅图像作为输入,通过将“自下而上”的 注意力模型与“自上而下”的长短期记忆网络 (LSTM)相结合,缓解了典型注意力模型的 局限性。该方法使用更加具有语义信息的实体 检测结果作为网络的输入,产生了良好的结果。 后续工作大都遵循上述过程,即使用目标检测 器获取图像中实体的特征,并通过注意力机制 的LSTM生成图像描述。 尽管取得了一系列优秀成果,早期的“检 测-描述”的图像描述方法仍然在实体间关系 提取、全局信息处理上表现得不够理想。而随 着Transformer体系结构 [25] 的提出,二阶段 图像描述网络发展迅速,众多研究工作开始使 用Transformer取代传统的编解码器,产生 了性能更优的图像描述模型。Transformer 架构引入注意力机制作为核心,着重于建模图 像块之间的关系。当其应用到二阶段的图像描 述方法中时,图像中检测到的实体被输入到 Transformer编解码器,优化了各个实体之 间的关系挖掘以及整体信息的融合理解过程, 产生了更加领先的结果。在实体间关系提取方 面,许多研究工作对Transformer提取的图 像特征展开了优化,强化图像中的空间位置信 息,例 如Herdade等 [26] 通 过 采 用Anderson 的自下而上的方法 [23] 改进Transformer编码 器。这项工作使用位置编码对输入数据进行重 新融合,将其应用于描述文本中的已解码标 记,从而用位置编码表示图像中实体间的空间 关系,强化了模型的空间关系建模能力。在整 体信息挖掘问题上,许多研究通过构造全局信 息,以弥补输入均为局部实体特征的缺陷。例 如,Luo等 [27] 利用Transformer层级结构的 特点,建模层间-跨层联合的全局信息表示, 提取更全面的全局特征,然后自适应地指导解 码器生成高质量的描述,并解决目标丢失和关 系偏置的问题。 二阶段方法是一种将复杂问题简单化的方 法。由于通过检测网络检测到了图像中的实体, 该类方法一定程度上保证了图像主要内容的准 确性。但是,由于其引入的实体检测特征比较 固定,不能跟随网络更新和学习,其生成描述 的内容和粒度存在上限,并且对背景信息的解 读能力较弱。 1.3.2 一阶段的图像描述生成 一阶段方法存在两个发展阶段。较早的基 于深度学习的方法受机器翻译 [28] 启发,该类 方法正式提出编码器-解码器的框架,并采用 CNN-RNN架构,取代了基于句子检索的方法, 成为图像描述的主流选择。例如,Vinyals[29] 提出了一个由CNN编码器和LSTM解码器组 成的端到端框架。许多用于图像描述的早期神 经网络模型遵循该类方法,使用表示整个图像 的单个特征向量对视觉信息进行编码,该类方 法对整张图像特征过度压缩,没有涉及图像 中的空间关系以及图像中实体的语义关系, 因此效果并不理想,仅仅是早期尝试。后来的 研究者注意到图像描述网络需要关注到空间 关系与实体间语义关系,开始研究生成描述中 的单词与图像区域的对应关系,希望利用不同 的区域预测不同的单词。因此,基于注意力机 制的图像描述方法出现在研究者的视野中,例 如Show, Attend and Tell模型 [30],这类方法 试图基于图像中的区域预测描述中的单词。从 形式看,取代以往的使用全局CNN提取图像 特征,该类方法将图像划分为网格,采用网格 专题:视觉感知 AI-VIEW  2024 年第 1期
📄 Page 20
15 图像内容精细化感知及其安全关键技术研究 CNN与生成的单词相关联。 近年来,随着视觉语言预训练模型的广泛 使用,图像描述等视觉语言任务得到了极大的 发展。LEMON[31] 等大规模视觉语言预训练 模型为下游图像描述任务提供了具有代表性 的视觉特征,该特征经过海量数据的预训练可 与文本特征对齐,并能够参与到图像描述网络 的训练中,从而使得一阶段方法取得显著的成 果。一些研究采用简单的预训练输入特征改善 图像描述模型的结果,例如Barraco等 [32] 直 接使用这类对齐的特征以取代传统的Faster- RCNN[21] 图像特征,并在下游的图像描述任务 中微调该图像特征,使得二阶段模型变为性能 更优的一阶段模型,取得了领先的结果。而为 了在提取局部的实体特征的同时挖掘全局结构 信息,一些研究则直接设计了优越性能的一阶 段模型,例如Fang等 [33] 直接将图像切分为网 格状输入到设计好的模型中,学习广泛的语义 概念,并将其编码为概念标记,从而提高了图 像描述的质量。Zhang等 [34] 通过一系列的可 学习簇获得伪区域,同时探索低层和高层编码 特征。以上方法得益于视觉语言预训练模型的 发展,将可优化的图像特征引入架构中,实现 了领先的性能。 2 图像内容精细化感知模型面临的安 全威胁 随着图像内容精细化感知技术的广泛应用 和不断发展,感知模型也面临着越来越严峻的 安全挑战,受到后门攻击、模型窃取攻击、对 抗攻击等威胁。作为可直接影响模型预测结果 的攻击方式,对抗攻击和后门攻击近年来受到 了广泛关注。感知模型一旦被攻击者攻击成功, 可能会造成严重后果。例如,在自动驾驶中, 对交通标志、行人识别的针对性攻击会使得汽 车做出错误决策,进而引发安全事故。因此, 相关的攻击与防御技术也成为当前研究热点。 2.1 对抗攻击及防御方法研究 2.1.1 对抗攻击 对抗攻击(Adversarial Attack)[35] 针对 各个任务已有的模型进行攻击,对输入样本添 加人眼不可感知的噪声,使得模型输出错误的 结果。在生成对抗样本时,较常见的方法是根 据被攻击模型的损失函数计算出针对输入的梯 度,然后沿着梯度方向对输入进行迭代修改。 因此,针对不同的任务,攻击技术的研究重点 是如何设计合理的损失函数以计算梯度,从而 指导生成攻击能力强的对抗样本。在这个过程 中,根据对被攻击模型(Target Model)信息 掌握的多少,对抗攻击可以分为白盒攻击 [35] 和 黑盒攻击 [36]。 早期的对抗样本方法主要为白盒攻击, 重点是根据模型特点设计损失函数。白盒攻击 的设定是攻击者掌握被攻击模型的全部信息, 此时可利用被攻击模型的模型参数直接求得损 失函数,继而回传得到针对输入图像的梯度, 然后沿着梯度方向对输入图像的像素进行轻 微地修改以生成对抗样本。根据梯度回传的次 数,可以分为只进行一次梯度回传的方法(如 FGSM[35]),以及进行多次梯度回传的方法(如 BIM[37])。 考虑到实际攻击场景中难以接触被攻击模 型,后期越来越多的研究倾向于更贴近现实的 黑盒攻击。黑盒攻击是指完全不了解被攻击模 型任何信息的攻击场景,在这种情况下的对抗 攻击,可以分为迁移攻击和查询攻击。迁移攻 击 [36] 不需要与被攻击模型有任何接触,使用一 个可以执行同一个任务的其他模型作为替代模
The above is a preview of the first 20 pages. Register to read the complete e-book.

💝 Support Author

0.00
Total Amount (¥)
0
Donation Count

Login to support the author

Login Now
Back to List