Support Statistics
¥.00 ·
0times
Text Preview (First 20 pages)
Registered users can read the full content for free
Register as a Gaohf Library member to read the complete e-book online for free and enjoy a better reading experience.
Page
1
(This page has no text content)
Page
2
(This page has no text content)
Page
3
(This page has no text content)
Page
4
前 言 党的十八大以来,以习近平同志为核心的党中央高度重视我国新 一代人工智能发展。习近平总书记深刻把握世界科技发展大势,洞察 人工智能的战略意义,在二十届中央政治局第二十次集体学习时指出, “人工智能作为引领新一轮科技革命和产业变革的战略性技术,深刻 改变人类生产生活方式。”“我国数据资源丰富,产业体系完备,应 用场景广阔,市场空间巨大。”这为把握智能化浪潮,释放数据要素 价值指明了前进方向,提供了根本遵循。 随着大模型技术应用的快速发展,人工智能的研发重点正从“重 点优化模型架构”转向“模型与数据协同优化”,其中高质量数据的 作用日益凸显。数据作为人工智能发展的三大核心要素之一,已成为 人工智能大模型训练的核心要素资源,决定了大模型的性能。加快人 工智能高质量数据集建设,夯实人工智能发展数据基础,对于推动 “人工智能+”场景落地具有重要意义。国家数据局联合各部门、各 地区,构建起“部门协同、央地联动”的工作机制,联合施策、协同 发力,积极引导做好高质量数据集建设工作,明确提出“‘人工智能 +’行动到哪里,高质量数据集的建设和推广就要到哪里”。 由国家数据局指导,中国信息通信研究院、国家数据发展研究院、 中国电子技术标准化研究院、国家信息中心、国家发展和改革委员会 创新驱动发展中心、中国电子信息产业发展研究院等单位,在充分调 研的基础上,编制《高质量数据集建设指引》,总结高质量数据集建 设方法论,指导推进高质量数据集建设,力争为人工智能纵深发展提 供有力支撑。
Page
5
(This page has no text content)
Page
6
目 录 一、 高质量数据集建设背景 .....................................................1 (一) 高质量数据集的发展背景 ............................................1 (二) 高质量数据集的概念内涵 ............................................3 (三) 高质量数据集的分类 .................................................... 5 二、 高质量数据集应用需求 .....................................................8 (一) 基础认知层数据集需求——建立世界的基本认知 ... 8 (二) 场景理解层数据集需求——解析复杂场景关系 ..... 10 (三) 行动规划层数据集需求——规划执行具体行动 ..... 13 三、 高质量数据集建设现状 .................................................. 17 (一) 全球高质量数据集建设现状 ......................................17 (二) 我国高质量数据集建设现状 ......................................19 (三) 高质量数据集建设困难与挑战 ..................................21 四、 高质量数据集建设方法与实践 ...................................... 24 (一) 典型建设模式 .............................................................. 24 (二) 建设核心环节 .............................................................. 26 (三) 建设核心技术 .............................................................. 28 (四) 数据集质量评价 .......................................................... 33 五、 高质量数据集建设运营体系 .......................................... 40 (一) 高质量数据集体系规划 .............................................. 40 (二) 高质量数据集工程建设 .............................................. 41 (三) 高质量数据集运营管理 .............................................. 42 六、 高质量数据集建设推进思路 .......................................... 45
Page
7
(一) 体系化布局高质量数据集建设 ..................................45 (二) 设施化推进高质量数据集应用 ..................................47 (三) 生态化赋能高质量数据集发展 ..................................48
Page
8
1 一、 高质量数据集建设背景 (一)高质量数据集的发展背景 在以人工智能为代表的新一轮科技革命和产业变革深入推 进的大背景下,数据正日益成为国家基础性战略资源和关键性 生产要素。高质量数据集作为人工智能发展的基础支撑,其重 要地位不断上升,成为驱动技术创新、赋能产业升级和提升治 理能力的重要抓手。当前,高质量数据集的建设正处于政策驱 动与场景牵引同步发力、协同推进的关键阶段。 1.高质量数据集成为人工智能发展核心支撑 人工智能技术迈入大模型时代后,研发重点从“重点优化 模型架构”转向“模型与数据协同优化”,其中高质量数据的 作用日益凸显。主要表现在:一是将数据视为活的资产,不再 是一次性收集、处理后就束之高阁的静态文件,而是一个需要 持续投资、管理、监控和优化的动态、演进的战略资产。二是 用自动化的、可编程的、可扩展的数据处理流程,取代手动的、 一次性的数据处理工作,系统性处理海量数据,并能提升数据 质量。三是整合领域专家,将拥有深厚行业知识的主题专家直 接整合到数据处理的流水线中。专家知识被用来定义数据标准、 标注复杂案例、识别数据中的细微偏差,从而将领域智慧注入 数据。四是建立模型反馈闭环,将模型在实际应用中的错误作 为诊断信号,用来发现数据中的问题(如标签错误、数据分布 不均、边界案例缺失等),然后有针对性地改进数据集。由此 就形成了一个“数据飞轮”效应,更好的数据训练出更好的模
Page
9
2 型,更好的模型反过来帮助获得更好的数据。 大模型参数规模指数级增长与多模态能力的拓展,数据需 求从“量级积累”转向“量质并重”。例如,以 OpenAI 为代 表的国际领先科技企业正通过强化微调等技术手段,依托小规 模但高度精准、精细化、结构化的高质量数据集,实现大模型 在垂直领域的专业化和实用化演进。这种“以质取胜”的数据 策略显著提升了模型性能与落地能力。而 DeepSeek 模型在复杂 逻辑推理任务中取得突破性进展,源于其 R1 模型采用的数学 推理数据集,不仅要求答案正确性,更对解题步骤的规范性、 逻辑链的完整性提出严格标准,这种精细化的数据设计使得模 型在抽象思维能力上实现质的提升。 人工智能走进千行百业的具体场景,行业模型的性能跃升 越来越依赖数据与场景的深度耦合,从“数据规模竞赛”转向 “数据质量深耕”。越来越多的企业开始采用自动化的数据筛 选、数据标注与数据增强等技术工具,以提升数据集的专业性 和适用性。在这种趋势下,模型训练不再依赖于盲目扩充数据 规模,而是更注重数据的代表性、多样性和场景适配性,为人 工智能的可持续发展奠定坚实基础。例如,医疗领域中某肺结 节检测模型训练数据集仅利用 1 万多例数据和亚毫米级病灶边 界勾画的标注信息,使得早期肺癌筛查中的假阳性率大幅下降; 工业质检场景中某企业通过合成数据等技术生成了 10 万种 “极端缺陷样本”,弥补了真实生产中罕见缺陷数据不足的问 题,使模型缺陷识别覆盖率大幅提升。
Page
10
3 2.国家高度重视高质量数据集建设 党中央、国务院高度重视数据资源的开发利用与高质量发 展,围绕构建数据基础制度、完善数据要素市场、推动公共数 据开放、夯实智能技术底座等方面,陆续出台多项纲领性政策 文件,为高质量数据资源体系建设提供了顶层设计和制度保障。 2022 年 12 月,中共中央、国务院印发《关于构建数据基 础制度更好发挥数据要素作用的意见》,明确提出探索开展数 据质量标准化体系建设。2023 年 12 月,国家数据局等 17 部门 联合印发《“数据要素×”三年行动计划(2024—2026年)》, 强调数据要素高质量供给与合规高效流通,提出打造高质量人 工智能大模型训练数据集。2024 年 12 月,国家发展改革委、 国家数据局等部门印发《关于促进数据产业高质量发展的指导 意见》,首次明确提出“高质量数据集”概念,将其作为人工 智能与实体经济融合的核心载体,并对行业数据集建设提出具 体要求。随后一系列政策相继发布,《关于促进数据标注产业 高质量发展的实施意见》《关于促进企业数据资源开发利用的 意见》以及《国家数据基础设施建设指引》等政策均提出建设 行业“高质量数据集”,由此数据集高质量发展成为行业发展 重要目标。2025 年 2 月,国家数据局组织 27 个部委召开高质 量数据集建设工作启动会,加强统筹协调,深化部门协同,全 力推动高质量数据集建设,高效赋能行业高质量发展,标志着 高质量数据集建设进入系统化、规模化推进阶段。 (二)高质量数据集的概念内涵
Page
11
4 高质量数据集是指经过采集、加工等数据处理,可直接用 于开发和训练人工智能模型,能有效提升模型表现的数据的集 合。高质量数据集主要服务于人工智能的实际应用场景,通常 包括以下四个核心组成要素:特征、标签、元数据和样本。特 征是模型训练的输入变量,用于描述每个样本的具体属性;标 签是需要模型预测的目标输出;元数据记录了数据生成与处理 过程的相关信息,如采集时间、地点、来源等;样本则是构成 数据集的基本单元,由特征向量及其对应的标签共同组成。例 如,机器学习中的经典数据集鸢尾花(Iris)数据集,包含 150 条样本,均匀分属三类鸢尾花,每类 50 条样本,使用花萼长度、 花萼宽度、花瓣长度和花瓣宽度作为分类特征。再如图像识别 领域广泛使用的 ImageNet 数据集,涵盖超过 1400 万张高分辨 率图像,覆盖 2 万多个类别,每张图像均配有准确的类别标签, 其中超过 100 万张图像还包含了物体边界框等精细标注信息。 高质量体现在规模“大”、安全“牢”、观点“正”、效 果“好”、应用“广”等方面,可以采用静态和动态的质量评 价方法来度量。静态质量主要关注数据本身的关键属性,在准 确性、完整性、一致性、时效性等基础指标上增加多样性、真 实性、合规性等维度,重点评估数据的领域覆盖、来源可靠性 以及在隐私保护和安全合规方面的表现。动态质量则强调数据 集在模型训练和应用中的实际效果,可通过引入代表性模型开 展基准测试,结合基准评测数据集与量化指标,客观衡量模型 性能的提升程度,从而明确数据集的“高质量”标准。同时,
Page
12
5 还应建设统一的质量评估平台,规范评估流程与工具,增强不 同数据集之间的可比性与通用性。由于不同行业数据集的模态 分布、标注需求差异较大,需根据行业特点应用不同的数据处 理技术和方法,其质量评价也需要在通用的指标上进行定制加 强。例如,医疗卫生领域,以文本(电子病历)和医疗影像居 多,侧重于文本解析、图文结合处理和专业标注等处理方式, 更关注数据内容的合规性、安全性和标注准确性;工业制造领 域,以时序数据、图像、图纸文档、仿真数据居多,侧重于时 序数据处理、高精度合成和专业标注等处理方式,更关注数据 内容的真实性、多样性和标注准确性。 (三)高质量数据集的分类 高质量数据集的类型和特性因应用场景、数据来源与模型 目标的不同而呈现多样化,可以从数据模态、模型阶段与行业 应用三个维度对当前主要的高质量数据集进行分类。 在数据模态方面,可以分为单模态数据集和多模态数据集。 单模态数据中,文本数据是非结构化的语言信息,用于自然语 言处理的机器翻译、情感分析等场景以及语言模型的训练;图 像数据是像素矩阵构成的视觉信息,用于计算机视觉的图像分 类、目标检测、医疗影像分析以及自动驾驶等场景;音频数据 是声波信号,用于语音识别、音乐生成、工业设备异常检测等 场景;IoT数据主要是传感器的实时流数据,例如温度、湿度、 加速度等,用于设备状态的监控、智慧城市中交通流量的预测 等场景。而多模态数据是指两种及以上模态数据的融合,通过
Page
13
6 模态互补提升模型的鲁棒性,用于图文生成、视频理解等场景。 而近期新涌现的思维链数据则是一种数据标注方法或推理过程 的表示方法,而非一种独立的数据模态,主要是通过分步推理 解释模型决策,演绎从问题到答案的具体推理步骤,用于数学 证明、逻辑谜题等模型的复杂推理,同时也提高人类对模型的 信任度。 在模型阶段方面,主要分为预训练数据集、微调数据集和 评估数据集。预训练数据集是用于大规模无监督或自监督学习 的基础数据集,通过让模型从中学习通用特征和知识,为后续 任务提供强大的初始参数。它是大模型训练的基石,其核心逻 辑是“先通识教育,再专业精修”,特点是海量、无需标注且 来源广泛,包括网页内容、书籍、学术文献、编程代码、平行 语料库、社交媒体和百科全书等。微调数据集是让模型“术业 有专攻”的关键,其核心作用是让模型在特定任务、领域或场 景中表现更优,引导模型聚焦特定任务的规律,强化与任务相 关的知识,同时弱化无关信息的干扰,最终实现“通用能力+专 项技能”的结合。它是连接通用预训练模型与具体应用需求的 “桥梁”,相比预训练阶段使用的海量通用数据,微调数据集 通常具有规模更小、针对性更强、标注更精细的特点。评估数 据集是一类精心设计的数据样本,主要目的是为了相对客观地 衡量模型的性能和泛化能力,具备独立性、代表性、时效性等 特点。 在行业应用方面,参考技术文件《高质量数据集 分类指南
Page
14
7 (征求意见稿)》可以分为通识数据集、行业通识数据集和行 业专识数据集。高质量数据集作为开发和训练人工智能模型的 重要支撑,不同类型模型所需数据集蕴含的通用知识、行业领 域通用知识、行业领域专业知识的内容、范围和数量也不一样。 通识、行业通识、行业专识三类高质量数据集,主要是通过数 据集的知识内容、来源类型、时效性、标注人员类型、敏感程 度、模型类型、主题范围等维度来进行划分。通识数据集包含 面向社会公众、无需专业背景即可理解的通用知识,主要用于 支撑通用模型落地应用,例如百度百科;行业通识数据集包含 面向行业从业人员、需要一定专业背景才能理解的行业领域通 用知识,主要用于支撑行业模型落地应用,例如行业研究报告; 行业专识数据集包含面向特定业务场景相关人员、需要较深的 专业背景才能理解的行业领域专业知识,主要用于支撑业务场 景模型落地应用,例如医疗领域的电子病历数据集等。
Page
15
8 二、高质量数据集应用需求 随着人工智能技术的快速发展,不同应用领域对高质量数 据集的需求呈现出层次化、专业化的特征。根据 AI 系统能力的 发展路径和认知层次,高质量数据集的应用需求可以划分为基 础认知层、场景理解层、行动规划层三个递进层次。从建立世 界的基本认知,到解析复杂场景关系,再到规划执行具体行动, 每一层都承载着不同的学习目标和能力要求。深入探索这三个 层次对高质量数据集的具体需求,将为建设主体提供清晰的数 据集建设方向和路径指引。 (一)基础认知层数据集需求——建立世界的基本认知 基础认知层是人工智能系统的根基,主要负责建立对世界 的基础表征和模式认知。这一阶段的核心目标是让 AI 系统掌握 “这是什么”的基本判断能力,构建对物理世界和抽象概念的 初步理解框架。基础认知层的能力直接决定了 AI 系统的认知上 限——没有扎实的基础表征,就无法实现深层理解和复杂推理。 1.应用目标:建立全面的基础认知框架 基础认知层需要通过海量数据学习各领域的通用模式和基 本概念,这种学习过程类似于人类儿童通过大量观察和体验认 识世界的过程。在语言领域,系统不仅需要掌握词汇、语法、 语义的基础表征,还要理解语言的统计规律和上下文关联模式, 形成对自然语言的内在理解;在视觉领域,需要学习从低级特 征(边缘、纹理、颜色)到高级概念(物体、场景)的层次化 表征,建立视觉世界的认知地图;在跨模态领域,需要建立不
Page
16
9 同模态间的基础对应关系,理解同一概念在不同感知通道中的 表现形式。这种学习强调知识的广度覆盖和基础模式的充分学 习,为后续的专业化学习和深度理解奠定坚实基础。 2.数据内容:海量数据支撑通用能力 基础认知层数据集的显著特征是规模庞大,通常达到 TB 至 PB 级别,这种规模需求有其深层的理论依据。大语言模型 的预训练语料包含数万亿词元(Token),这种海量数据使模型 能够捕捉语言中的长尾分布和罕见模式;视觉领域的大规模数 据集如 ImageNet 包含超过 1400 万张图像,覆盖 2 万多个类别, 确保模型能够学习到视觉世界的多样性。这种大规模需求源于 模型需要从数据中学习通用表征,遵循尺度定律(Scaling Law)——随着数据规模的增加,模型性能会持续提升,且这 种提升呈现幂律关系。更重要的是,海量数据能够提供足够的 统计信息,使模型学习到稳定可靠的模式,而非过拟合于特定 样本。 3.数据质量:覆盖广度与基础质量并重 基础认知层对数据质量的要求体现在多个维度的平衡上。 首先是覆盖面的广度,数据需要涵盖多领域(科学、文学、历 史、技术等)、多语言(主流语言及小语种)、多场景(正式、 非正式、专业、日常等),这种广覆盖确保模型具备处理多样 化输入的能力;其次是数据分布的合理性,要能够反映真实世 界的特征分布,避免因数据偏见导致模型产生系统性偏差;第 三是基础质量的保障,需要经过去重处理避免过拟合、去噪过
Page
17
10 滤提高信噪比、内容审核确保安全合规。值得注意的是,相比 后续层次,这一阶段对标注精度的要求相对较低,更多依赖自 监督学习,从数据本身的结构中学习,这也是为什么能够利用 互联网规模数据的关键所在。 4.典型应用:奠定模型基础能力 基础认知层数据集支撑了各类基础模型的训练,这些基础 模型成为整个 AI 生态系统的基石。语言领域的 GPT、BERT 等 模型通过大规模文本预训练,不仅学会了语言的表面形式,更 掌握了语言背后的知识结构和推理模式,为各种下游任务提供 了 强 大 的 语 言 理 解 能 力 ; 视 觉 领 域 的 ResNet 、 Vision Transformer 等通过大规模图像数据集训练,建立了从像素到语 义的完整映射,使计算机视觉从特征工程时代进入深度学习时 代;跨模态的 CLIP 等模型通过海量图文对数据,学习到视觉 和语言的统一表征空间,实现了零样本图像分类等突破性能力。 这些基础模型通过迁移学习和微调,能够快速适应各种下游任 务,极大降低了 AI 应用的开发成本和技术门槛。 (二)场景理解层数据集需求——解析复杂场景关系 场景理解层在基础认知之上,负责理解复杂场景中的结构 关系、语义逻辑和事件过程。这一层的核心是让 AI 系统能够深 度解析“这里发生了什么”“关系如何”“为什么会这样”等 需要理解的问题。场景理解层是 AI 从“看到”到“看懂”的关 键跨越,它要求系统不仅能识别单个元素,更要理解元素间的 相互作用和整体语境。
Page
18
11 1.应用目标:实现结构解析与深层理解 场景理解层要求模型具备结构解析和关系推理能力,这种 能力远超简单的模式匹配。在语言领域,模型需要理解篇章的 层次结构、段落间的逻辑关系、句子中的隐含信息和言外之意, 能够进行因果推理、类比推理和反事实推理;在视觉领域,需 要理解多个对象的空间关系(上下、左右、包含、相邻)、功 能关系(工具与使用者、容器与内容物)和场景的整体布局, 从而推断场景的功能和可能发生的事件;在视频领域,需要理 解时序事件的因果链条、动作的目的和结果、场景的动态变化 规律,捕捉关键帧之间的语义连续性。这一层强调从简单识别 到深度理解的能力跃升,要求模型具备类似人类的场景解析和 情境推理能力。 2.数据内容:精细化标注与语义信息丰富 场景理解层数据集包含丰富而精细的标注,每个标注都承 载着特定的语义信息。语言理解数据集如 SQuAD 不仅包含问 答对,还标注了答案在原文中的精确位置和推理依据,要求模 型理解问题意图并定位关键信息;视觉场景数据集如 COCO 包 含多层次标注体系——从粗粒度的场景类别到细粒度的像素级 分割,从静态的对象位置到动态的动作描述,形成了完整的视 觉语义体系;视频理解数据集如 ActivityNet 包含时序动作的精 确边界、动作类别的层次结构以及事件间的因果关系。数据规 模通常在十万到百万级别,这种相对适中的规模反映了一个重 要权衡:标注的精细度与覆盖的广度。每个样本都经过精心设
Page
19
12 计和标注,确保包含足够的信息密度来训练模型的理解能力。 3.数据质量:语义完整性与逻辑一致性 场景理解层对数据质量有着严格的多维度要求。语义完整 性要求标注覆盖场景的所有关键信息,不能有重要元素的遗 漏——例如在图像描述中,不仅要标注主要对象,还要包括它 们的属性、状态和相互关系;逻辑一致性要求不同层次、不同 角度的标注必须相互协调,形成统一的语义表达——如对象检 测的结果要与场景分类一致,时序标注要与事件描述对应,避 免矛盾和歧义;标注精确性要求细粒度的语义区分,能够区分 相似但不同的概念、动作或关系。这需要专业的标注团队经过 系统培训,遵循详细的标注规范,并通过多轮交叉验证和一致 性检查来保证质量。质量控制流程通常包括标注员培训、样例 标注、批量标注、质量抽检和反馈改进等环节。 4.典型应用:支撑复杂理解任务 场景理解层数据集广泛应用于各类需要深度理解的 AI 任务。 在自然语言处理领域,机器阅读理解系统能够回答关于文本的 复杂问题,信息抽取系统能够从非结构化文本中提取结构化知 识;在计算机视觉领域,目标检测能够精确定位和识别图像中 的多个对象,语义分割能够理解每个像素的语义类别,场景图 生成能够构建对象间的关系网络;在视频分析领域,动作识别 能够理解人类的复杂行为,事件检测能够发现视频中的关键时 刻。这些应用不仅要求模型能够识别“是什么”,更要理解 “为什么”和“怎么样”,真正实现对场景的深度理解。
Page
20
13 (三)行动规划层数据集需求——规划执行具体行动 行动规划层是 AI 系统的最高能力层,负责将理解转化为决 策和行动,实现从认知到执行的完整闭环。这一层的核心是让 AI 系统掌握“怎么做”“为什么这么做”以及“这样做的后果 是什么”,形成类似人类的决策推理能力。行动规划层代表了 AI 从被动响应到主动规划的质变,是实现通用人工智能的关键 环节。 1.应用目标:掌握完整的推理决策链条 行动规划层需要学习从问题识别到方案制定再到执行验证 的完整认知过程。在复杂推理领域,模型需要掌握多步推理的 逻辑链条,能够将复杂问题分解为子问题,选择合适的求解策 略,并验证每一步的正确性;在对话交互领域,需要理解用户 的真实意图(包括字面意思和潜在需求),根据上下文选择合 适的回应策略,维持对话的连贯性和目标导向性;在代码生成 领域,需要理解需求的本质,设计合理的算法架构,处理边界 条件和异常情况,生成高质量的可执行代码;在具身智能领域, 需要将高层任务目标分解为可执行的动作序列,考虑环境约束 和不确定性,实时调整执行策略。这一层强调思维的完整性、 决策的合理性以及执行的可行性。 2.数据内容:包含完整推理链与决策过程 行动规划层数据集的核心特征是包含完整、可追溯的推理 和决策过程。思维链(Chain-of-Thought)数据不仅提供最终答 案,更重要的是展示到达答案的每一个推理步骤,包括假设的
Comments 0
Loading comments...
Reply to Comment
Edit Comment