浙江/宁波-2026-01-30 00:00:00
关于印发《宁波市高质量数据集建设评价体系指引(试行)》的通知
甬经信数智〔****〕*号
各区(县、市)经信局、各管委会经信部门,宁波经济技术开发区数字经济发展局,有关企业:
为规范引导我市高质量数据集建设,我局制定了《宁波市高质量数据集建设评价体系指引(试行)》,现印发给你们,请遵照执行。
宁波市经济和信息化局
****年*月**日
宁波市高质量数据集建设评价体系指引
(试行)
为深入贯彻国务院《关于深入实施“人工智能+”行动的意见》(国发〔****〕**号)的部署,落实《宁波市人工智能创新发展行动方案(*********年)》(甬政办发〔****〕**号)要求,充分发挥数据要素作为关键生产要素的倍增效应,以高质量数据集建设支撑“人工智能+”行动,特制定本评价体系指引。
一、总体要求
深化数据要素市场化配置改革,将高质量数据集作为深入实施“人工智能+”行动的核心要素,以打造开放协同的数据生态为宗旨,以优质数据资源供给为基础,以高价值应用场景为切口,探索高质量数据集建设实践,逐步完善高质量数据集建设标准体系及行业落地路径,支撑人工智能引领下的数字经济高质量发展,助力培育壮大新质生产力。
二、适用范围
本指引主要面向工业制造、港口航运、现代农业、商贸流通、交通运输、金融服务、文化旅游、医疗健康、绿色低碳等我市产业发展和全域数字化转型重点领域,引导相关主体建设高质量数据集,推动我市高质量数据集不断丰富完善,为我市深入实施“人工智能+”行动,打造具有全国竞争力和影响力的人工智能产业发展基地、创新应用高地奠定坚实数据支撑。
三、评价指标
宁波市高质量数据集评价指标围绕数据集的数据质量、场景应用、产业带动三大维度进行考量,推动建设满足**就绪度要求、有效训练算法模型、切实解决行业难题、具有产业带动作用的高质量数据集。
序号 | 指标名称 | 具体内容 | 备注 | |
* | 数据质量 | 内容完整性 | 数据内容填充完整,缺失值、重复值在合理范围内。 | 缺失值、重复值范围在**%及以内。 |
* | 内容真实性 | 数据内容真实可追溯。 | 非合成数据真实无篡改、可追溯采集源头,合成数据生成过程透明、分布合理。 | |
* | 内容准确性 | 数据内容及标注经过严格处理,不包含脏数据。 | 文本数据:不存在乱码、特殊符号等干扰内容; 图像/视频数据:不存在水印、字幕等干扰内容; 音频数据:噪声、失真等情况在合理范围内。 自定义结构数据:根据揭榜单任务书确定。 | |
* | 数据规范性 | 数据内容及标注应符合规范。 | 规范包括:数据格式、来源、范围、业务规则、元数据或权威参考数据等。 | |
* | 安全合规性 | 数据内容合法、稳定,不包含违法、违规、侵权、歧视等内容。 | 如包含违反社会主义核心价值观和违反法律规定的内容,将予以一票否决。 | |
* | 内容一致性 | 数据集中相关联的数据间内容一致,能在语义和表达上保持匹配。 | 不同模态间数据的内容一致与同模态数据间的内容一致均需评价。 | |
* | 场景应用 | 应用实效性 | 数据集的利用在目标应用场景中达到预期效果。 | |
* | 样本多样性 | 数据分布全面程度应满足目标应用场景需求。 | ||
* | 样本充足性 | 数据规模应满足目标应用场景需求。 | ||
** | 场景应用 | 样本时效性 | 数据采集时间和更新状态应满足目标应用场景需求。 | |
** | 用户友好性 | 数据集的说明文档完整清晰易懂,涵盖基本信息、内容特征、建设过程及应用说明。 | 基本信息包括:数据集规模、格式规范、文件结构、访问渠道、技术支持方式等。 内容特征包括:模态类型、数据分布情况、标签类型、样本示例、局限性说明等。 建设过程包括:数据来源、采集方法、加工处理流程、标注规范、版本控制记录等。 应用说明包括:使用许可、应用场景、评估方法、基准测试结果、典型应用案例等。 | |
** | 产业带动 | 示范价值 | 数据集说明文档进行开源开放,且在数据资产入表、数据知识产权登记、数据产权登记、流通交易等方面进行先行先试。 | |
** | 推广价值 | 数据集的建设路径可复制推广,应用领域覆盖广泛。 | ||
** | 保障能力 | 数据集建设和应用具有专业团队,能够持续、稳定、及时地提供高质量的相关服务。 | ||
四、其他
本指引将根据国家、省、市有关高质量数据集的政策变化和技术发展等情况,动态进行更新完善。



