* |
数据清洗服务
| *(套) | |
对第二章交付的“原始载体图像”数据进行清洗、筛选和预处理,使其满足深度学习模型训练的要求。
· 具体参数与功能要求:
*. 清洗规则:
· 去除完全重复和高度相似的图像(基于感知哈希或特征比对)。
· 过滤含有明显水印、大面积文字、边框的图片。
· 剔除内容模糊、质量低下、尺寸不符合要求的图像。
· (可选)进行人脸模糊化等隐私保护处理(如包含人物肖像)。
*. 预处理: 将所有图像的文件名进行规范化重命名(如***命名),并转换为统一的格式(如.***)。
*. 数据划分: 将清洗后的数据按 ************* *:*:* 的比例划分为训练集、验证集和测试集,并确保三个集合在图像内容分布上均衡。需提供划分清单。
*. 质量检查: 清洗后数据集的无效图像率应为*。
|
*. 清洗、预处理并划分好的最终图像数据集。
*. 数据清洗报告,详细说明清洗规则、清洗前后的数据量对比、剔除原因分析等。
*. 训练集、验证集、测试集的划分清单文件。
| |
* |
部分测试服务
| *(套) | |
在项目后期,供应商需利用其计算资源,对我方训练完成的隐写分析***模型进行独立、客观的性能测试。
· 具体参数与功能要求:
*. 测试环境: 供应商需提供带有高性能***(不少于****** ****或同等级别)的服务器环境,并配置标准的深度学习框架(如*******, **********)。
*. 测试内容:
· 在供应商保管的测试集(第三章划分)上运行我方提供的模型,计算模型的准确率、误检率、漏检率、***曲线及***值。
· 测试至少针对*种不同的主流隐写算法(如***, ***, *********等)生成的隐写图像进行。
|
测试过程需可复现,并提供详细的测试报告。
· 交付成果:
*. 一份详细且规范的性能测试报告(中英文均可)。
*. 测试中生成的所有原始日志文件和结果文件。
| |
* |
数据采集模块
| *(套) | |
采购一套完整的图像数据采集系统或工具软件,用于后续大规模、多样化的图像数据收集工作。该模块应具备自动化或半自动化采集能力。具体参数与功能要求:
*. 来源支持: 必须支持从多个公开、合法的图像数据源进行采集,包括但不限于****** ***、********* ***(若可用)、公开学术数据集(如****, ********的子集)及指定网站(需支持代理和模拟登录)。
*. 采集维度: 支持根据关键词、类别、分辨率、颜色模式、发布时间、许可证类型(必须为可商用的***, *****等)等多种维度进行筛选和采集。
*. 元数据保留: 采集时应能保留图像的原始元数据(****信息)。
*. 性能要求: 支持多线程/异步采集,具备断点续传和去重功能。
*. 输出格式: 采集后的图像应以原始格式(如.***, .***)存储,并附带一个结构化的元数据文件(如***或****),记录每张图片的源***、采集时间、关键词、原始尺寸等信息。
|
*. 数据采集软件/系统一套(可安装于我方提供的*****服务器)。
*. 完整的技术文档,包括安装指南、用户手册和***说明(如有)。
*. 提供不少于*小时的技术培训服务。
| |
* |
数据采集服务
| *(套) | |
委托供应商根据我方要求,利用其自有资源或渠道,采集并提供一批高质量的图像数据,作为隐写分析研究的“载体图像”(***** ******) *. 数据规模: 总计不少于 **万张 高质量图像。
*. 数据多样性:
· 内容: 需覆盖自然风景、人物肖像、城市建筑、室内场景、动物、文本截图、计算机生成图像(***)等多种类别。
· 格式: 应以****和***格式为主,其中****数量占比约**%,***占比约**%。
· 分辨率: 图像短边分辨率均不低于***像素,且无明确上限。需提供不同分辨率图像的统计分布报告。
*. 质量要求: 所有图像必须清晰、无大量水印、无法律版权风险(需提供图像来源和版权说明)。无效图像(损坏、无法打开、尺寸过小)比例应低于*.*%。
*. 元数据: 需提供每张图像的基本元信息列表文件。
|
*. 符合要求的全部图像数据,通过移动硬盘或高速网络传输方式交付。
*. 完整的图像清单和元数据文件(***格式)。
*. 数据采集报告,包括数据来源、分类统计、分辨率分布、格式统计和质量检验报告。
| |