CN113554045A 数据集制作方法、装置、设备及存储介质 (国家广播电视总局广播电视科学研究院).docxVIP

  • 0
  • 0
  • 约1.3万字
  • 约 21页
  • 2026-02-06 发布于重庆
  • 举报

CN113554045A 数据集制作方法、装置、设备及存储介质 (国家广播电视总局广播电视科学研究院).docx

(19)中华人民共和国国家知识产权局

(12)发明专利申请

(10)申请公布号CN113554045A

(43)申请公布日2021.10.26

(21)申请号202010329050.X

(22)申请日2020.04.23

(71)申请人国家广播电视总局广播电视科学研

究院

地址100866北京市西城区复兴门外大街2

(72)发明人刘庆同薛子育王磊郭沛宇张乃光

(74)专利代理机构北京博雅睿泉专利代理事务所(特殊普通合伙)11442

代理人马铁良

(51)Int.CI.

GO6K9/62(2006.01)

GO6F16/215(2019.01)

权利要求书1页说明书8页附图2页

(54)发明名称

数据集制作方法、装置、设备及存储介质

(57)摘要

CN113554045A本公开的实施例涉及数据集制作方法、装置、设备及存储介质。其中一个方法包括:按照指定的采集条件,采集实验者的原始图像数据,根据预先创建的深度伪造模型,确定所述原始图像数据对应的伪造图像数据,根据所述原始图像数据和所述伪造图像数据,生成训练数据集和测试数据集。通过上述方法,通过采集指定的采集条件下的实验者的原始图像数据,能够使得所采集实验者的原始图像数据更具有针对性,也更加丰富全面精准,从而有效地提高了数据集的质量,

CN113554045A

按照指定的采集条件,采集实验者的原始图像数据

根据预先创建的深度伪造模型,确定所述原始图像数据对应的伪造图像数据

根据所述原始图像数据和所述伪造图像数据,生成训练数据集和测试数据集

S202

S203

CN113554045A权利要求书1/1页

2

1.一种数据集制作方法,包括:

按照指定的采集条件,采集实验者的原始图像数据;

根据预先创建的深度伪造模型,确定所述原始图像数据对应的伪造图像数据;

根据所述原始图像数据和所述伪造图像数据,生成训练数据集和测试数据集。

2.根据权利要求1所述的方法,其特征在于,所述采集条件包括:采集环境条件和实验者属性条件。

3.根据权利要求2所述的方法,其特征在于,所述采集环境条件包括:采集角度和光照。

4.根据权利要求2所述的方法,其特征在于,所述实验者属性条件包括:实验者的性别比例、实验者的年龄比例、实验者的肤色比例和实验者的面部特征。

5.根据权利要求1所述的方法,其特征在于,按照指定的采集条件,采集实验者的原始

图像数据,包括:

根据指定的采集条件的类型,确定指定的采集条件组;

针对每个指定的采集条件组,采集实验者的原始图像数据。

6.根据权利要求1所述的方法,其特征在于,所述深度伪造模型包括:基于表情迁移的伪造模型、基于完整面部替换的伪造模型和基于面部再造的伪造模型中的至少一个。

7.根据权利要求6所述的方法,其特征在于,根据预先创建的深度伪造模型,确定所述原始图像数据对应的伪造图像数据,包括:

对所述原始图像数据进行清洗处理;

截取清洗处理后的所述原始图像数据内的人脸图像数据;

选取部分所述人脸图像数据进行失真处理;

针对任一预先创建的深度伪造模型,将失真后的所述人脸图像数据和未失真的所述人脸图像数据输入到该深度伪造模型内,得到所述原始图像数据对应的伪造图像数据。

8.一种数据集制作装置,包括:

采集模块,用于按照指定的采集条件,采集实验者的原始图像数据;

确定模块,用于根据预先创建的深度伪造模型,确定所述原始图像数据对应的伪造图像数据;

生成模块,用于根据所述原始图像数据和所述伪造图像数据,生成训练数据集和测试数据集。

9.一种数据集制作设备,包括如权利要求8所述的数据集制作装置,或者,所述设备包括:

存储器,用于存储可执行命令;

处理器,用于在所述可执行命令的控制下,执行如权利要求1-7中任一项所述的数据集制作方法。

10.一种计算机可读存储介质,存储有可执行指令,所述可执行指令被处理器执行时,执行如权利要求1-7中任一项所述的数据集制作方法。

CN113554045A说明书1/8页

3

数据集制作方法、装置、设备及存储介质

技术领域

[0001]本公开的实施例涉及人工智能领域,更具体地,涉及数据集制作方法、数据集制作装置、数据集制作设备以及计算机可读

您可能关注的文档

文档评论(0)

1亿VIP精品文档

相关文档