CN116934966A 基于Diffusion网络的多机位3D物品生成系统 (视见科技(杭州)有限公司).docxVIP

  • 0
  • 0
  • 约5.61千字
  • 约 10页
  • 2026-03-17 发布于重庆
  • 举报

CN116934966A 基于Diffusion网络的多机位3D物品生成系统 (视见科技(杭州)有限公司).docx

(19)国家知识产权局

(12)发明专利申请

(10)申请公布号CN116934966A(43)申请公布日2023.10.24

(21)申请号202310880547.4

(22)申请日2023.07.17

(71)申请人视见科技(杭州)有限公司

地址311100浙江省杭州市余杭区仓前街

道宝晋未来商业中心2幢8层822室

(72)发明人彭飞

(74)专利代理机构重庆百润洪知识产权代理有限公司50219

专利代理师刘子钰

(51)Int.CI.

GO6T17/00(2006.01)

GO6V10/762(2022.01)

GO6V10/774(2022.01)

GO6T5/00(2006.01)

权利要求书1页说明书3页附图1页

(54)发明名称

基于Diffusion网络的多机位3D物品生成系

(57)摘要

CN116934969A本发明提供了基于Diffusion网络的多机位3D物品生成系统,包括中心处理单元;其中,中心处理单元被配置为:图像处理模块,用于对多机位拍摄的实时视频进行前处理,包括图像校准、深度估计和视角特征提取,本发明所提出的基于Diffusion网络的技术通过利用深度学习模型,能够生成逼真的3D物品,包括家具、汽车、电子设备等。在本发明的系统中,首先对多机位拍摄的实时视频进行前处理,包括图像校准、深度估计和视角特征提取等步骤。然后,通过Diffusion网络对3D物品进行生成,该网络结合了高维噪声和物品样本,能够逐渐扩散和更新物体的表面特征和几何结构,实现高质量的3D物品生成。最后,将生成的3

CN116934969A

中心处理单元

图像处理模块

Point-E模型

GLIDE模型CLIP模型

模型训练集

用户界面

CN116934966A权利要求书1/1页

2

1.基于Diffusion网络的多机位3D物品生成系统,其特征在于,所述系统包括中心处理单元;

其中,所述中心处理单元被配置为:图像处理模块,用于对多机位拍摄的实时视频进行前处理,包括图像校准、深度估计和视角特征提取;

所述图像处理模块配置为:Point-E模型;

所述Point-E模型包括GLIDE模型和CLIP模型;

其中,所述GLIDE模型负责根据文字提示生成平面图像,所述CLIP模型基于平面图像生成3D点云图;

其中,所述系统还包括用户界面,所述用户界面显示用于3D物品生成图像的显示。

2.根据权利要求1所述的基于Diffusion网络的多机位3D物品生成系统,其特征在于,所述用户界面是触屏控制台。

3.根据权利要求1所述的基于Diffusion网络的多机位3D物品生成系统,其特征在于,所述GLIDE模型首先用于收集不同质量不同格式的3D模型,输出同样大小和光感的3D模型,并且每个模型都拥有20个不同角度的2D渲染图。

4.根据权利要求1所述的基于Diffusion网络的多机位3D物品生成系统,其特征在于,所述GLIDE模型其次基于2D渲染图进一步生成3D点云图,将从点云投到相机视角得到深度。

5.根据权利要求1所述的基于Diffusion网络的多机位3D物品生成系统,其特征在于,所述CLIP模型进行聚类分析,将深度输入到stablediffusion作为condition,利用CO3D数据集的图像-深度图训练sparsedepthinjector,利用LoRAfinetunediffusionmodel,得到模型训练集。

6.根据权利要求5所述的基于Diffusion网络的多机位3D物品生成系统,其特征在于,所述在得到训练集后,采用fine-tuning现有的GLIDE模型处理文字转图片任务,以及基于transformer和CLIP模型处理图片转3D任务。

7.根据权利要求1所述的基于Diffusion网络的多机位3D物品生成系统,其特征在于,所述Point-E模型接受噪声向量并对其进行降噪,输出直接作为输入反馈。

CN116934966A

您可能关注的文档

文档评论(0)

1亿VIP精品文档

相关文档