CN116934966A 基于Diffusion网络的多机位3D物品生成系统（视见科技(杭州)有限公司）.docxVIP

下载本文档

0
0
约5.61千字
约 10页
2026-03-17 发布于重庆
举报

CN116934966A 基于Diffusion网络的多机位3D物品生成系统（视见科技(杭州)有限公司）.docx

(19)国家知识产权局

(12)发明专利申请

(10)申请公布号CN116934966A(43)申请公布日2023.10.24

(21)申请号202310880547.4

(22)申请日2023.07.17

(71)申请人视见科技(杭州)有限公司

地址311100浙江省杭州市余杭区仓前街

道宝晋未来商业中心2幢8层822室

(72)发明人彭飞

(74)专利代理机构重庆百润洪知识产权代理有限公司50219

专利代理师刘子钰

(51)Int.CI.

GO6T17/00(2006.01)

GO6V10/762(2022.01)

GO6V10/774(2022.01)

GO6T5/00(2006.01)

权利要求书1页说明书3页附图1页

(54)发明名称

基于Diffusion网络的多机位3D物品生成系

统

(57)摘要

CN116934969A本发明提供了基于Diffusion网络的多机位3D物品生成系统，包括中心处理单元；其中，中心处理单元被配置为：图像处理模块，用于对多机位拍摄的实时视频进行前处理，包括图像校准、深度估计和视角特征提取，本发明所提出的基于Diffusion网络的技术通过利用深度学习模型，能够生成逼真的3D物品，包括家具、汽车、电子设备等。在本发明的系统中，首先对多机位拍摄的实时视频进行前处理，包括图像校准、深度估计和视角特征提取等步骤。然后，通过Diffusion网络对3D物品进行生成，该网络结合了高维噪声和物品样本，能够逐渐扩散和更新物体的表面特征和几何结构，实现高质量的3D物品生成。最后，将生成的3

CN116934969A

中心处理单元

图像处理模块

Point-E模型

GLIDE模型CLIP模型

模型训练集

用户界面

CN116934966A权利要求书1/1页

1.基于Diffusion网络的多机位3D物品生成系统，其特征在于，所述系统包括中心处理单元；

其中，所述中心处理单元被配置为：图像处理模块，用于对多机位拍摄的实时视频进行前处理，包括图像校准、深度估计和视角特征提取；

所述图像处理模块配置为：Point-E模型；

所述Point-E模型包括GLIDE模型和CLIP模型；

其中，所述GLIDE模型负责根据文字提示生成平面图像，所述CLIP模型基于平面图像生成3D点云图；

其中，所述系统还包括用户界面，所述用户界面显示用于3D物品生成图像的显示。

2.根据权利要求1所述的基于Diffusion网络的多机位3D物品生成系统，其特征在于，所述用户界面是触屏控制台。

3.根据权利要求1所述的基于Diffusion网络的多机位3D物品生成系统，其特征在于，所述GLIDE模型首先用于收集不同质量不同格式的3D模型，输出同样大小和光感的3D模型，并且每个模型都拥有20个不同角度的2D渲染图。

4.根据权利要求1所述的基于Diffusion网络的多机位3D物品生成系统，其特征在于，所述GLIDE模型其次基于2D渲染图进一步生成3D点云图，将从点云投到相机视角得到深度。

5.根据权利要求1所述的基于Diffusion网络的多机位3D物品生成系统，其特征在于，所述CLIP模型进行聚类分析，将深度输入到stablediffusion作为condition,利用CO3D数据集的图像-深度图训练sparsedepthinjector,利用LoRAfinetunediffusionmodel,得到模型训练集。

6.根据权利要求5所述的基于Diffusion网络的多机位3D物品生成系统，其特征在于，所述在得到训练集后，采用fine-tuning现有的GLIDE模型处理文字转图片任务，以及基于transformer和CLIP模型处理图片转3D任务。

7.根据权利要求1所述的基于Diffusion网络的多机位3D物品生成系统，其特征在于，所述Point-E模型接受噪声向量并对其进行降噪，输出直接作为输入反馈。

CN116934966A

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

CN116934966A 基于Diffusion网络的多机位3D物品生成系统（视见科技(杭州)有限公司）.docxVIP