内容生成与停留时长之间的模型研究

...生成扩散模型!Diffusion4D数分钟内实现4D内容生成,超81K的4D数据集...

Diffusion4D是首个利用大规模数据集训练视频生成模型实现4D内容生成的框架,可在数分钟内完成时空一致的4D内容生成,并开源了包含超81K高质量4D资产的超四百万张图片的数据集及渲染脚本。研究背景:过去方法依赖2D、3D预训练模型,通过分数蒸馏采样(SDS)或伪标签优化,存在时空不一致和优化速度慢的问题。4D内容生成需兼顾时间与空间一致性,Diffusion4D将两者嵌入单一模型,通过多时间戳跨视角监督实现高效生成。基于高质量4D数据集,训练扩散模型生成动态3D物体环拍视图,结合4DGS算法获得显性4D表征,支持文本、单图、3D到4D的生成。4D数据集:从Objaverse-1.0(42K动态3D物体)和Objaverse-xl(323K动态3D物体)中筛选出81K高质量4D资产,通过运动程度检测、边界溢出检查等方法剔除低质量样本。对每个4D资产渲染24个静态视角图、24个动态环拍图、24个正面动态图,总计超四百万张图片,渲染耗时约300 GPU天。数据集及原始渲染脚本已开源,支持进一步探索。方法:以VideoMV为基础模型微调,训练具备4D感知的视频扩散模型,输出动态环拍视频。设计运动强度控制模块、3D感知无分类器引导模块,增强运动程度与几何质量。借助4DGS算法将视频建模为4D表达,采用粗粒度-细粒度两阶段优化策略,从环拍视频到4D内容生成仅需数分钟,显著快于传统SDS优化方法(需数小时)。结果:支持文本、图像、3D到4D的跨模态生成,在定量指标与用户研究中显著优于过往方法。生成结果具有更精细的细节、更合理的几何信息及更丰富的动作。项目资源:项目地址:https://vita-group.github.io/Diffusion4D/论文地址:https://arxiv.org/abs/2405.16645总结与展望:Diffusion4D通过大规模数据集与模型架构创新,实现了快速高质量的4D内容生成。未来方向包括挖掘4D数据集潜力、探索多物体与复杂场景的4D生成。


nginx