内容生成与停留时长之间的模型研究

...生成扩散模型!Diffusion4D数分钟内实现4D内容生成,超81K的4D数据集...

Diffusion4D是首个利用大规模数据集训练视频生成模型实现4D内容生成的框架，可在数分钟内完成时空一致的4D内容生成，并开源了包含超81K高质量4D资产的超四百万张图片的数据集及渲染脚本。研究背景：过去方法依赖2D、3D预训练模型，通过分数蒸馏采样（SDS）或伪标签优化，存在时空不一致和优化速度慢的问题。4D内容生成需兼顾时间与空间一致性，Diffusion4D将两者嵌入单一模型，通过多时间戳跨视角监督实现高效生成。基于高质量4D数据集，训练扩散模型生成动态3D物体环拍视图，结合4DGS算法获得显性4D表征，支持文本、单图、3D到4D的生成。4D数据集：从Objaverse-1.0（42K动态3D物体）和Objaverse-xl（323K动态3D物体）中筛选出81K高质量4D资产，通过运动程度检测、边界溢出检查等方法剔除低质量样本。对每个4D资产渲染24个静态视角图、24个动态环拍图、24个正面动态图，总计超四百万张图片，渲染耗时约300 GPU天。数据集及原始渲染脚本已开源，支持进一步探索。方法：以VideoMV为基础模型微调，训练具备4D感知的视频扩散模型，输出动态环拍视频。设计运动强度控制模块、3D感知无分类器引导模块，增强运动程度与几何质量。借助4DGS算法将视频建模为4D表达，采用粗粒度-细粒度两阶段优化策略，从环拍视频到4D内容生成仅需数分钟，显著快于传统SDS优化方法（需数小时）。结果：支持文本、图像、3D到4D的跨模态生成，在定量指标与用户研究中显著优于过往方法。生成结果具有更精细的细节、更合理的几何信息及更丰富的动作。项目资源：项目地址：https://vita-group.github.io/Diffusion4D/论文地址：https://arxiv.org/abs/2405.16645总结与展望：Diffusion4D通过大规模数据集与模型架构创新，实现了快速高质量的4D内容生成。未来方向包括挖掘4D数据集潜力、探索多物体与复杂场景的4D生成。

nginx