2025年6月11日
2025年6月11日

Snap 在 CVPR

Snap 的研究如何塑造创意数字技术的未来

今年,我们将在人工智能与计算机视觉创新的顶级会议 CVPR 2025 大会上分享 12 篇论文,本次会议将于今天在田纳西州纳什维尔举行,持续至 6 月 15 日。

Snap 研究提交的论文接受度超过了 77% — 超过了 22% 的行业平均水平 — 这证明了我们团队所做的创新性工作。

Snap 将围绕多个主题进行展示,其中包括被 CVPR 评为投稿前 3%的两篇论文——SnapGen 与 4Real-Video。

请参见下方的完整摘要和时间表。



1. SnapGen:通过高效的架构和训练,打造适用于移动设备的高分辨率文本转图像模型

适用于移动设备的 Snap AI T2I 模型

SnapGen 是一款高性能文本到图像研究模型,专为直接在移动设备上运行而设计,可在两秒内生成高质量图像。它有望大幅降低设备端图像生成所需的计算资源和内存占用。

SnapGen-V:在移动设备上五秒内生成五秒视频

SnapGen-V 扩展了我们的 SnapGen 模型,可在短短五秒内直接在移动设备上生成五秒视频。它基于我们在文本到图像建模方面的进步,实现了快速的设备视频生成。

3. 4Real-Video:学习可泛化的照片级真实感 4D 视频扩散

4Real-Video 研究模型能够生成细节丰富、动作自然的逼真 4D 视频,并支持多角度观看。该技术在沉浸式虚拟现实和下一代故事讲述体验中具有潜在的应用前景。

4. 稳定流:无需训练的图像编辑关键层

我们的“稳定流”研究模型实现了强大的图像编辑功能,如添加或移除对象,无需复杂的训练或高端硬件。这种方式让任何人都能轻松编辑照片,无需专业的技术知识。

Omni-ID:为生成任务设计的整体身份表示

我们的 Omni-ID 研究模型构建了一个涵盖各种角度和表情的人的面部综合表示,从而实现更逼真和个性化的 AI 和 AR 生成。

PrEditor3D:快速且精确的 3D 形状编辑

PrEditor3D 是由我们的研究团队开发的一款工具,能够通过最少的输入快速且精确地编辑 3D 模型,简化了 3D 形状的操作和调整过程,从而优化了 3D 内容创作流程。在应用中,PrEditor3D 有可能让动画师和 Lens 创作者更高效地实现他们的创意,从而带来更丰富、更沉浸的增强现实体验。

多模态拼图:多模态图学习的综合基准测试

MM-Graph 引入了第一个多模态图学习基准,结合了视觉和文本数据,以解决当前基准中视觉信息的显著缺失。这使得模型评估更加全面,并推动能够理解更丰富现实世界输入的图学习系统的创新。

8. Video Alchemist

通过文本提示和一组参考图像,Video Alchemist 实现了无需大量调优或优化即可生成视频的能力。在应用中,通过自定义外观和背景简化视频个性化,节省时间的同时提升创造力。

注意时间:时序控制的多事件视频生成

Mind the Time 引入了对 AI 生成视频的精确时间控制。它将允许创作者控制事件的顺序和时间安排。它使视频生成中的叙事更加结构化和连贯。

基于扩散变换器的视频运动迁移

视频运动迁移是一种使用扩散研究模型将一个视频中的真实运动转移到另一个视频的方法。在应用中,该模型可以通过从参考视频中转移动作,轻松创建具有逼真运动的视频,无需复杂的设置。

Wonderland:从单张图像创建 3D 场景

Wonderland 仅凭一张照片即可创建精细的 3D 场景,简化了 3D 场景的制作过程,使设计更快速高效,无需多角度或大量资源。

AC3D:分析和改进视频扩散变换器中的 3D 相机控制

AC3D 改进了视频生成模型中的相机控制,实现了更流畅、逼真的运动。这为创作者在视频中的摄像机运动提供了更多灵活性,并提升了生成场景的质量和真实感。

来 CVPR 找我们吧!

此处列出的所有模型和工作仅供研究用途。

返回新闻

与我们取得联系

如有新闻界请求,请发送电子邮件至 press@snap.com
如有其他疑问,请造访我们的支持网站