2025年8月10日
2025年8月10日

Snap Research 2025

会议与活动

Snap 研究团队正在引领 AR 与生成式 AI、推荐系统和个性化创作工具的创新前沿。 

2025 年,我们将在多个领先的行业会议和活动中展示我们的成果。 


往期活动:

SIGGRAPH 2025  -- 加拿大温哥华,8 月 10 日 - 8 月 14 日

嵌套注意力:语义感知注意力值用于概念个性化

嵌套注意力是一种新方法,通过增强图像生成模型中身份特征保留,可在不同风格和场景中为特定主题创建更一致、更精准的图像。 通过引入语义感知注意力结构,该模型可在不同风格和场景中更好地保持身份特征一致性。 这一技术使得创建个性化图像成为可能,甚至能够将不同主体——如人物与其宠物——自然融合到同一画面中。

InstantRestore:基于共享图像注意力机制的单步式个性化人脸修复

本文介绍了 InstantRestore 方法, 该技术通过扩散模型的单次前向传播即可实现退化人脸图像的修复。 该技术旨在保留身份特异性特征,为肖像照片增强提供高效的身份感知修复方案。

基于单段视频的动态概念个性化建模

集合与序列是一种新型视频生成框架,该框架致力于解决“动态概念”视频生成的挑战——这类实体不仅由外观定义,更通过其随时间变化的独特运动模式来表征,如海浪翻涌或篝火摇曳。 集合与序列框架通过解析动态主体的时序行为特征,能够实现逼真的视频个性化生成,确保运动连贯性、场景构图一致性以及跨场景的自然融合。

DuetGen:通过分层掩码建模实现音乐驱动的双人舞生成

DuetGen 是一种能够直接从音乐生成同步双人舞蹈动作的框架。 该框架致力于解决交互式编舞建模的挑战,例如舞伴间的协调动作和肢体互动。 该系统能够生成逼真的双人舞蹈,适用于动画制作、虚拟化身及数字表演等多种应用场景。

果断决策:基于噪声诱导布局的多主体生成方法

我们的研究成果“果断决策”致力于解决复杂图像中多个独立主体的精准生成难题,有效避免视觉失真与非预期融合现象。 “果断布局”方法引入了一个小型神经网络,该网络能够在去噪过程中预测并优化噪声诱导的空间布局,从而从图像生成的最早阶段就精准指导每个主体的出现位置。 该方法能够生成包含多个特定主体的高细节图像,并确保各主体间边界清晰、构图自然。

KDD 2025 -- 加拿安大略省 8 月 3 日 - 8 月 7 日

GiGL:Snapchat 上的超大规模图神经网络系统

GiGL 是一种开源库,专用于在大规模图形上训练和运行图形神经网络 (GNN),支持数亿节点和数十亿边的数据处理。 GIGL 在 Snap 公司内部被广泛应用于关键机器学习场景,涵盖用户增长、内容排名和广告宣传等。

协同过滤中权重衰减的作用:基于流行度的分析

本研究提出了 PRISM(面向嵌入向量模长的流行度感知初始化策略)。  PRISM 摒弃了推荐模型训练中常见但计算成本高昂的嵌入权重衰减技术,转而仅在训练初始阶段引入一次轻量计算即可达成相同目标。  PRISM 方法兼具高速性与易用性,能够有效提升推荐系统的运行效率。

跨域序列推荐中自注意力机制的再探索

该研究提出 AutoCDSR 方法,通过促进有效知识共享并抑制噪声与无关信号,改进了跨域序列推荐系列预测用户行为的方式。  AutoCDSR 有效提升了推荐场景中个性化服务的精准度和鲁棒性。

SnapGen:利用高效架构与训练驯服高分辨率文生图模型, 为移动设备打造 Snap AI T2I 模型

SnapGen 是一款高性能文本到图像研究模型,专为直接在移动设备上运行而设计,可在两秒内生成高质量图像。它有望大幅降低设备端图像生成所需的计算资源和内存占用。

SnapGen-V:在移动设备上五秒内生成五秒视频

SnapGen-V 扩展了我们的 SnapGen 模型,可在短短五秒内直接在移动设备上生成五秒视频。它基于我们在文本到图像建模方面的进步,实现了快速的设备视频生成。

4Real-Video: 学习可泛化的照片级真实感 4D 视频扩散 

4Real-Video 研究模型能够生成细节丰富、动作自然的逼真 4D 视频,并支持多角度观看。该技术在沉浸式虚拟现实和下一代故事讲述体验中具有潜在的应用前景。

稳定流:实现免训练图像编辑的核心层技术

我们的“稳定流”研究模型实现了强大的图像编辑功能,如添加或移除对象,无需复杂的训练或高端硬件。这种方式让任何人都能轻松编辑照片,无需专业的技术知识。

Omni-ID:面向生成式任务的全局身份表征框架

我们的 Omni-ID 研究模型构建了一个涵盖各种角度和表情的人的面部综合表示,从而实现更逼真和个性化的 AI 和 AR 生成。

PrEditor3D:快速且精确的 3D 形状编辑

PrEditor3D 是由我们的研究团队开发的一款工具,能够通过最少的输入快速且精确地编辑 3D 模型,简化了 3D 形状的操作和调整过程,从而优化了 3D 内容创作流程。在应用中,PrEditor3D 有可能让动画师和 Lens 创作者更高效地实现他们的创意,从而带来更丰富、更沉浸的增强现实体验。

多模态拼图:多模态图学习的综合基准测试 

MM-Graph 引入了第一个多模态图学习基准,结合了视觉和文本数据,以解决当前基准中视觉信息的显著缺失。这使得模型评估更加全面,并推动能够理解更丰富现实世界输入的图学习系统的创新。

视频点金手

通过文本提示和一组参考图像,Video Alchemist 实现了无需大量调优或优化即可生成视频的能力。在应用中,通过自定义外观和背景简化视频个性化,节省时间的同时提升创造力。

注意时间:时序控制的多事件视频生成

Mind the Time 引入了对 AI 生成视频的精确时间控制。它将允许创作者控制事件的顺序和时间安排。它使视频生成中的叙事更加结构化和连贯。

基于扩散变换器的视频运动迁移

视频运动迁移是一种使用扩散研究模型将一个视频中的真实运动转移到另一个视频的方法。在应用中,该模型可以通过从参考视频中转移动作,轻松创建具有逼真运动的视频,无需复杂的设置。

Wonderland:从单张图像创建 3D 场景

Wonderland 仅凭一张照片即可创建精细的 3D 场景,简化了 3D 场景的制作过程,使设计更快速高效,无需多角度或大量资源。

AC3D:分析和改进视频扩散变换器中的 3D 相机控制

AC3D 改进了视频生成模型中的相机控制,实现了更流畅、逼真的运动。这为创作者在视频中的摄像机运动提供了更多灵活性,并提升了生成场景的质量和真实感。

此处列出的所有模型和工作仅供研究用途。

本文将持续更新。

返回新闻

与我们取得联系

如有新闻界请求,请发送电子邮件至 press@snap.com
如有其他疑问,请造访我们的支持网站