
Snap Research 2025
Conferencias y eventos
El equipo de Snap Research lidera la innovación en RA e IA generativa, sistemas de recomendación y herramientas creativas personalizadas.
En 2025, mostraremos nuestro trabajo en varias de las principales conferencias y eventos del sector.
Eventos pasados:

SIGGRAPH 2025-- Vancouver, Canadá, del 10 al 14 de agosto
Nested Attention: valores de atención semántica para la personalización de conceptos
Nested Attention es un nuevo método que ayuda a mejorar la preservación de la identidad en los modelos de generación de imágenes, creando imágenes más consistentes y precisas de sujetos específicos en diferentes estilos y escenas. Al introducir una estructura de atención semántica, el modelo preserva mejor la identidad en diversos estilos y escenas. Esto permite crear imágenes personalizadas, incluso combinando diferentes sujetos (como una persona y su mascota) en una sola imagen.
InstantRestore: restauración facial personalizada en un solo paso con atención de imagen compartida
Este artículo presenta InstantRestore, un método para restaurar imágenes faciales degradadas mediante un único paso hacia adelante a través de un modelo de difusión. Su objetivo es retener los rasgos específicos de la identidad, lo que permite una restauración eficiente y consciente de la identidad para la mejora de los retratos.
Personalización de conceptos dinámicos a partir de videos únicos
Set-and-Sequence es un nuevo marco para modelos de generación de video que aborda el desafío de generar videos con “conceptos dinámicos”, entidades definidas no solo por su apariencia, sino también por sus patrones de movimiento únicos a lo largo del tiempo, como las olas del mar o una fogata parpadeante. Set-and-Sequence permite la personalización realista de videos al aprender cómo se comportan los sujetos dinámicos a lo largo del tiempo, lo que permite un movimiento consistente, composición de escenas y mezcla entre escenas.
DuetGen es un marco para generar movimientos de baile sincronizados de dos personas directamente a partir de la música. Aborda el desafío de modelar coreografías interactivas, como el movimiento coordinado y las interacciones físicas entre los compañeros de baile. El sistema permite la generación realista de bailes a dúo para aplicaciones de animación, avatares virtuales y actuaciones digitales.
Be Decisive: diseños inducidos por ruido para la generación de múltiples sujetos
Nuestro trabajo Be Decisive aborda el reto de generar con precisión múltiples sujetos distintos en imágenes complejas sin imprecisiones visuales ni mezclas no deseadas. Be Decisive introduce una pequeña red neuronal que predice y refina un diseño espacial inducido por ruido durante la eliminación de ruido, guiando dónde debe aparecer cada sujeto desde las primeras etapas de la generación de la imagen. Esto permite la creación de imágenes muy detalladas con múltiples sujetos específicos, garantizando límites claros y composiciones naturales entre ellos.

KDD 2025-- Toronto, Ontario, Canadá, del 3 al 7 de agosto
GiGL: redes neuronales de grafos a gran escala en Snapchat
GiGL es una biblioteca de código abierto para entrenar y ejecutar redes neuronales de grafos (GNN) en grafos a gran escala, que admite cientos de millones de nodos y miles de millones de aristas. GIGL se utiliza en Snap en aplicaciones clave de aprendizaje automático, como el crecimiento de usuarios, la clasificación de contenidos y la publicidad.
Sobre el papel de la disminución de peso en el filtrado colaborativo: una perspectiva de popularidad
Este artículo presenta PRISM (Popularity-awaRe Initialization Strategy for embedding Magnitudes). PRISM elimina el uso de la disminución de peso de incrustación, una técnica común pero costosa en el entrenamiento de modelos de recomendación, y en su lugar la reemplaza con un único cálculo ligero al inicio del entrenamiento. PRISM es rápido, fácil de aplicar y conduce a sistemas de recomendación más eficientes.
Revisión de la autoatención para la recomendación secuencial entre dominios
Este trabajo presenta AutoCDSR, un método para mejorar la forma en que dichos sistemas predicen los comportamientos de los usuarios en diferentes dominios de interacción, promoviendo el intercambio eficaz de conocimientos y mitigando al mismo tiempo las señales ruidosas o irrelevantes. AutoCDSR mejora la precisión y la solidez de la personalización en los entornos de recomendación.

SnapGen: domar los modelos de texto a imagen de alta resolución para dispositivos móviles con arquitecturas y entrenamiento eficientes Modelo Snap AI T2I para dispositivos móviles
SnapGen es un modelo de investigación de texto a imagen de alto rendimiento diseñado para ejecutarse directamente en dispositivos móviles, que genera imágenes de alta calidad en menos de dos segundos. Tiene el potencial de reducir drásticamente el cálculo y la memoria necesarios para la generación de imágenes en el dispositivo.
SnapGen-V: generación de un video de cinco segundos en cinco segundos en un dispositivo móvil
SnapGen-V amplía nuestro modelo SnapGen para generar videos de cinco segundos directamente en dispositivos móviles en solo cinco segundos. Pone al alcance de la mano la generación rápida de videos en el dispositivo, basándose en nuestros avances en el modelado de texto a imagen.
4Real-Video: aprendizaje de difusión de video 4D fotorrealista generalizable
El modelo de investigación 4Real-Video genera videos 4D realistas con gran detalle y movimiento natural, visibles desde múltiples ángulos. Esta tecnología tiene aplicaciones potenciales en la RV inmersiva y en las experiencias narrativas de nueva generación.
Stable Flow: capas vitales para la edición de imágenes sin entrenamiento
Nuestro modelo de investigación Stable Flow permite una potente edición de imágenes, como añadir o eliminar objetos sin necesidad de un entrenamiento complejo ni de un hardware de gama alta. Este enfoque permite a cualquiera editar fotos con facilidad, sin necesidad de conocimientos técnicos.
Omni-ID: representación holística de la identidad diseñada para tareas generativas
Nuestro modelo de investigación Omni-ID crea una representación completa del rostro de una persona desde diversos ángulos y expresiones, lo que permite generaciones de IA y RA más realistas y personalizadas.
PrEditor3D: edición de formas 3D rápida y precisa
PrEditor3D es una herramienta desarrollada por nuestros equipos de investigación que permite la edición rápida y precisa de modelos 3D con una intervención mínima, agilizando el proceso de creación de contenidos 3D al simplificar la forma en que se manipulan y ajustan las formas 3D. En la práctica, PrEditor3D tiene el potencial de facilitar a los animadores y creadores de Lentes la tarea de dar vida a sus visiones de forma eficiente, lo que se traduce en experiencias de RA más ricas y envolventes.
Mosaico de modalidades: un punto de referencia completo para el aprendizaje de grafos multimodales
MM-Graph introduce el primer punto de referencia para el aprendizaje de grafos multimodales, incorporando datos tanto visuales como textuales para abordar la importante brecha de información visual en los puntos de referencia actuales. Esto permite una evaluación más completa de los modelos e impulsa la innovación en los sistemas de aprendizaje de grafos que pueden comprender entradas más ricas del mundo real.
Con una indicación de texto y un conjunto de imágenes de referencia, Video Alchemist permite generar videos sin necesidad de ajustes u optimizaciones exhaustivas. En la práctica, esto agilizará la personalización de los videos con apariencias y fondos personalizados, ahorrando tiempo y potenciando la creatividad.
Mind the Time: generación de video multievento con control temporal
Mind the Time introduce un control temporal preciso en los videos generados por IA. Permitiría a los creadores dictar la secuencia y el momento de los acontecimientos. Permite una narración más estructurada y coherente en la generación de videos.
Transferencia de movimiento de video con transformadores de difusión
La transferencia de movimiento de video es un método para transferir movimiento realista de un video a otro utilizando un modelo de investigación de difusión. En la práctica, este modelo podría crear fácilmente videos con movimiento realista transfiriendo el movimiento de videos de referencia, sin necesidad de configuraciones complejas.
Wonderland: navegación por escenas 3D a partir de una sola imagen
Wonderland crea escenas 3D detalladas a partir de una sola foto, lo que simplifica la creación de escenas 3D y permite un diseño más rápido y eficiente sin necesidad de múltiples ángulos o grandes recursos.
AC3D: análisis y mejora del control de la cámara 3D en los transformadores de difusión de video
AC3D mejora el control de la cámara en los modelos de generación de video, lo que permite un movimiento más suave y realista. Esto da a los creadores más flexibilidad sobre los movimientos de la cámara en los videos, y mejora la calidad y el realismo de las escenas generadas.
*Todos los modelos y trabajos aquí descritos son únicamente para fines de investigación.
Esta publicación se seguirá actualizando.
Ponete en contacto
Para solicitudes de prensa, enviá un correo electrónico a press@snap.com.
Para todas las demás consultas, visitá nuestro sitio de Ayuda.