10 de agosto de 2025
10 de agosto de 2025

Snap Research 2025

Conferencias y eventos

El equipo de Snap Research está liderando la innovación en RA, IA generativa, sistemas de recomendación y herramientas creativas personalizadas.

En 2025, estaremos presentando nuestro trabajo en varias de las conferencias y eventos más importantes de la industria.


Eventos pasados:

SIGGRAPH 2025 — Vancouver, Canadá, del 10 al 14 de agosto

Nested Attention: Valores de atención semánticos para la personalización de conceptos

Nested Attention es un nuevo método que mejora la preservación de identidad en modelos de generación de imágenes, creando representaciones más consistentes y precisas de sujetos específicos en diferentes estilos y escenas. Al introducir una estructura de atención con reconocimiento semántico, el modelo conserva mejor la identidad en diferentes estilos y escenas. Esto hace posible crear imágenes personalizadas, incluso combinando distintos sujetos, como una persona y su mascota, en una sola imagen.

InstantRestore: restauración facial personalizable en un único paso con atención compartida de imágenes

Este estudio presenta InstantRestore, un método para restaurar imágenes faciales deterioradas en un solo paso a través de un modelo de difusión. El objetivo es mantener los rasgos propios de cada persona, ayudando a que la restauración sea más eficiente y pensada en la identidad al mejorar fotos de retrato.

Personalización dinámica de conceptos a partir de un solo video

Set and Sequence es un nuevo marco para modelos de generación de video que resuelve el reto de crear videos con "conceptos dinámicos": entidades definidas no solo por su apariencia, sino también por sus patrones únicos de movimiento a lo largo del tiempo, como las olas del mar o una fogata encendida. Set and Sequence permite la personalización realista de videos al aprender cómo se comportan estos sujetos dinámicos con el tiempo, permitiendo un movimiento consistente, una mejor composición de escenas y transiciones fluidas entre escenarios.

DuetGen: generación de baile en pareja impulsada por la música con un modelado jerárquico oculto.

DuetGen es un marco para generar movimientos de danza sincronizados entre parejas a partir de la música. Resuelve el reto de modelar coreografías interactivas, como movimientos coordinados e interacciones físicas entre las parejas de baile. El sistema permite la creación realista de danzas a dúo para aplicaciones en animación, avatares virtuales y presentaciones digitales.

Be Decisive: diseños inducidos por ruido para la generación de múltiples sujetos

Nuestro trabajo Be Decisive aborda el reto de generar con precisión múltiples sujetos distintos en imágenes complejas sin errores visuales ni mezclas que no se necesiten. Be Decisive introduce una pequeña red neuronal que predice y ajusta una distribución espacial inducida por ruido durante el proceso de denoising, guiando dónde debe aparecer cada sujeto desde las primeras etapas de la generación de imágenes. Esto permite crear imágenes muy detalladas con varios sujetos específicos, asegurando límites claros y composiciones naturales entre ellos.

KDD 2025 — Toronto, Ontario, Canadá, del 3 al 7 de agosto

GiGL: redes neuronales gráficas a gran escala en Snapchat

GiGL es una librería de código abierto para entrenar y ejecutar redes neuronales gráficas (GNN) a gran escala, con soporte para cientos de millones de nodos y miles de millones de aristas. En Snap, GiGL se utiliza en aplicaciones clave de aprendizaje automático, incluyendo crecimiento de usuarios, ranking de contenido y publicidad.

El rol del weight decay en el filtrado colaborativo: una perspectiva desde la popularidad

Este artículo presenta PRISM (Popularity-awaRe Initialization Strategy for embedding Magnitudes). PRISM elimina el uso de embedding weight decay, una técnica común pero costosa en el entrenamiento de modelos de recomendación, y lo reemplaza con un único cálculo ligero al inicio del entrenamiento. PRISM es rápido, fácil de aplicar y permite crear sistemas de recomendación más eficientes.

Revisiting Self-Attention for Cross-Domain Sequential Recommendation (Revisitando la autoatención para la recomendación secuencial entre dominios).

Este trabajo presenta AutoCDSR, un método para mejorar cómo estos sistemas predicen el comportamiento de los usuarios en distintos dominios de interacción, promoviendo un intercambio de conocimiento más efectivo y reduciendo señales ruidosas o irrelevantes. AutoCDSR mejora la precisión y la robustez de la personalización en entornos de recomendación.

SnapGen: Taming High-Resolution Text-to-Image Models for Mobile Devices with Efficient Architectures and Training Snap AI T2I Model for Mobile Devices

SnapGen es un modelo de investigación de texto a imagen de alto desempeño diseñado para ejecutarse directamente en dispositivos móviles, que genera imágenes de alta calidad en menos de dos segundos. Tiene el potencial de reducir drásticamente la cantidad de cálculo y memoria que se requieren para la generación de imágenes en el dispositivo.

SnapGen-V: Generar un video de cinco segundos en el lapso de cinco segundos en un dispositivo móvil

SnapGen-V extiende nuestro modelo SnapGen para generar videos de cinco segundos directamente en dispositivos móviles en solo cinco segundos. Brinda acceso a la generación de video rápida y en el dispositivo, aprovechando nuestros avances en el modelado de texto a imagen.

4Real-Video: Conocer la difusión de video 4D foto-realista que se puede generalizar 

El modelo de investigación de 4Real-Video genera videos 4D realistas con gran detalle y movimiento natural, que se pueden ver desde múltiples ángulos. Esta tecnología tiene aplicaciones potenciales en la realidad virtual inmersiva y en experiencias de narración de próxima generación.

Stable Flow: Vital Layers for Training-Free Image Editing

Nuestro modelo de investigación de Stable Flow permite una edición de imágenes potente, como agregar o eliminar objetos sin requerir un entrenamiento complejo o hardware de alta gama. Este enfoque permite que cualquier persona pueda editar fotos con facilidad, sin necesitar conocimiento técnico.

Omni-ID: Holistic Identity Representation Designed for Generative Tasks

Nuestro modelo de investigación de Omni-ID crea una representación integral de la cara de una persona a través de varios ángulos y expresiones, lo que permite generaciones de IA y RA más realistas y personalizadas.

PrEditor3D: Edición de formas 3D rápida y precisa

PrEditor3D es una herramienta desarrollada por nuestros equipos de investigación que permite editar modelos 3D de forma rápida y precisa con un esfuerzo mínimo, lo que agiliza el proceso de creación de contenido 3D al simplificar la forma en que se manipulan y ajustan las formas 3D. En la aplicación, PrEditor3D tiene el potencial de facilitar que los animadores y creadores de lentes den vida a sus visiones de manera eficiente, lo que lleva a experiencias de realidad aumentada más ricas y más inmersivas.

Mosaico de modalidades: un punto de referencia integral para el aprendizaje de gráficos multimodales 

MM-Graph presenta el primer análisis de referencia para el aprendizaje de gráficos multimodales, que incorpora datos visuales y textuales para abordar la brecha significativa de información visual en los análisis de referencia actuales. Esto permite una evaluación de modelos más completa e impulsa la innovación en sistemas de aprendizaje de gráficos que pueden entender entradas de forma más rica y real.

Video Alchemist

Con una indicación de texto y un conjunto de imágenes de referencia, Video Alchemisthabilita la posibilidad de generar videos sin grandes ajustes u optimizaciones. En la aplicación, esto agilizará la personalización de video con apariencias y fondos personalizados, lo que ahorrará tiempo y mejorará la creatividad.

Mind the Time: generación de video de múltiples eventos controlada temporalmente

Mind the Time introduce un control temporal preciso en videos generados por IA. Permitiría que los creadores dicten la secuencia y el momento de los eventos. Permite contar historias más estructuradas y coherentes en la generación de video.

Video Motion Transfer con transformadores de difusión

Video Motion Transfer es un método para transferir movimiento realista de un video a otro usando un modelo de investigación de difusión. En la aplicación, este modelo podría crear fácilmente videos con movimiento realista al transferir movimiento de videos de referencia, sin necesitar configuraciones complejas.

Wonderland: Explorar escenas 3D desde una sola imagen

Wonderland crea escenas 3D detalladas a partir de una sola foto, lo que simplifica la creación de escenas 3D y permite un diseño más rápido y eficiente sin necesitar múltiples ángulos o grandes recursos.

AC3D: aqnálisis y mejora del control de la cámara 3D en transformadores de difusión de video

AC3D mejora el control de la cámara dentro de los modelos de generación de video, lo que permite un movimiento más suave y más realista. Esto brinda a los creadores más flexibilidad para controlar los movimientos de cámara en los videos y mejora la calidad y el realismo de las escenas generadas.

*Todos los modelos y trabajos que se describen aquí son solo para fines de investigación. 

Esta publicación se actualizará de manera continua.

Volver a las noticias

Ponte en contacto

Para solicitudes de prensa, envía un correo electrónico a press@snap.com.
Para cualquier otra consulta, visita nuestro Sitio de ayuda.