10 de agosto de 2025

Snap Research 2025

Congresos y eventos

El equipo de Snap Research lidera la innovación en RA e IA generativa, sistemas de recomendación y herramientas creativas personalizadas.

En 2025, mostraremos nuestro trabajo en varios de los principales congresos y eventos del sector.

Eventos pasados:

SIGGRAPH 2025-- Vancouver (Canadá), del 10 al 14 de agosto

Nested Attention: valores de atención semántica para la personalización de conceptos

Nested Attention es un nuevo método que ayuda a mejorar la preservación de la identidad en los modelos de generación de imágenes, creando imágenes más coherentes y precisas de sujetos específicos en diferentes estilos y escenas. Al introducir una estructura de atención semántica, el modelo preserva mejor la identidad en diversos estilos y escenas. Esto permite crear imágenes personalizadas, incluso combinando diferentes sujetos, como una persona y su mascota, en una sola imagen.

InstantRestore: restauración facial personalizada en un solo paso con atención de imagen compartida

Este artículo presenta InstantRestore, un método para restaurar imágenes faciales degradadas mediante un único paso hacia adelante a través de un modelo de difusión. Su objetivo es retener los rasgos específicos de la identidad, lo que permite una restauración eficiente y consciente de la identidad para la mejora de las fotografías de retratos.

Personalización de conceptos dinámicos a partir de vídeos únicos

Set-and-Sequence es un nuevo marco para los modelos de generación de vídeo que aborda el reto de generar vídeos con "conceptos dinámicos", entidades definidas no solo por su apariencia, sino también por sus patrones de movimiento únicos a lo largo del tiempo, como las olas del mar o una hoguera parpadeante. Set-and-Sequence permite la personalización realista de vídeos al aprender cómo se comportan los sujetos dinámicos a lo largo del tiempo, lo que permite un movimiento coherente, la composición de escenas y la mezcla entre escenas.

DuetGen: generación de bailes de dos personas a partir de la música mediante modelado jerárquico enmascarado

DuetGen es un marco para generar movimientos de baile sincronizados de dos personas directamente a partir de la música. Aborda el reto de modelar coreografías interactivas, como el movimiento coordinado y las interacciones físicas entre los compañeros de baile. El sistema permite la generación realista de bailes a dúo para aplicaciones de animación, avatares virtuales y actuaciones digitales.

Be Decisive: diseños inducidos por ruido para la generación de múltiples sujetos

Nuestro trabajo Be Decisive aborda el reto de generar con precisión múltiples sujetos distintos en imágenes complejas sin imprecisiones visuales ni mezclas no deseadas. Be Decisive introduce una pequeña red neuronal que predice y refina un diseño espacial inducido por el ruido durante la eliminación del ruido, guiando dónde debe aparecer cada sujeto desde las primeras etapas de la generación de la imagen. Esto permite la creación de imágenes muy detalladas con múltiples sujetos específicos, garantizando límites claros y composiciones naturales entre ellos.

KDD 2025-- Toronto, Ontario (Canadá), del 3 al 7 de agosto

GiGL: redes neuronales de grafos a gran escala en Snapchat

GiGL es una biblioteca de código abierto para entrenar y ejecutar redes neuronales de grafos (GNN) en grafos a gran escala, que admite cientos de millones de nodos y miles de millones de aristas. GiGL se utiliza en Snap en aplicaciones clave de aprendizaje automático, como el crecimiento de usuarios, la clasificación de contenidos y la publicidad.

Sobre el papel de la disminución de peso en el filtrado colaborativo: una perspectiva de popularidad

Este artículo presenta PRISM (estrategia de inicialización sensible a la popularidad para magnitudes de incrustación). PRISM elimina el uso de la disminución del peso de la incrustación, una técnica común pero costosa en el entrenamiento de modelos de recomendación, y en su lugar la reemplaza con un único cálculo ligero al inicio del entrenamiento. PRISM es rápido, sencillo de aplicar y permite sistemas de recomendación más eficientes.

Revisión de la autoatención para la recomendación secuencial entre dominios

Este trabajo presenta AutoCDSR, un método para mejorar la forma en que dichos sistemas predicen los comportamientos de los usuarios en diferentes dominios de interacción, promoviendo el intercambio eficaz de conocimientos y mitigando al mismo tiempo las señales ruidosas o irrelevantes. AutoCDSR mejora la precisión y la solidez de la personalización en los entornos de recomendación.

SnapGen: cómo domar los modelos de texto a imagen de alta resolución para dispositivos móviles con arquitecturas y entrenamiento eficientes Modelo T2I de IA de Snap para dispositivos móviles

SnapGen es un modelo de investigación de texto a imagen de alto rendimiento diseñado para ejecutarse directamente en dispositivos móviles, que genera imágenes de alta calidad en menos de dos segundos. Tiene el potencial de reducir drásticamente el cálculo y la memoria necesarios para la generación de imágenes en el dispositivo.

SnapGen-V: cómo generar un vídeo de cinco segundos en cinco segundos en un dispositivo móvil

SnapGen-V amplía nuestro modelo SnapGen para generar vídeos de cinco segundos directamente en dispositivos móviles en solo cinco segundos. Pone al alcance de la mano la generación rápida de vídeo en el dispositivo, basándose en nuestros avances en el modelado de texto a imagen.

4Real-Video: aprendizaje de difusión de vídeo 4D fotorrealista generalizable

El modelo de investigación 4Real-Video genera vídeos 4D realistas con gran detalle y movimiento natural, visibles desde múltiples ángulos. Esta tecnología tiene aplicaciones potenciales en la RV inmersiva y en las experiencias narrativas de nueva generación.

Stable Flow: capas vitales para la edición de imágenes sin entrenamiento

Nuestro modelo de investigación Stable Flow permite una potente edición de imágenes, como añadir o eliminar objetos sin necesidad de un entrenamiento complejo ni de un hardware de gama alta. Este enfoque permite a cualquiera editar fotos con facilidad, sin necesidad de conocimientos técnicos.

Omni-ID: representación holística de la identidad diseñada para tareas generativas

Nuestro modelo de investigación Omni-ID crea una representación completa del rostro de una persona desde diversos ángulos y expresiones, lo que permite generaciones de IA y RA más realistas y personalizadas.

PrEditor3D: edición rápida y precisa de formas 3D

PrEditor3D es una herramienta desarrollada por nuestros equipos de investigación que permite la edición rápida y precisa de modelos 3D con una aportación mínima, agilizando el proceso de creación de contenidos 3D al simplificar la forma de manipular y ajustar las formas 3D. En la práctica, PrEditor3D tiene el potencial de facilitar a los animadores y creadores de Lentes la tarea de dar vida a sus visiones de forma eficiente, lo que se traduce en experiencias de RA más ricas y envolventes.

Mosaico de modalidades: un punto de referencia completo para el aprendizaje de grafos multimodales

MM-Graph introduce el primer punto de referencia para el aprendizaje de grafos multimodales, incorporando datos tanto visuales como textuales para abordar la importante laguna de información visual en los puntos de referencia actuales. Esto permite una evaluación más completa de los modelos e impulsa la innovación en los sistemas de aprendizaje de grafos que pueden comprender entradas más ricas del mundo real.

Video Alchemist

Con una indicación de texto y un conjunto de imágenes de referencia, Video Alchemist permite generar vídeos sin necesidad de ajustes u optimizaciones exhaustivos. En la práctica, esto agilizará la personalización de vídeos con apariencias y fondos personalizados, ahorrando tiempo y potenciando la creatividad.

Mind the Time: generación de vídeo multievento con control temporal

Mind the Time introduce un control temporal preciso en los vídeos generados por IA. Permitiría a los creadores dictar la secuencia y el momento de los acontecimientos. Permite una narración más estructurada y coherente en la generación de vídeo.

Transferencia de movimiento de vídeo con transformadores de difusión

La transferencia de movimiento de vídeo es un método para transferir movimiento realista de un vídeo a otro utilizando un modelo de investigación de difusión. En la práctica, este modelo podría crear fácilmente vídeos con movimiento realista transfiriendo el movimiento de vídeos de referencia, sin necesidad de complejas configuraciones.

Wonderland: cómo navegar por escenas 3D a partir de una sola imagen

Wonderland crea escenas 3D detalladas a partir de una sola foto, lo que simplifica la creación de escenas 3D y permite un diseño más rápido y eficiente sin necesidad de múltiples ángulos o grandes recursos.

AC3D: análisis y mejora del control de la cámara 3D en los transformadores de difusión de vídeo

AC3D mejora el control de la cámara en los modelos de generación de vídeo, permitiendo un movimiento más suave y realista. Esto da a los creadores más flexibilidad sobre los movimientos de la cámara en los vídeos y mejora la calidad y el realismo de las escenas generadas.

*Todos los modelos y trabajos aquí descritos son únicamente para fines de investigación.

Esta publicación se seguirá actualizando.

Volver a las Noticias

Ponte en contacto

Para las solicitudes de prensa, envía un email a press@snap.com.
Para todas las demás consultas, visita nuestro sitio de ayuda.