10 de agosto de 2025
10 de agosto de 2025

Snap Research 2025

Conferencias y eventos

El equipo de Investigación de Snap está liderando la innovación en realidad aumentada e IA generativa, sistemas de recomendación y herramientas creativas personalizadas. 

En 2025, estamos mostrando nuestro trabajo en algunas de las principales convenciones y eventos de la industria. 


Eventos pasados:

SIGGRAPH 2025 -- Vancouver, Canadá, del 10 al 14 de agosto

Atención anidada: valores de atención semánticos conscientes para la personalización de conceptos

Atención anidada es un nuevo método que ayuda a mejorar la preservación de la identidad en los modelos de generación de imágenes, creando imágenes más consistentes y precisas de sujetos específicos en diferentes estilos y escenas. Al introducir una estructura de atención semántica, el modelo preserva mejor la identidad en una variedad de estilos y escenas. Esto hace posible crear imágenes personalizadas, incluso combinando diferentes sujetos, como una persona y su mascota, en una sola imagen.

InstantRestore: restauración de rostros personalizada en un solo paso con atención de imágenes compartidas

Este documento presenta InstantRestore, un método para restaurar imágenes de rostros degradadas usando un único paso hacia adelante a través de un modelo de difusión. Su objetivo es retener las funciones específicas de la identidad, apoyando una restauración eficiente consciente de la identidad para la mejora de fotos de retratos.

Personalización de conceptos dinámicos desde vídeos únicos

Set-and-Sequence es un nuevo marco para modelos de generación de vídeo que aborda el desafío de generar vídeos con "conceptos dinámicos": entidades definidas no solo por su apariencia, sino también por sus patrones de movimiento únicos a lo largo del tiempo, como las olas del océano o una hoguera parpadeante. Set-and-Sequence permite una personalización de vídeo realista al aprender cómo se comportan los sujetos dinámicos con el tiempo, permitiendo un movimiento consistente, una composición de escena y una fusión cruzada de escenas.

DuetGen: generación de baile para dos personas impulsada por la música a través de Modelado enmascarado jerárquico

DuetGen es un marco para generar movimientos de baile sincronizados de dos personas directamente desde la música. Aborda el desafío de modelar la coreografía interactiva, como el movimiento coordinado y las interacciones físicas entre la pareja de baile. El sistema permite la generación de baile en parejas realista para aplicaciones en animación, avatares virtuales y representación digital.

Be Decisive: Diseños inducidos por ruido para la generación de múltiples sujetos

Nuestro trabajo Be Decisive aborda el desafío de generar con precisión múltiples sujetos distintos en imágenes complejas sin inexactitudes visuales o fusión no intencional. Be Decisive introduce una pequeña red neuronal que predice y refina un diseño espacial inducido por el ruido durante el proceso de eliminación de ruido, guiando dónde debe aparecer cada sujeto desde las primeras etapas de generación de imágenes. Esto permite la creación de imágenes altamente detalladas con múltiples sujetos específicos, garantizando límites claros y composiciones naturales entre ellos.

KDD 2025 -- Toronto, Ontario, Canadá, del 3 al 7 de agosto

GiGL: redes neuronales gráficas a gran escala en Snapchat

GiGL es una biblioteca de código abierto para entrenar y ejecutar Redes Neuronales Gráficas (GNN) en gráficos a gran escala, admitiendo cientos de millones de nodos y miles de millones de aristas. GIGL se utiliza en Snap en aplicaciones clave de aprendizaje automático, incluido el crecimiento de usuarios, la clasificación del contenido y la publicidad.

Sobre el papel de la disminución de peso en el filtrado colaborativo: una perspectiva de popularidad

Este documento presenta PRISM (Popularity-awaRe Initialization Strategy para incorporar Magnitudes).  PRISM elimina el uso de la incorporación de la disminución de peso, una técnica común pero costosa en el entrenamiento del modelo de recomendación, y en su lugar lo reemplaza con un único cálculo ligero al inicio del entrenamiento.  PRISM es rápido y sencillo de aplicar, lo que conduce a sistemas de recomendación más eficientes.

Volver a prestar atención a uno mismo para una recomendación secuencial entre dominios

Este trabajo presenta AutoCDSR, un método para mejorar la forma en que estos sistemas predicen los comportamientos de los usuarios en diferentes dominios de interacción, promoviendo el intercambio efectivo del conocimiento al tiempo que mitiga las señales ruidosas o irrelevantes.  AutoCDSR mejora la precisión y solidez de la personalización en la configuración de recomendación.

SnapGen: domar modelos de texto a imagen de alta resolución para dispositivos móviles con arquitecturas eficientes y entrenamiento del modelo Snap AI T2I para dispositivos móviles

SnapGen es un modelo de investigación de texto a imagen de alto rendimiento diseñado para ejecutarse directamente en dispositivos móviles, generando imágenes de alta calidad en menos de dos segundos. Tiene el potencial de reducir drásticamente el cálculo y la memoria necesarios para la generación de imágenes en el dispositivo.

SnapGen-V: generar un vídeo de cinco segundos en cinco segundos en un dispositivo móvil

SnapGen-V extiende nuestro modelo SnapGen para generar vídeos de cinco segundos directamente en dispositivos móviles en solo cinco segundos. Pone al alcance la generación de vídeo rápida en el dispositivo, basándose en nuestros avances en el modelado de texto a imagen.

4Real-Video: aprendizaje de difusión de vídeo 4D foto-realista generalizable 

El modelo de investigación de 4Real-Video genera vídeos 4D realistas con detalles ricos y movimiento natural, que se pueden ver desde múltiples ángulos. Esta tecnología tiene aplicaciones potenciales en experiencias de realidad virtual inmersiva y de narrativa de próxima generación.

Flujo estable: capas vitales para editar imágenes sin entrenamiento

Nuestro modelo de investigación de Flujo estable permite una potente edición de imágenes, como añadir o eliminar objetos sin requerir una formación compleja o hardware de alta gama. Este enfoque permite a cualquier persona editar fotos con facilidad, sin necesidad de conocimientos técnicos.

Omni-ID: representación de la identidad holística diseñada para tareas generativas

Nuestro modelo de investigación de Omni-ID crea una representación completa de la cara de una persona en varios ángulos y expresiones, permitiendo generaciones de IA y realidad aumentada más realistas y personalizadas.

PrEditor3D: edición de formas 3D rápida y precisa

PrEditor3D es una herramienta desarrollada por nuestros equipos de investigación que permite la edición rápida y precisa de modelos 3D con una entrada mínima, agilizando el proceso de creación de contenido 3D al simplificar cómo se manipulan y ajustan las formas 3D. En la aplicación, PrEditor3D tiene el potencial de hacer que sea más fácil para los animadores y creadores de Lente dar vida a sus visiones de forma eficiente, lo que lleva a experiencias de realidad aumentada más ricas e inmersivas.

Mosaico de modalidades: un punto de referencia completo para el aprendizaje de gráficos multimodales 

MM-Graph presenta el primer punto de referencia para el aprendizaje de gráficos multimodales que incorpora datos visuales y textuales para abordar la significativa brecha de información visual en los puntos de referencia actuales. Esto permite una evaluación del modelo más completa e impulsa la innovación en los sistemas de aprendizaje de gráficos que pueden entender entradas más ricas del mundo real.

Alquimista de vídeo

Con un mensaje de texto y un conjunto de imágenes de referencia, Alquimista de vídeo permite generar vídeos sin un ajuste u optimización. En la aplicación, esto agilizará la personalización de vídeo con apariencias y fondos personalizados, ahorrando tiempo y mejorando la creatividad.

Ten en cuenta el tiempo: generación de vídeo multievento controlada temporalmente

Ten en cuenta el tiempo introduce un control temporal preciso en los vídeos generados por IA. Permitiría a los creadores dictar la secuencia y el tiempo de los eventos. Permite una narrativa más estructurada y coherente en la generación de vídeo.

Transferencia de movimiento de vídeo con transformadores de difusión

La transferencia de movimiento de vídeo es un método para transferir movimiento realista de un vídeo a otro usando un modelo de investigación de difusión. En la aplicación, este modelo podría crear fácilmente vídeos con movimiento realista transfiriendo el movimiento de los vídeos de referencia, sin necesidad de configuraciones complejas.

País de las Maravillas: navegar por escenas 3D desde una única imagen

País de las Maravillas crea escenas 3D detalladas desde una sola foto, simplificando la creación de escenas 3D y permitiendo un diseño más rápido y eficiente sin necesidad de múltiples ángulos o recursos extensos.

AC3D: analizar y mejorar el control de la cámara 3D en transformadores de difusión de vídeo

AC3D mejora el control de la cámara dentro de los modelos de generación de vídeo, permitiendo un movimiento más suave y realista. Esto da a los creadores más flexibilidad sobre los movimientos de la cámara en los vídeos, y mejora la calidad y el realismo de las escenas generadas.

*Todos los modelos y el trabajo descrito aquí son solo con fines de investigación. 

Esta publicación seguirá actualizándose.

Volver a noticias

Comunícate con nosotros

Para solicitudes de prensa, envía un correo electrónico a press@snap.com.
Para cualquier otra consulta, visita nuestro sitio web de Ayuda.