11 de junio de 2025
11 de junio de 2025

Snap en CVPR

Cómo la investigación de Snap está preparada para dar forma al futuro de la tecnología digital creativa

Este año, compartiremos 12 artículos de CVPR 2025, la principal conferencia para la innovación en IA y visión por ordenador, que tendrá lugar en Nashville, Tennessee, desde hoy hasta el 15 de junio.

Se aceptaron el 77 % de los envíos de Snap Research, superando la media del sector del 22 %, un testimonio del trabajo innovador que está haciendo nuestro equipo.

Snap presentará una amplia gama de temas, incluidos dos de nuestros artículos, SnapGen y 4Real-Video, que CVPR destacó entre el 3 % de los envíos.

Consulta el siguiente resumen completo y calendario.



1. SnapGen: domar modelos de texto a imagen de alta resolución para dispositivos móviles con arquitecturas y formación eficientes

Modelo T2I de Snap AI para dispositivos móviles

SnapGen es un modelo de investigación de texto a imagen de alto rendimiento diseñado para ejecutarse directamente en dispositivos móviles, generando imágenes de alta calidad en menos de dos segundos. Tiene el potencial de reducir drásticamente el cálculo y la memoria necesarios para la generación de imágenes en el dispositivo.

2. SnapGen-V: generar un vídeo de cinco segundos en cinco segundos en un dispositivo móvil

SnapGen-V extiende nuestro modelo SnapGen para generar vídeos de cinco segundos directamente en dispositivos móviles en solo cinco segundos. Pone al alcance la generación de vídeo rápida en el dispositivo, basándose en nuestros avances en el modelado de texto a imagen.

3. 4Real-Video: aprendizaje de difusión de vídeo 4D foto-realista generalizable 

El modelo de investigación de 4Real-Video genera vídeos 4D realistas con detalles ricos y movimiento natural, que se pueden ver desde múltiples ángulos. Esta tecnología tiene aplicaciones potenciales en experiencias de realidad virtual inmersiva y de narrativa de próxima generación.

4. Flujo estable: capas vitales para editar imágenes sin entrenamiento

Nuestro modelo de investigación de Flujo estable permite una potente edición de imágenes, como añadir o eliminar objetos sin requerir una formación compleja o hardware de alta gama. Este enfoque permite a cualquier persona editar fotos con facilidad, sin necesidad de conocimientos técnicos.

5. Omni-ID: representación de la identidad holística diseñada para tareas generativas

Nuestro modelo de investigación de Omni-ID crea una representación completa de la cara de una persona en varios ángulos y expresiones, permitiendo generaciones de IA y realidad aumentada más realistas y personalizadas.

6. PrEditor3D: edición de formas 3D rápida y precisa

PrEditor3D es una herramienta desarrollada por nuestros equipos de investigación que permite la edición rápida y precisa de modelos 3D con una entrada mínima, agilizando el proceso de creación de contenido 3D al simplificar cómo se manipulan y ajustan las formas 3D. En la aplicación, PrEditor3D tiene el potencial de hacer que sea más fácil para los animadores y creadores de Lente dar vida a sus visiones de forma eficiente, lo que lleva a experiencias de realidad aumentada más ricas e inmersivas.

7. Mosaico de modalidades: un punto de referencia completo para el aprendizaje de gráficos multimodales 

MM-Graph presenta el primer punto de referencia para el aprendizaje de gráficos multimodales que incorpora datos visuales y textuales para abordar la significativa brecha de información visual en los puntos de referencia actuales. Esto permite una evaluación del modelo más completa e impulsa la innovación en los sistemas de aprendizaje de gráficos que pueden entender entradas más ricas del mundo real.

8. Alquimista de vídeo

Con un mensaje de texto y un conjunto de imágenes de referencia, Alquimista de vídeo permite generar vídeos sin un ajuste u optimización. En la aplicación, esto agilizará la personalización de vídeo con apariencias y fondos personalizados, ahorrando tiempo y mejorando la creatividad.

9. Ten en cuenta el tiempo: generación de vídeo multievento controlada temporalmente

Ten en cuenta el tiempo introduce un control temporal preciso en los vídeos generados por IA. Permitiría a los creadores dictar la secuencia y el tiempo de los eventos. Permite una narrativa más estructurada y coherente en la generación de vídeo.

10. Transferencia de movimiento de vídeo con transformadores de difusión

La transferencia de movimiento de vídeo es un método para transferir movimiento realista de un vídeo a otro usando un modelo de investigación de difusión. En la aplicación, este modelo podría crear fácilmente vídeos con movimiento realista transfiriendo el movimiento de los vídeos de referencia, sin necesidad de configuraciones complejas.

11. País de las Maravillas: navegar por escenas 3D desde una única imagen

País de las Maravillas crea escenas 3D detalladas desde una sola foto, simplificando la creación de escenas 3D y permitiendo un diseño más rápido y eficiente sin necesidad de múltiples ángulos o recursos extensos.

12. AC3D: analizar y mejorar el control de la cámara 3D en transformadores de difusión de vídeo

AC3D mejora el control de la cámara dentro de los modelos de generación de vídeo, permitiendo un movimiento más suave y realista. Esto da a los creadores más flexibilidad sobre los movimientos de la cámara en los vídeos, y mejora la calidad y el realismo de las escenas generadas.

Encuéntranos en CVPR. 

*Todos los modelos y el trabajo descrito aquí son solo con fines de investigación. 

Volver a Noticias