
Snap en CVPR
Cómo la investigación de Snap se prepara para moldear el futuro de la tecnología digital creativa
Este año compartiremos 12 estudios en CVPR 2025, la conferencia principal para innovación en IA y visión artificial, que tendrá lugar en Nashville, Tennessee, comienza hoy y se prolongará hasta el 15 de junio.
Se aceptaron el 77 % de las presentaciones de investigaciones de Snap, lo que supera el promedio de la industria que es del 22 % y demuestra el trabajo innovador que está realizando nuestro equipo.
Snap presentará una variedad de temas, incluyendo dos de nuestros estudios (SnapGen y 4Real-Video) que CVPR destacó que forman parte del 3 % que conforman las principales presentaciones.
Consulta a continuación para obtener un resumen y un cronograma completo.
1. SnapGen: Domando los modelos de texto a imagen de alta resolución para dispositivos móviles con arquitecturas y capacitación eficientes
Modelo Snap AI T2I para dispositivos móviles
SnapGen es un modelo de investigación de texto a imagen de alto desempeño diseñado para ejecutarse directamente en dispositivos móviles, que genera imágenes de alta calidad en menos de dos segundos. Tiene el potencial de reducir drásticamente la cantidad de cálculo y memoria que se requieren para la generación de imágenes en el dispositivo.

2. SnapGen-V: Generar un video de cinco segundos en el lapso de cinco segundos en un dispositivo móvil
SnapGen-V extiende nuestro modelo SnapGen para generar videos de cinco segundos directamente en dispositivos móviles en solo cinco segundos. Brinda acceso a la generación de video rápida y en el dispositivo, aprovechando nuestros avances en el modelado de texto a imagen.

3. 4Real-Video: Conocer la difusión de video 4D foto-realista que se puede generalizar
El modelo de investigación de 4Real-Video genera videos 4D realistas con gran detalle y movimiento natural, que se pueden ver desde múltiples ángulos. Esta tecnología tiene aplicaciones potenciales en la realidad virtual inmersiva y en experiencias de narración de próxima generación.

4. Stable Flow: Capas vitales para editar imágenes sin entrenamiento
Nuestro modelo de investigación de Stable Flow permite una edición de imágenes potente, como agregar o eliminar objetos sin requerir un entrenamiento complejo o hardware de alta gama. Este enfoque permite que cualquier persona pueda editar fotos con facilidad, sin necesitar conocimiento técnico.

5. Omni-ID: Representación holística de la identidad diseñada para tareas generativas
Nuestro modelo de investigación de Omni-ID crea una representación integral de la cara de una persona a través de varios ángulos y expresiones, lo que permite generaciones de IA y RA más realistas y personalizadas.

6. PrEditor3D: Edición de formas 3D rápida y precisa
PrEditor3D es una herramienta desarrollada por nuestros equipos de investigación que permite editar modelos 3D de forma rápida y precisa con un esfuerzo mínimo, lo que agiliza el proceso de creación de contenido 3D al simplificar la forma en que se manipulan y ajustan las formas 3D. En la aplicación, PrEditor3D tiene el potencial de facilitar que los animadores y creadores de lentes den vida a sus visiones de manera eficiente, lo que lleva a experiencias de realidad aumentada más ricas y más inmersivas.

7. Mosaico de modalidades: Un punto de referencia integral para el aprendizaje de gráficos multimodales
MM-Graph presenta el primer análisis de referencia para el aprendizaje de gráficos multimodales, que incorpora datos visuales y textuales para abordar la brecha significativa de información visual en los análisis de referencia actuales. Esto permite una evaluación de modelos más completa e impulsa la innovación en sistemas de aprendizaje de gráficos que pueden entender entradas de forma más rica y real.

Con una indicación de texto y un conjunto de imágenes de referencia, Video Alchemisthabilita la posibilidad de generar videos sin grandes ajustes u optimizaciones. En la aplicación, esto agilizará la personalización de video con apariencias y fondos personalizados, lo que ahorrará tiempo y mejorará la creatividad.

9. Mind the Time: Generación de video de múltiples eventos controlada temporalmente
Mind the Time introduce un control temporal preciso en videos generados por IA. Permitiría que los creadores dicten la secuencia y el momento de los eventos. Permite contar historias más estructuradas y coherentes en la generación de video.

10. Video Motion Transfer con transformadores de difusión
Video Motion Transfer es un método para transferir movimiento realista de un video a otro usando un modelo de investigación de difusión. En la aplicación, este modelo podría crear fácilmente videos con movimiento realista al transferir movimiento de videos de referencia, sin necesitar configuraciones complejas.

11. Wonderland: Explorar escenas 3D desde una sola imagen
Wonderland crea escenas 3D detalladas a partir de una sola foto, lo que simplifica la creación de escenas 3D y permite un diseño más rápido y eficiente sin necesitar múltiples ángulos o grandes recursos.

12. AC3D: Análisis y mejora del control de la cámara 3D en transformadores de difusión de video
AC3D mejora el control de la cámara dentro de los modelos de generación de video, lo que permite un movimiento más suave y más realista. Esto brinda a los creadores más flexibilidad para controlar los movimientos de cámara en los videos y mejora la calidad y el realismo de las escenas generadas.

¡Ven a encontrarnos en CVPR!
*Todos los modelos y trabajos que se describen aquí son solo para fines de investigación.
Ponte en contacto
Para solicitudes de prensa, envía un correo a press@snap.com.
Para cualquier otra consulta, visita nuestro sitio de ayuda.