
Snap na CVPR
Como a Pesquisa da Snap está pronta para moldar o futuro da tecnologia digital criativa
Este ano, compartilharemos 12 artigos na CVPR 2025, a principal conferência sobre inovação em IA e visão computacional, que acontece em Nashville, no Tennessee — a partir de hoje até 15 de junho.
77% dos envios de Pesquisa da Snap foram aceito, superando a média do setor de 22%, o que é uma prova do trabalho inovador feito por nossa equipe.
A Snap fará apresentações sobre vários tópicos, incluindo dois dos nossos artigos — SnapGen e 4Real-Video — que a CVPR destacou como estando entre os 3% melhores dos envios.
Veja abaixo um resumo e o cronograma completos.
1. SnapGen: dominando modelos de texto em imagem de alta resolução para dispositivos móveis com arquiteturas e treinamento eficientes
Modelo T2I da Snap IA para dispositivos móveis
O SnapGen é um modelo de pesquisa de texto em imagem de alto desempenho projetado para ser executado diretamente em dispositivos móveis, gerando imagens de alta qualidade em menos de dois segundos. Ele tem o potencial de reduzir drasticamente a computação e a memória necessárias para a criação de imagens no dispositivo.

2. SnapGen-V: gerando um vídeo de cinco segundos em cinco segundos em um dispositivo móvel
O SnapGen-V estende nosso modelo SnapGen para gerar vídeos de cinco segundos diretamente em dispositivos móveis em apenas cinco segundos. Ele traz uma criação de vídeo rápida no dispositivo, com base em nossos avanços em modelagem de texto em imagem.

3. 4Real-Video: aprendizado de difusão de vídeo 4D fotorrealista generalizável
O modelo de pesquisa do 4Real-Video gera vídeos 4D realistas com detalhes ricos e movimento natural, que podem ser visualizados de vários ângulos. Essa tecnologia tem aplicações potenciais em experiências de VR imersiva e em narrativas de próxima geração.

4. Stable Flow: camadas vitais para edição de imagens sem treinamento
Nosso modelo de pesquisa Stable Flow permite uma edição poderosa de imagens, como adicionar ou remover objetos, sem a necessidade de treinamento complexo ou hardware de ponta. Essa abordagem permite que qualquer pessoa edite fotos com facilidade, sem a necessidade de conhecimento técnico.

5. Omni-ID: representação de identidade holística projetada para tarefas generativas
Nosso modelo de pesquisa de Omni-ID cria uma representação abrangente do rosto de uma pessoa em vários ângulos e expressões, permitindo gerações de IA e RA mais realistas e personalizadas.

6. PrEditor3D: edição de formas 3D rápida e precisa
O PrEditor3D é uma ferramenta desenvolvida por nossas equipes de pesquisa que permite a edição rápida e precisa de modelos 3D com o mínimo de entradas, agilizando o processo de criação de conteúdo 3D ao simplificar como as formas 3D são manipuladas e ajustadas. No aplicativo, o PrEditor3D tem o potencial de facilitar a criação de experiências de RA mais ricas e imersivas, para os animadores e os criadores de Lentes que dão vida às suas visões de forma eficiente, o que leva a experiências de RA mais ricas e imersivas.

7. Mosaic of Modalities: um benchmark abrangente para aprendizado de gráficos multimodal
O MM-Graph apresenta o primeiro benchmark para o aprendizado de gráficos multimodal, incorporando dados visuais e textuais para abordar a lacuna significativa de informações visuais nos benchmarks atuais. Isso permite uma avaliação de modelos mais abrangente e impulsiona a inovação em sistemas de aprendizado de gráficos que podem entender entradas mais ricas e do mundo real.

Com um prompt de texto e um conjunto de imagens de referência, o Video Alchemist permite a criação de vídeos sem um ajuste ou otimização extensiva. No aplicativo, isso agilizará a personalização de vídeos com aparências e fundos personalizados, economizando tempo e aprimorando a criatividade.

9. Mind the Time: criação de vídeo de vários eventos controlada temporalmente
O Mind the Time introduz um controle temporal preciso em vídeos gerados por IA. Ele permite que os criadores ditem a sequência e o tempo dos eventos. Também permite uma narrativa mais estruturada e coerente na criação de vídeo.

10. Transferência de Movimento de Vídeo com transformadores de difusão
A Transferência de Movimento de Vídeo é um método para transferir movimento realista de um vídeo para outro usando um modelo de pesquisa de difusão. No aplicativo, esse modelo pode criar facilmente vídeos com movimento realista transferindo movimento de vídeos de referência, sem a necessidade de configurações complexas.

11. Wonderland: navegando em cenas 3D a partir de uma única imagem
O Wonderland cria cenas 3D detalhadas a partir de apenas uma foto, simplificando a criação de cenas 3D e permitindo um design mais rápido e eficiente sem a necessidade de vários ângulos ou recursos extensivos.

12. AC3D: analisando e melhorando o controle de câmera 3D em transformadores de difusão de vídeo
O AC3D aprimora o controle da câmera em modelos de criação de vídeo, permitindo um movimento mais suave e realista. Isso dá aos criadores mais flexibilidade sobre os movimentos da câmera em vídeos e melhora a qualidade e o realismo das cenas geradas.

Venha nos encontrar na CVPR!
*Todos os modelos e o trabalho descrito aqui são apenas para fins de pesquisa.
Entre em contato
Para solicitações da imprensa, envie um e-mail para press@snap.com.
Para todas as outras perguntas, acesse nosso site de Suporte.