10 de agosto de 2025
10 de agosto de 2025

Snap Research 2025

Conferências e eventos

A equipe de pesquisa da Snap lidera a inovação em RA e IA generativa, sistemas de recomendação e ferramentas criativas personalizadas. 

Em 2025, apresentaremos nosso trabalho em diversas conferências e eventos líderes do setor. 


Eventos anteriores:

SIGGRAPH 2025  -- Vancouver, Canadá, de 10 a 14 de agosto

Atenção aninhada: valores de atenção com consciência semântica para personalização de conceitos

A atenção aninhada é um novo método que ajuda a melhorar a preservação da identidade em modelos de geração de imagens, criando imagens mais consistentes e precisas de temas específicos em diferentes estilos e cenas. Ao introduzir uma estrutura de atenção com consciência semântica, o modelo preserva melhor a identidade em estilos e cenas variados. Isso permiteção de imagens personalizadas, combinando até mesmo diferentes temas, como uma pessoa e seu animal de estimação, em uma única imagem.

InstantRestore: restauração facial personalizada em uma única etapa com atenção de imagem compartilhada

Este artigo apresenta o InstantRestore, um método para restaurar imagens faciais degradadas usando uma única passagem direta por meio de um modelo de difusão. O objetivo é reter características específicas de identidade, suportando uma restauração eficiente com reconhecimento de identidade para aprimoramento de fotos de retratos.

Personalização de conceitos dinâmicos a partir de vídeos individuais

Set-and-Sequence é uma nova estrutura para modelos de geração de vídeo que lida com o desafio de gerar  vídeos com “conceitos dinâmicos” — entidades definidas não apenas por sua aparência, mas também por seus padrões de movimento únicos ao longo do tempo, como ondas do mar ou uma fogueira oscilante. O recurso Set-and-Sequence permite uma personalização realista de vídeos, aprendendo como temas dinâmicos se comportam ao longo do tempo, permitindo movimento consistente, composição de cenas e mesclagem entre cenas.

DuetGen: geração de dança de duas pessoas baseada em música por meio de modelagem hierárquica de máscaras

O DuetGen é uma estrutura para gerar movimentos de dança sincronizados de duas pessoas diretamente a partir da música. Ele aborda o desafio de simular coreografias interativas, como movimentos coordenados e interações físicas entre parceiros de dança. O sistema permite a geração de danças realistas em duetos para aplicações em animação, avatares virtuais e performances digitais.

Seja decisivo: layouts induzidos por ruído para geração de vários temas

Nosso trabalho, Seja Decisivo, aborda o desafio de gerar com precisão vários temas distintos em imagens complexas, sem imprecisões visuais ou misturas indesejadas. Seja Decisivo apresenta uma pequena rede neural que prevê e refina um layout espacial induzido por ruído durante a redução de ruído, orientando onde cada objeto deve aparecer desde os primeiros estágios da geração de imagem. Isso permite a criação de imagens altamente detalhadas com vários objetos específicos, garantindo limites claros e composições naturais entre eles.

KDD 2025 -- Toronto, Ontário, Canadá, de 3 a 7 de agosto

GiGL: redes neurais de grafos em grande escala no Snapchat

A GiGL é uma biblioteca de código aberto para treinamento e execução de redes neurais de grafos (GNNs) em grafos de grande escala, suportando centenas de milhões de nós e bilhões de arestas. A GIGL é usada na Snap em aplicações-chave de aprendizado de máquina, incluindo crescimento de usuários, classificação de conteúdo e publicidade.

Sobre o papel da decadência de peso na filtragem colaborativa: uma perspectiva de popularidade

Este artigo apresenta o PRISM (Estratégia de inicialização com base na popularidade para incorporação de magnitudes).  O PRISM elimina o uso da decadência de peso incorporada, uma técnica comum, mas cara, no treinamento de modelos de recomendação e, em vez disso, a substitui por um único cálculo de luz no início do treinamento.  O PRISM é rápido e simples de aplicar, resultando em sistemas de recomendação mais eficientes.

Revisitando a autoatenção para recomendação sequencial entre domínios

Este trabalho apresenta o AutoCDSR, um método para melhorar a forma como esses sistemas preveem comportamentos de usuários em diferentes domínios de interação, promovendo o compartilhamento eficaz de conhecimento e atenuando sinais ruidosos ou irrelevantes.  O AutoCDSR melhora a precisão e a robustez da personalização em configurações de recomendação.

SnapGen: dominando modelos de texto em imagem de alta resolução para dispositivos móveis com arquiteturas eficientes e treinamento de modelo T2I da Snap AI para dispositivos móveis

O SnapGen é um modelo de pesquisa de texto em imagem de alto desempenho projetado para ser executado diretamente em dispositivos móveis, gerando imagens de alta qualidade em menos de dois segundos. Ele tem o potencial de reduzir drasticamente a computação e a memória necessárias para a criação de imagens no dispositivo.

SnapGen-V: gerando um vídeo de cinco segundos em cinco segundos em um dispositivo móvel

O SnapGen-V estende nosso modelo SnapGen para gerar vídeos de cinco segundos diretamente em dispositivos móveis em apenas cinco segundos. Ele traz uma criação de vídeo rápida no dispositivo, com base em nossos avanços em modelagem de texto em imagem.

4Real-Video: aprendizado de difusão de vídeo 4D fotorrealista generalizável 

O modelo de pesquisa do 4Real-Video gera vídeos 4D realistas com detalhes ricos e movimento natural, que podem ser visualizados de vários ângulos. Essa tecnologia tem aplicações potenciais em experiências de RV imersiva e em narrativas de próxima geração.

Stable Flow: camadas vitais para edição de imagens sem treinamento

Nosso modelo de pesquisa Stable Flow permite uma edição poderosa de imagens, como adicionar ou remover objetos, sem a necessidade de treinamento complexo ou hardware de ponta. Essa abordagem permite que qualquer pessoa edite fotos com facilidade, sem a necessidade de conhecimento técnico.

Omni-ID: representação de identidade holística projetada para tarefas generativas

Nosso modelo de pesquisa de Omni-ID cria uma representação abrangente do rosto de uma pessoa em vários ângulos e expressões, permitindo gerações de IA e RA mais realistas e personalizadas.

PrEditor3D: edição de formas 3D rápida e precisa

O PrEditor3D é uma ferramenta desenvolvida por nossas equipes de pesquisa que permite a edição rápida e precisa de modelos 3D com o mínimo de entradas, agilizando o processo de criação de conteúdo 3D ao simplificar como as formas 3D são manipuladas e ajustadas. No aplicativo, o PrEditor3D tem o potencial de facilitar a criação de experiências de RA mais ricas e imersivas, para os animadores e os criadores de Lentes que dão vida às suas visões de forma eficiente, o que leva a experiências de RA mais ricas e imersivas.

Mosaic of Modalities: um benchmark abrangente para aprendizado de gráficos multimodal 

O MM-Graph apresenta o primeiro benchmark para o aprendizado de gráficos multimodal, incorporando dados visuais e textuais para abordar a lacuna significativa de informações visuais nos benchmarks atuais. Isso permite uma avaliação de modelos mais abrangente e impulsiona a inovação em sistemas de aprendizado de gráficos que podem entender entradas mais ricas e do mundo real.

Video Alchemist

Com um prompt de texto e um conjunto de imagens de referência, o Video Alchemist permite a criação de vídeos sem um ajuste ou otimização extensiva. No aplicativo, isso agilizará a personalização de vídeos com aparências e fundos personalizados, economizando tempo e aprimorando a criatividade.

Mind the Time: criação de vídeo de vários eventos controlada temporalmente

O Mind the Time introduz um controle temporal preciso em vídeos gerados por IA. Ele permite que os criadores ditem a sequência e o tempo dos eventos. Também permite uma narrativa mais estruturada e coerente na criação de vídeo.

Transferência de Movimento de Vídeo com transformadores de difusão

A Transferência de Movimento de Vídeo é um método para transferir movimento realista de um vídeo para outro usando um modelo de pesquisa de difusão. No aplicativo, esse modelo pode criar facilmente vídeos com movimento realista transferindo movimento de vídeos de referência, sem a necessidade de configurações complexas.

Wonderland: navegando em cenas 3D a partir de uma única imagem

O Wonderland cria cenas 3D detalhadas a partir de apenas uma foto, simplificando a criação de cenas 3D e permitindo um design mais rápido e eficiente sem a necessidade de vários ângulos ou recursos extensivos.

AC3D: analisando e melhorando o controle de câmera 3D em transformadores de difusão de vídeo

O AC3D aprimora o controle da câmera em modelos de criação de vídeo, permitindo um movimento mais suave e realista. Isso dá aos criadores mais flexibilidade sobre os movimentos da câmera em vídeos e melhora a qualidade e o realismo das cenas geradas.

*Todos os modelos e o trabalho descrito aqui são apenas para fins de pesquisa. 

Esta postagem continuará sendo atualizada.

Voltar para Notícias

Entre em contato

Para solicitações da imprensa, envie um e-mail para press@snap.com.
Para todas as outras perguntas, acesse nosso site de Suporte.