10 de agosto de 2025

Snap Research 2025

Conferências e eventos

A equipa da Snap Research está a liderar a inovação em RA e IA generativa, sistemas de recomendação e ferramentas criativas personalizadas.

Em 2025, vamos apresentar o nosso trabalho em várias das principais conferências e eventos do setor.

Eventos anteriores:

SIGGRAPH 2025-- Vancouver, Canadá, de 10 a 14 de agosto

Nested Attention: valores de atenção com reconhecimento semântico para personalização de conceitos

A Nested Attention é um novo método que ajuda a melhorar a preservação da identidade em modelos de geração de imagens, criando imagens mais consistentes e precisas de temas específicos em diferentes estilos e cenários. Ao introduzir uma estrutura de atenção com reconhecimento semântico, o modelo preserva melhor a identidade em vários estilos e cenários. Isto torna possível criar imagens personalizadas, combinando até diferentes temas – como uma pessoa e o seu animal de estimação – numa única imagem.

InstantRestore: restauro facial personalizado num único passo com atenção de imagem partilhada

Este artigo apresenta o InstantRestore, um método para restaurar imagens faciais degradadas utilizando uma única passagem progressiva através de um modelo de difusão. O seu objetivo é reter características específicas da identidade, apoiando o restauro eficiente com reconhecimento da identidade para a melhoria de retratos fotográficos.

Personalização de conceitos dinâmicos a partir de vídeos únicos

Set-and-Sequence é uma nova estrutura para modelos de geração de vídeo que aborda o desafio de gerar vídeos com "conceitos dinâmicos" – entidades definidas não só pela sua aparência, mas também pelos seus padrões de movimento únicos ao longo do tempo, como as ondas do mar ou uma fogueira a crepitar. O Set-and-Sequence permite a personalização realista de vídeos ao aprender como os temas dinâmicos se comportam ao longo do tempo, permitindo um movimento consistente, composição de cenas e mistura entre cenas.

DuetGen: geração de dança para duas pessoas orientada por música através de modelação hierárquica mascarada

O DuetGen é uma estrutura para gerar movimentos de dança sincronizados para duas pessoas diretamente a partir da música. Aborda o desafio de modelar coreografias interativas, como movimentos coordenados e interações físicas entre parceiros de dança. O sistema permite a geração realista de danças de dueto para aplicações em animação, avatares virtuais e performance digital.

Be Decisive: layouts induzidos por ruído para geração de vários temas

O nosso trabalho Be Decisive aborda o desafio de gerar com precisão vários temas distintos em imagens complexas sem imprecisões visuais ou misturas não intencionais. O Be Decisive introduz uma pequena rede neural que prevê e refina um layout espacial induzido por ruído durante a remoção de ruído, orientando onde cada tema deve aparecer desde as fases iniciais da geração da imagem. Isto permite a criação de imagens altamente detalhadas com vários temas específicos, garantindo limites claros e composições naturais entre eles.

KDD 2025-- Toronto, Ontário, Canadá, de 3 a 7 de agosto

GiGL: redes neurais de grafos em grande escala no Snapchat

O GiGL é uma biblioteca de código aberto para treinar e executar Redes Neurais de Grafos (GNNs) em grafos de grande escala, suportando centenas de milhões de nós e milhares de milhões de arestas. O GIGL é utilizado no Snap em aplicações-chave de aprendizagem automática, incluindo o crescimento de utilizadores, a classificação de conteúdos e a publicidade.

Sobre o papel da diminuição de peso na filtragem colaborativa: uma perspetiva de popularidade

Este artigo apresenta o PRISM (Estratégia de Inicialização com Reconhecimento de Popularidade para Magnitudes de Incorporação). O PRISM elimina o uso da diminuição de peso de incorporação, uma técnica comum mas dispendiosa no treino de modelos de recomendação, e substitui-a por um único cálculo leve no início do treino. O PRISM é rápido, simples de aplicar, levando a sistemas de recomendação mais eficientes.

Revisitar a autoatenção para recomendação sequencial entre domínios

Este trabalho apresenta o AutoCDSR, um método para melhorar a forma como tais sistemas preveem os comportamentos dos utilizadores em diferentes domínios de interação, promovendo a partilha eficaz de conhecimento e mitigando ao mesmo tempo sinais ruidosos ou irrelevantes. O AutoCDSR melhora a precisão e a robustez da personalização em cenários de recomendação.

SnapGen: domar modelos de texto para imagem de alta resolução para dispositivos móveis com arquiteturas e treino eficientes Modelo Snap AI T2I para dispositivos móveis

O SnapGen é um modelo de investigação de texto para imagem de alto desempenho concebido para ser executado diretamente em dispositivos móveis, gerando imagens de alta qualidade em menos de dois segundos. Tem o potencial de reduzir drasticamente a computação e a memória necessárias para a geração de imagens no dispositivo.

SnapGen-V: gerar um vídeo de cinco segundos em cinco segundos num dispositivo móvel

O SnapGen-V expande o nosso modelo SnapGen para gerar vídeos de cinco segundos diretamente em dispositivos móveis em apenas cinco segundos. Torna a geração rápida de vídeo no dispositivo uma realidade, com base nos nossos avanços na modelação de texto para imagem.

4Real-Video: aprender difusão de vídeo 4D fotorrealista

O modelo de investigação 4Real-Video gera vídeos 4D realistas com detalhes ricos e movimento natural, que podem ser vistos de vários ângulos. Esta tecnologia tem potenciais aplicações em RV imersiva e experiências de narração de histórias de última geração.

Stable Flow: camadas vitais para edição de imagens sem treino

O nosso modelo de investigação Stable Flow permite uma edição de imagem poderosa, como adicionar ou remover objetos sem necessitar de treino complexo ou hardware de ponta. Esta abordagem permite que qualquer pessoa edite fotos com facilidade, sem necessidade de conhecimentos técnicos.

Omni-ID: representação de identidade holística concebida para tarefas generativas

O nosso modelo de investigação Omni-ID constrói uma representação abrangente do rosto de uma pessoa em vários ângulos e expressões, permitindo gerações de IA e RA mais realistas e personalizadas.

PrEditor3D: edição de formas 3D rápida e precisa

O PrEditor3D é uma ferramenta desenvolvida pelas nossas equipas de investigação que permite a edição rápida e precisa de modelos 3D com um mínimo de dados, agilizando o processo de criação de conteúdo 3D ao simplificar a forma como as formas 3D são manipuladas e ajustadas. Na prática, o PrEditor3D tem o potencial de facilitar aos animadores e criadores de Lentes a concretização das suas visões de forma eficiente, levando a experiências de RA mais ricas e imersivas.

Mosaico de modalidades: um benchmark abrangente para a aprendizagem de grafos multimodais

O MM-Graph introduz o primeiro benchmark para a aprendizagem de grafos multimodais, incorporando dados visuais e textuais para abordar a lacuna significativa de informação visual nos benchmarks atuais. Isto permite uma avaliação mais abrangente do modelo e impulsiona a inovação em sistemas de aprendizagem de grafos que conseguem compreender dados mais ricos do mundo real.

Video Alchemist

Com uma instrução de texto e um conjunto de imagens de referência, o Video Alchemist permite gerar vídeos sem necessidade de ajustes ou otimizações extensas. Na prática, isto irá agilizar a personalização de vídeos com aparências e fundos personalizados, poupando tempo e aumentando a criatividade.

Mind the Time: geração de vídeo multievento com controlo temporal

O Mind the Time introduz um controlo temporal preciso em vídeos gerados por IA. Permitiria aos criadores ditar a sequência e o tempo dos eventos. Permite uma narração mais estruturada e coerente na geração de vídeos.

Transferência de movimento de vídeo com transformadores de difusão

A transferência de movimento de vídeo é um método para transferir movimento realista de um vídeo para outro utilizando um modelo de investigação de difusão. Na prática, este modelo poderia criar facilmente vídeos com movimento realista, transferindo o movimento de vídeos de referência, sem necessidade de configurações complexas.

Wonderland: navegar em cenários 3D a partir de uma única imagem

O Wonderland cria cenários 3D detalhados a partir de uma única foto, simplificando a criação de cenários 3D e permitindo um design mais rápido e eficiente sem necessidade de múltiplos ângulos ou recursos extensos.

AC3D: analisar e melhorar o controlo da câmara 3D em transformadores de difusão de vídeo

O AC3D melhora o controlo da câmara dentro dos modelos de geração de vídeo, permitindo um movimento mais suave e realista. Isto dá aos criadores mais flexibilidade sobre os movimentos da câmara nos vídeos e melhora a qualidade e o realismo das cenas geradas.

*Todos os modelos e trabalhos aqui descritos destinam-se apenas a fins de investigação.

Esta publicação continuará a ser atualizada.

Voltar às Notícias

Entrar em contacto

Para pedidos de imprensa, envie um e-mail para press@snap.com.
Para todas as outras perguntas, visite o nosso site de Suporte.