
Snap Research 2025
Conférences et événements
L'équipe de recherche de Snap est leader en matière d'innovation dans les domaines de la RA, de l'IA générative, des systèmes de recommandation et des outils de création personnalisés.
En 2025, nous présentons notre travail lors de plusieurs des principales conférences et événements du secteur.
Événements passés :

SIGGRAPH 2025 à Vancouver au Canada, du 10 au 14 août
Nested Attention est une nouvelle méthode qui aide à améliorer la préservation de l'identité dans les modèles de génération d'images, en créant des photos plus cohérentes et précises de sujets spécifiques pour différents styles et scènes. En introduisant une structure d'attention sensible à la sémantique, le modèle préserve mieux l'identité malgré la variation du style ou de la scène. Cela permet de créer des images personnalisées, en combinant même différents sujets, comme une personne et son animal de compagnie, dans la même photo.
InstantRestore : restauration du visage personnalisée en une étape avec attention d'image partagée
Cet article présente InstantRestore, une méthode de restauration d'images dégradées représentant des visages, et qui fait appel à un modèle de diffusion unique. Cette méthode vise à conserver les fonctionnalités spécifiques à l'identité, en prenant en charge une restauration efficace sensible à l'identité pour l'amélioration de vos photos de portrait.
Personnalisation de concepts dynamiques à partir de vidéos uniques
Set-and-Sequence est un nouveau framework pour les modèles de génération vidéo qui relève le défi de la production de vidéos avec des « concepts dynamiques », c'est-à-dire des entités définies non seulement par leur apparence, mais également par leurs mouvements uniques au fil du temps, comme les vagues de l'océan ou un feu de camp scintillant. Set-and-Sequence permet une personnalisation vidéo réaliste en apprenant comment les sujets se comportent dynamiquement au fil du temps, ce qui permet un mouvement, une composition de scène et une fusion cohérente entre les scènes.
DuetGen est un framework pour la génération de mouvements de danse synchronisés en duo directement à partir d'une musique. Il relève le défi de la modélisation de la chorégraphie interactive, comme la coordination de mouvements et les interactions physiques entre les partenaires de danse. Le système permet la génération d'une danse en duo réaliste pour les applications d'animation, d'avatars virtuels et de performance numérique.
Be Decisive : mises en page induites par le bruit pour la génération de sujets multiples
Notre travail Be Decisive relève le défi de générer avec précision plusieurs sujets distincts dans des images complexes, sans inexactitudes visuelles ou fusion non intentionnelle. Be Decisive introduit un petit réseau neuronal qui prédit et affine une disposition spatiale induite par le bruit pendant la phase de désonorisation, en indiquant où chaque sujet doit apparaître dès les premières étapes de la génération d'image. Cela permet la création d'images très détaillées avec plusieurs sujets spécifiques, en garantissant des limites claires et des compositions naturelles entre eux.

KDD 2025 -- Toronto, Ontario, Canada, du 3 au 7 août
GiGL : réseaux de neurones sur graphes à grande échelle sur Snapchat
GiGL est une bibliothèque open source pour l'apprentissage et l'exécution de réseaux de neurones sur graphes (GNN) , sur des graphes à grande échelle, prenant en charge des centaines de millions de nœuds et des milliards d'arêtes. GIGL est utilisé chez Snap pour les applications clés d'apprentissage automatique, y compris la croissance des utilisateurs, le classement du contenu et la publicité.
Cet article présente PRISM (« Popularity-awaRe Initialization Strategy » pour l'intégration de magnitudes). PRISM élimine la nécessité d'utiliser l'intégration de la dégradation des poids, une technique courante mais coûteuse dans l'apprentissage de modèles de recommandation, et la remplace par une seule opération légère réalisée au début de l'apprentissage. PRISM est rapide, simple à appliquer et permet des systèmes de recommandation plus efficaces.
Ce travail introduit AutoCDSR, une méthode visant à améliorer la prévision des comportements des utilisateurs dans différents domaines d'interaction, en promouvant un partage efficace des connaissances tout en atténuant le bruit ou les signaux non pertinents. AutoCDSR améliore la précision et la robustesse de la personnalisation dans les paramètres de recommandation.

SnapGen : optimisation des modèles texte-image haute résolution pour appareils mobiles grâce à des architectures et un apprentissage efficaces Snap AI T2I pour appareils mobiles
SnapGen est un modèle de recherche de conversion texte/image à haute performance conçu pour fonctionner directement sur les appareils mobiles pour générer des images de haute qualité en moins de deux secondes. Il a la possibilité de réduire considérablement les besoins en calcul et en mémoire nécessaires à la génération d'images sur appareil.
SnapGen-V : génération de vidéos de cinq secondes en temps réel sur mobile
SnapGen-V étend notre modèle SnapGen afin de générer des vidéos de cinq secondes directement sur un appareil mobile en seulement cinq secondes. Il rend possible la génération rapide de vidéos directement sur mobile, en s’appuyant sur nos avancées en modélisation texte-à-image.
4Real-Video : apprentissage généralisable pour la diffusion de vidéos 4D photoréalistes
Le modèle de recherche 4Real-Video permet de générer des vidéos 4D réalistes, avec une grande richesse de détails et des mouvements naturels, visualisables sous différents angles. Cette technologie a des applications potentielles dans la réalité virtuelle immersive et les expériences de narration de nouvelle génération.
Stable Flow : couches essentielles pour l'édition d'images sans phase d'apprentissage
Notre modèle de recherche Stable Flow permet une puissante édition d'image, comme l'ajout ou la suppression d'objets, sans nécessiter une formation complexe ou du matériel haut de gamme. Cette approche permet à quiconque de modifier facilement des photos, sans avoir besoin de spécialité technique.
Omni-ID : représentation holistique de l'identité au service des tâches génératives
Notre modèle de recherche Omni-ID crée une représentation complète du visage humain sous différents angles et expressions, ce qui permet de générer des générations d'IA et de RA plus réalistes et personnalisées.
PrEditor3D : édition de formes 3D rapide et précise
PrEditor3D est un outil développé par nos équipes de recherche qui permet une édition rapide et précise des modèles 3D avec un minimum d'informations. Il rationalise le processus de création de contenu 3D en simplifiant la manipulation et l'ajustement des formes 3D. En pratique, PrEditor3D pourrait faciliter le travail des animateurs et des créateurs de Lenses, en leur permettant de donner vie à leurs idées plus efficacement, pour des expériences de réalité augmentée plus riches et immersives.
Mosaïque de modalités : une évaluation complète de l'apprentissage multimodal sur graphes
MM-Graph présente la première référence pour l'apprentissage des graphiques multimodaux, qui intègre des données visuelles et textuelles afin de combler l'écart important d'informations visuelles dans les références actuelles. Cela offre la possibilité d’une évaluation plus exhaustive des modèles et favorise l’innovation dans les systèmes d’apprentissage graphique capables d’interpréter des données du monde réel plus complexes.
Grâce à une invite de texte et un ensemble d'images de référence, Video Alchemist permet de générer des vidéos sans trop de réglages ou d'optimisations. En pratique, cela simplifiera la personnalisation des vidéos avec des apparences et arrière-plans personnalisés, gagnant du temps tout en stimulant la créativité.
Mind the Time introduit un contrôle précis de la temporalité dans les vidéos générées par l'IA. Ainsi, les créateurs pourraient déterminer la séquence et l'enchaînement des événements. Il permet d'avoir une narration plus structurée et cohérente dans la génération de vidéos.
Le transfert de mouvement vidéo est une technique consistant à appliquer les mouvements d’une vidéo source à une vidéo cible en s’appuyant sur un modèle de diffusion. Dans son application, ce modèle pourrait créer des vidéos aux mouvements réalistes en transférant ceux-ci depuis des vidéos de référence, sans recourir à des dispositifs complexes.
Wonderland : exploration de scènes 3D à partir d’une image unique
Wonderland crée des scènes 3D détaillées à partir d'une photo unique, ce qui simplifie la création de scènes 3D et permet une conception plus rapide et plus efficace sans avoir besoin de plusieurs angles ou de ressources supplémentaires.
AC3D : analyse et amélioration du contrôle de la caméra 3D dans les Diffusion Transformers vidéo
AC3D améliore le contrôle de la caméra dans les modèles de génération vidéo, permettant des mouvements plus fluides et réalistes. Cela offre aux créateurs une plus grande flexibilité dans les mouvements de caméra, tout en améliorant la qualité et le réalisme des scènes générées.
*Tous les modèles et les travaux présentés ici sont uniquement destinés à des fins de recherche.
Cette publication continuera d'être mise à jour.
Nous contacter
Pour les demandes de presse, envoyez un e-mail à press@snap.com.
Pour toute autre question, veuillez consulter notre site d'assistance.