10 août 2025
10 août 2025

Snap Research 2025

Conférences et événements

L'équipe de recherche de Snap est leader en matière d'innovation dans les domaines de la RA, de l'IA générative, des systèmes de recommandation et des outils de création personnalisés. 

En 2025, nous présentons notre travail lors de plusieurs des principales conférences et événements du secteur. 


Événements passés :

SIGGRAPH 2025  à Vancouver au Canada, du 10 au 14 août

Nested Attention : valeurs d'attention sensibles à la sémantique pour la personnalisation de concepts

Nested Attention est une nouvelle méthode qui aide à améliorer la préservation de l'identité dans les modèles de génération d'images, en créant des photos plus cohérentes et précises de sujets spécifiques pour différents styles et scènes. En introduisant une structure d'attention sensible à la sémantique, le modèle préserve mieux l'identité malgré la variation du style ou de la scène. Cela permet de créer des images personnalisées, en combinant même différents sujets, comme une personne et son animal de compagnie, dans la même photo.

InstantRestore : restauration du visage personnalisée en une étape avec attention d'image partagée

Cet article présente InstantRestore, une méthode de restauration d'images dégradées représentant des visages, et qui fait appel à un modèle de diffusion unique. Cette méthode vise à conserver les fonctionnalités spécifiques à l'identité, en prenant en charge une restauration efficace sensible à l'identité pour l'amélioration de vos photos de portrait.

Personnalisation de concepts dynamiques à partir de vidéos uniques

Set-and-Sequence est un nouveau framework pour les modèles de génération vidéo qui relève le défi de la production de vidéos avec des « concepts dynamiques », c'est-à-dire des entités définies non seulement par leur apparence, mais également par leurs mouvements uniques au fil du temps, comme les vagues de l'océan ou un feu de camp scintillant. Set-and-Sequence permet une personnalisation vidéo réaliste en apprenant comment les sujets se comportent dynamiquement au fil du temps, ce qui permet un mouvement, une composition de scène et une fusion cohérente entre les scènes.

DuetGen : génération de danse à deux personnes avec musique via une modélisation masquée hiérarchique

DuetGen est un framework pour la génération de mouvements de danse synchronisés en duo directement à partir d'une musique. Il relève le défi de la modélisation de la chorégraphie interactive, comme la coordination de mouvements et les interactions physiques entre les partenaires de danse. Le système permet la génération d'une danse en duo réaliste pour les applications d'animation, d'avatars virtuels et de performance numérique.

Be Decisive : mises en page induites par le bruit pour la génération de sujets multiples

Notre travail Be Decisive relève le défi de générer avec précision plusieurs sujets distincts dans des images complexes, sans inexactitudes visuelles ou fusion non intentionnelle. Be Decisive introduit un petit réseau neuronal qui prédit et affine une disposition spatiale induite par le bruit pendant la phase de désonorisation, en indiquant où chaque sujet doit apparaître dès les premières étapes de la génération d'image. Cela permet la création d'images très détaillées avec plusieurs sujets spécifiques, en garantissant des limites claires et des compositions naturelles entre eux.

KDD 2025 -- Toronto, Ontario, Canada, du 3 au 7 août

GiGL : réseaux de neurones sur graphes à grande échelle sur Snapchat

GiGL est une bibliothèque open source pour l'apprentissage et l'exécution de réseaux de neurones sur graphes (GNN) , sur des graphes à grande échelle, prenant en charge des centaines de millions de nœuds et des milliards d'arêtes. GIGL est utilisé chez Snap pour les applications clés d'apprentissage automatique, y compris la croissance des utilisateurs, le classement du contenu et la publicité.

On the Role of Weight Decay in Collaborative Filtering: A Popularity Perspective (Sur le rôle de la dégradation des pondérations dans le filtrage collaboratif : analyse sous l'angle de la popularité)

Cet article présente PRISM (« Popularity-awaRe Initialization Strategy » pour l'intégration de magnitudes).  PRISM élimine la nécessité d'utiliser l'intégration de la dégradation des poids, une technique courante mais coûteuse dans l'apprentissage de modèles de recommandation, et la remplace par une seule opération légère réalisée au début de l'apprentissage.  PRISM est rapide, simple à appliquer et permet des systèmes de recommandation plus efficaces.

Revisiting Self-Attention for Cross-Domain Sequential Recommendation (Nouvelle analyse de l'auto-attention pour la recommandation séquentielle multi-domaines)

Ce travail introduit AutoCDSR, une méthode visant à améliorer la prévision des comportements des utilisateurs dans différents domaines d'interaction, en promouvant un partage efficace des connaissances tout en atténuant le bruit ou les signaux non pertinents.  AutoCDSR améliore la précision et la robustesse de la personnalisation dans les paramètres de recommandation.

SnapGen : optimisation des modèles texte-image haute résolution pour appareils mobiles grâce à des architectures et un apprentissage efficaces Snap AI T2I pour appareils mobiles

SnapGen est un modèle de recherche de conversion texte/image à haute performance conçu pour fonctionner directement sur les appareils mobiles pour générer des images de haute qualité en moins de deux secondes. Il a la possibilité de réduire considérablement les besoins en calcul et en mémoire nécessaires à la génération d'images sur appareil.

SnapGen-V : génération de vidéos de cinq secondes en temps réel sur mobile

SnapGen-V étend notre modèle SnapGen afin de générer des vidéos de cinq secondes directement sur un appareil mobile en seulement cinq secondes. Il rend possible la génération rapide de vidéos directement sur mobile, en s’appuyant sur nos avancées en modélisation texte-à-image.

4Real-Video : apprentissage généralisable pour la diffusion de vidéos 4D photoréalistes 

Le modèle de recherche 4Real-Video permet de générer des vidéos 4D réalistes, avec une grande richesse de détails et des mouvements naturels, visualisables sous différents angles. Cette technologie a des applications potentielles dans la réalité virtuelle immersive et les expériences de narration de nouvelle génération.

Stable Flow : couches essentielles pour l'édition d'images sans phase d'apprentissage

Notre modèle de recherche Stable Flow permet une puissante édition d'image, comme l'ajout ou la suppression d'objets, sans nécessiter une formation complexe ou du matériel haut de gamme. Cette approche permet à quiconque de modifier facilement des photos, sans avoir besoin de spécialité technique.

Omni-ID : représentation holistique de l'identité au service des tâches génératives

Notre modèle de recherche Omni-ID crée une représentation complète du visage humain sous différents angles et expressions, ce qui permet de générer des générations d'IA et de RA plus réalistes et personnalisées.

PrEditor3D : édition de formes 3D rapide et précise

PrEditor3D est un outil développé par nos équipes de recherche qui permet une édition rapide et précise des modèles 3D avec un minimum d'informations. Il rationalise le processus de création de contenu 3D en simplifiant la manipulation et l'ajustement des formes 3D. En pratique, PrEditor3D pourrait faciliter le travail des animateurs et des créateurs de Lenses, en leur permettant de donner vie à leurs idées plus efficacement, pour des expériences de réalité augmentée plus riches et immersives.

Mosaïque de modalités : une évaluation complète de l'apprentissage multimodal sur graphes 

MM-Graph présente la première référence pour l'apprentissage des graphiques multimodaux, qui intègre des données visuelles et textuelles afin de combler l'écart important d'informations visuelles dans les références actuelles. Cela offre la possibilité d’une évaluation plus exhaustive des modèles et favorise l’innovation dans les systèmes d’apprentissage graphique capables d’interpréter des données du monde réel plus complexes.

Video Alchemist

Grâce à une invite de texte et un ensemble d'images de référence, Video Alchemist permet de générer des vidéos sans trop de réglages ou d'optimisations. En pratique, cela simplifiera la personnalisation des vidéos avec des apparences et arrière-plans personnalisés, gagnant du temps tout en stimulant la créativité.

Mind the Time : génération de vidéos de plusieurs événements avec une gestion précise de la temporalité

Mind the Time introduit un contrôle précis de la temporalité dans les vidéos générées par l'IA. Ainsi, les créateurs pourraient déterminer la séquence et l'enchaînement des événements. Il permet d'avoir une narration plus structurée et cohérente dans la génération de vidéos.

Transfert de mouvement vidéo à l’aide de Diffusion Transformers (Transformers utilisant des modèles de diffusion)

Le transfert de mouvement vidéo est une technique consistant à appliquer les mouvements d’une vidéo source à une vidéo cible en s’appuyant sur un modèle de diffusion. Dans son application, ce modèle pourrait créer des vidéos aux mouvements réalistes en transférant ceux-ci depuis des vidéos de référence, sans recourir à des dispositifs complexes.

Wonderland : exploration de scènes 3D à partir d’une image unique

Wonderland crée des scènes 3D détaillées à partir d'une photo unique, ce qui simplifie la création de scènes 3D et permet une conception plus rapide et plus efficace sans avoir besoin de plusieurs angles ou de ressources supplémentaires.

AC3D : analyse et amélioration du contrôle de la caméra 3D dans les Diffusion Transformers vidéo

AC3D améliore le contrôle de la caméra dans les modèles de génération vidéo, permettant des mouvements plus fluides et réalistes. Cela offre aux créateurs une plus grande flexibilité dans les mouvements de caméra, tout en améliorant la qualité et le réalisme des scènes générées.

*Tous les modèles et les travaux présentés ici sont uniquement destinés à des fins de recherche. 

Cette publication continuera d'être mise à jour.

Retour aux actualités