10 augustus 2025
10 augustus 2025

Snap Research 2025

Conferenties en evenementen

Het onderzoeksteam van Snap is toonaangevend op het gebied van innovatie van AR- en generatieve AI, van aanbevelingssystemen en van gepersonaliseerde creatieve tools.

In 2025 presenteren we ons werk op verschillende belangrijke conferenties en evenementen in de industrie. 


Eerdere evenementen:

SIGGRAPH 2025  -- Vancouver, Canada van 10 tot 14 augustus

Geneste aandacht: semantisch bewuste aandachtswaarden voor personalisatie van concepten

Geneste aandacht is een nieuwe methode waarmee het behoud van identiteit in beeldgeneratiemodellen kan worden verbeterd, zodat consistentere en nauwkeurigere foto's van specifieke onderwerpen kunnen worden gemaakt, in verschillende stijlen en omgevingen. Dankzij het introduceren van een semantisch bewuste aandachtsstructuur behoudt het model de identiteit beter in verschillende stijlen en omgevingen. Hierdoor is het mogelijk om gepersonaliseerde afbeeldingen en zelfs verschillende onderwerpen, zoals een persoon en diens huisdier, tot één afbeelding te maken.

InstantRestore: gepersonaliseerde eenstaps gezichtsrestauratie met aandacht voor gedeelde afbeeldingen

Dit artikel introduceert InstantRestore, een methode voor het herstellen van verslechterde gezichtsafbeeldingen met een enkele stap met een diffusiemodel. Het is bedoeld om identiteitsspecifieke functies te behouden, die efficiënte identiteitsbewuste restauratie ondersteunen voor het verbeteren van portretfoto's.

Personalisatie van dynamische concepten op basis van enkele video's

Set-and-Sequence is een nieuw kader voor videogeneratiemodellen waarmee de uitdgaing wordt aangepakt om  video's met 'dynamische concepten' te genereren. Dit zijn entiteiten die niet alleen worden gedefinieerd door hun uiterlijk, maar ook door hun unieke bewegingspatronen in de loop der tijd, zoals oceangolven of een flikkerend houtvuur. Met Set-and-Sequence is een realistische video-personalisatie mogelijk door te leren hoe dynamische onderwerpen zich in de loop der tijd gedragen. Dit leidt tot consistente bewegingen, compositie en mixen van verschillende omgevingen.

DuetGen: muziekgedreven dans voor twee personen via hiërarchische gemaskeerde modellen

DuetGen is een kader voor het genereren van gesynchroniseerde dansbewegingen voor twee personen, rechtstreeks op basis van muziek. Het pakt de uitdaging aan van het modelleren van interactieve choreografieën, zoals gecoördineerde bewegingen en fysieke interacties tussen danspartners. Met het systeem kunnen realistische dansduetten worden gegenereerd voor toepassingen in animatie, virtuele avatars en digitale optredens.

Be Decisive: layouts met geluidshinder voor het genereren van meerdere onderwerpen

Met ons werk Be Decisive kun je nauwkeurig meerdere verschillende onderwerpen in complexe beelden genereren, zonder visuele onnauwkeurigheden of onbedoeld mixen. Be Decisive presenteert een klein neuraal netwerk dat een ruimtelijke lay-out met geluidshinder voorspelt en verfijnt tijdens het denoisen. Hiermee word je geholpen vanaf het eerste stadium van het beeldgeneratie waar elk onderwerp moet verschijnen. Zo kun je uiterst gedetailleerde beelden maken met meerdere specifieke onderwerpen, wat zorgt voor duidelijke grenzen en natuurlijke composities daartussen.

KDD 2025 -- Toronto, Ontario, Canada van 3 tot 7 augustus

GiGL: Grootschalige neurale grafieknetwerken bij Snapchat

GiGL is een open-source bibliotheek voor het trainen en beheren van neurale grafieknetwerken (GNN's) op grootschalige grafieken, die honderden miljoenen knooppunten en miljarden randen ondersteunen. GIGL wordt bij Snap gebruikt in belangrijke machine learning toepassingen, waaronder gebruikersgroei, contentrangschikking en adverteren.

Over de rol van gewichtsverval in samenwerkend filteren: een populariteitsperspectief

Dit artikel introduceert PRISM (Popularity-awaRe initialisatiestrategie voor het insluiten van Magnitudes).  PRISM elimineert het gebruik van het insluiten van gewichtsverval, een veel voorkomende maar dure techniek in de training van een aanbevelingsmodel, en vervangt dit aan het begin van de training door een enkele lichtberekening.  PRISM is snel en eenvoudig toe te passen en leidt tot efficiëntere aanbevelingssystemen.

Zelfaandacht opnieuw bekijken voor opeenvolgende aanbevelingen voor meerdere domeinen

Dit werk presenteert AutoCDSR, een methode om te verbeteren hoe dergelijke systemen gebruikersgedrag voorspellen in verschillende interactiedomeinen. Dit doen ze door het effectief delen van kennis te stimuleren en tegelijkertijd lawaaierige of irrelevante signalen te dempen.  AutoCDSR verbetert de nauwkeurigheid en robuustheid van personalisatie in aanbevelingsinstellingen.

SnapGen: maak tekst-naar-afbeeldingmodellen met hoge resolutie voor mobiele apparaten met efficiënte architectuur en training Snap AI T2I-model voor mobiele apparaten

SnapGen is een krachtig tekst-naar-afbeelding onderzoeksmodel, dat rechtstreeks op mobiele apparaten werkt en in minder dan twee seconden afbeeldingen van hoge kwaliteit genereert. Het heeft de potentie om de rekenkracht en het geheugen die nodig zijn om afbeeldingen op het apparaat te genereren drastisch te verminderen.

SnapGen-V: genereert binnen vijf seconden een video van vijf seconden op een mobiel apparaat

SnapGen-V breidt ons SnapGen-model uit en genereert in slechts vijf seconden video's van vijf seconden rechtstreeks op mobiele apparaten. Video's kunnen zo snel en makkelijk op het apparaat worden gegenereerd en bouwt voort op onze ontwikkelingen in het modelleren van tekst-naar-afbeelding.

4Real-Video: generaliseerbare fotorealistische 4D-video-diffusie leren 

Het 4Real-Video onderzoeksmodel genereert realistische 4D-video's met rijke details en natuurlijke beweging die vanuit meerdere hoeken kunnen worden bekeken. Deze technologie heeft mogelijke applicaties in meeslepende VR en next-gen storytelling.

Stable Flow: vitale lagen voor het bewerken van afbeeldingen zonder trainen

Ons Stable Flow onderzoeksmodel maakt krachtige afbeeldingen mogelijk, zoals het toevoegen of verwijderen van objecten zonder dat complexe training of high-end hardware nodig is. Met deze aanpak kan iedereen eenvoudig foto's bewerken, zonder technische expertise.

Omni-ID: holistische identiteitsvoorstelling ontworpen voor generatieve taken

Ons Omni-ID onderzoeksmodel maakt een uitgebreide voorstelling van het gezicht van een persoon uit verschillende hoeken en met verschillende uitdrukkingen, waardoor realistischere en gepersonaliseerde AI- en AR-generaties mogelijk worden.

PrEditor3D: snel en nauwkeurig 3D-vormen bewerken

PrEditor3D is een tool die is ontwikkeld door onze onderzoeksteams waarmee je met minimale input snel en nauwkeurig 3D-modellen kunt bewerken. Dit stroomlijnt het proces van het maken van 3D-content, want het vereenvoudigt de manier waarop 3D-vormen worden bewerkt en aangepast. In toepassing kan PrEditor3D het makkelijker maken voor animators en Lensmakers om hun ideeën efficiënt tot leven te brengen, wat leidt tot rijkere en boeiende AR-ervaringen.

Mosaic of Modalities: een uitgebreide benchmark voor het leren van multimodale grafieken 

MM-Graph is de eerste benchmark voor het leren van multimodale grafieken en bevat zowel visuele als tekstuele gegevens. Daarmee wordt het aanzienlijke tekort aan visuele informatie in de huidige benchmarks aangevuld. Dit maakt een uitgebreidere modelevaluatie mogelijk en stimuleert innovatie in grafiekleersystemen die rijkere, praktijkinvoer kunnen begrijpen.

Video Alchemist

Video Alchemist kan met een tekstprompt en een set referentie-afbeeldingen video's genereren zonder uitgebreide afstemming of optimalisatie. In toepassing wordt hierdoor personalisatie van video's gestroomlijnd met eigen verschijningen en achtergronden, waardoor tijd wordt bespaard en creativiteit wordt verbeterd.

9. Mind the Time: tijdgeregelde videogeneratie met meerdere gebeurtenissen

Mind the Time maakt nauwkeurige tijdregeling mogelijk voor AI-gegenereerde video's. Hiermee kunnen makers de volgorde en timing van gebeurtenissen bepalen. Het maakt meer gestructureerd, samenhangend storytelling mogelijk bij het genereren van video's.

Video Motion Transfer met diffusietransformatoren

Video Motion Transfer is een methode voor het overbrengen van realistische beweging van de ene video naar de andere met behulp van een diffusie-onderzoeksmodel. In toepassing kun je met dit model eenvoudig video's maken met realistische bewegingen door beweging van referentievideo's over te dragen, zonder dat complexe instellingen nodig zijn.

Wonderland: navigeren door 3D-scènes vanuit één afbeelding

Wonderland maakt gedetailleerde 3D-scènes van slechts één foto, waardoor het aanmaken van 3D-scènes wordt vereenvoudigd. Het maakt sneller en efficiënter ontwerp mogelijk zonder dat meerdere hoeken of uitgebreide informatiebronnen nodig zijn.

AC3D: analyseren en verbeteren van de 3D-camerabediening in videodiffusietransformatoren

AC3D verbetert de camerabediening binnen modellen voor videogeneratie, waardoor soepelere, realistischere bewegingen mogelijk worden. Dit geeft makers meer flexibiliteit ten aanzien van camerabewegingen in video's en het verbetert de kwaliteit en het realisme van gegenereerde scènes.

*Alle modellen en werk die hier worden beschreven, zijn uitsluitend voor onderzoeksdoeleinden. 

Dit bericht wordt voortdurend bijgwerkr.

Terug naar Nieuws