10. august 2025

Snap Research 2025

Konferencer og events

Snap Research-teamet er førende inden for innovation på tværs af AR og generativ AI, anbefalingssystemer og personlige kreative værktøjer.

I 2025 fremviser vi vores arbejde på flere af de førende branchekonferencer og events.

Tidligere events:

SIGGRAPH 2025-- Vancouver, Canada fra 10. august - 14. august

Nested Attention: Semantisk bevidste opmærksomhedsværdier til konceptpersonalisering

Nested Attention er en ny metode, der hjælper med at forbedre identitetsbevarelse i billedgenereringsmodeller, hvilket skaber mere konsistente og nøjagtige billeder af specifikke motiver på tværs af forskellige stilarter og scener. Ved at introducere en semantisk bevidst opmærksomhedsstruktur bevarer modellen identiteten bedre på tværs af forskellige stilarter og scener. Dette gør det muligt at skabe personlige billeder, selv ved at kombinere forskellige motiver – som en person og deres kæledyr – i ét billede.

InstantRestore: Personlig ansigtsgendannelse i ét trin med Shared-Image Attention

Dette dokument introducerer InstantRestore, en metode til at gendanne forringede ansigtsbilleder ved hjælp af en enkelt forward pass gennem en diffusionsmodel. Den har til formål at bevare identitetsspecifikke træk og understøtter effektiv identitetsbevidst gendannelse til forbedring af portrætfotos.

Personalisering af dynamiske koncepter fra enkeltvideoer

Set-and-Sequence er en ny ramme for videogenereringsmodeller, der adresserer udfordringen med at generere videoer med "dynamiske koncepter" – enheder, der ikke kun er defineret af deres udseende, men også af deres unikke bevægelsesmønstre over tid, såsom havbølger eller et flimrende bål. Set-and-Sequence muliggør realistisk videopersonalisering ved at lære, hvordan dynamiske motiver opfører sig over tid, hvilket giver mulighed for ensartet bevægelse, scenesammensætning og blanding på tværs af scener.

DuetGen: Musikdrevet dansgenerering for to personer via hierarkisk maskeret modellering

DuetGen er en ramme til at generere synkroniserede dansebevægelser for to personer direkte fra musik. Den adresserer udfordringen med at modellere interaktiv koreografi, såsom koordinerede bevægelser og fysiske interaktioner mellem dansepartnere. Systemet muliggør realistisk duetdansgenerering til applikationer inden for animation, virtuelle avatarer og digital performance.

Be Decisive: Støj-inducerede layouts til generering af flere motiver

Vores arbejde Be Decisive tackler udfordringen med præcist at generere flere forskellige motiver i komplekse billeder uden visuelle unøjagtigheder eller utilsigtet blanding. Be Decisive introducerer et lille neuralt netværk, der forudsiger og forfiner et støj-induceret rumligt layout under denoising, og guider, hvor hvert motiv skal vises fra de tidligste stadier af billedgenerering. Dette giver mulighed for at skabe meget detaljerede billeder med flere specifikke motiver, hvilket sikrer klare grænser og naturlige kompositioner mellem dem.

KDD 2025-- Toronto, Ontario, Canada fra 3. august - 7. august

GiGL: Store neurale grafnetværk på Snapchat

GiGL er et open source-bibliotek til træning og kørsel af neurale grafnetværk (GNN'er) på store grafer, der understøtter hundredvis af millioner af noder og milliarder af kanter. GIGL bruges hos Snap på tværs af vigtige machine learning-applikationer, herunder brugervækst, rangering af indhold og annoncering.

Om rollen af vægtforfald i kollaborativ filtrering: Et popularitetsperspektiv

Dette dokument introducerer PRISM (Popularity-awaRe Initialization Strategy for embedding Magnitudes). PRISM eliminerer brugen af embedding weight decay, en almindelig, men dyr teknik i træning af anbefalingsmodeller, og erstatter den i stedet med en enkelt let beregning i starten af træningen. PRISM er hurtig, enkel at anvende og fører til mere effektive anbefalingssystemer.

Genbesøg af selv-opmærksomhed for sekventiel anbefaling på tværs af domæner

Dette arbejde introducerer AutoCDSR, en metode til at forbedre, hvordan sådanne systemer forudsiger brugeradfærd på tværs af forskellige interaktionsdomæner, ved at fremme effektiv vidensdeling, samtidig med at støjende eller irrelevante signaler afbødes. AutoCDSR forbedrer nøjagtigheden og robustheden af personalisering i anbefalingsindstillinger.

SnapGen: Tæmning af højopløselige tekst-til-billede-modeller til mobile enheder med effektive arkitekturer og træning Snap AI T2I-model til mobile enheder

SnapGen er en højtydende tekst-til-billede-forskningsmodel, der er designet til at køre direkte på mobile enheder og generere billeder i høj kvalitet på under to sekunder. Den har potentiale til drastisk at reducere den computerkraft og hukommelse, der kræves til billedgenerering på enheden.

SnapGen-V: Generering af en fem sekunders video på fem sekunder på en mobil enhed

SnapGen-V udvider vores SnapGen-model til at generere fem sekunders videoer direkte på mobile enheder på kun fem sekunder. Den bringer hurtig videogenerering på enheden inden for rækkevidde og bygger videre på vores fremskridt inden for tekst-til-billede-modellering.

4Real-Video: Læring af generaliserbar fotorealistisk 4D-videodiffusion

4Real-Video-forskningsmodellen genererer realistiske 4D-videoer med rige detaljer og naturlige bevægelser, der kan ses fra flere vinkler. Denne teknologi har potentielle anvendelser i fordybende VR og næste generations fortælleoplevelser.

Stable Flow: Vigtige lag til træningsfri billedredigering

Vores Stable Flow-forskningsmodel muliggør kraftfuld billedredigering, såsom at tilføje eller fjerne objekter uden at kræve kompleks træning eller avanceret hardware. Denne tilgang giver alle mulighed for nemt at redigere fotos, uden at der kræves teknisk ekspertise.

Omni-ID: Holistisk identitetsrepræsentation designet til generative opgaver

Vores Omni-ID-forskningsmodel bygger en omfattende repræsentation af en persons ansigt på tværs af forskellige vinkler og udtryk, hvilket muliggør mere realistiske og personlige AI- og AR-generationer.

PrEditor3D: Hurtig og præcis 3D-formredigering

PrEditor3D er et værktøj udviklet af vores forskerhold, der giver mulighed for hurtig og præcis redigering af 3D-modeller med minimalt input, hvilket strømliner processen med at skabe 3D-indhold ved at forenkle, hvordan 3D-former manipuleres og justeres. I praksis har PrEditor3D potentialet til at gøre det lettere for animatorer og Linse-skabere at bringe deres visioner til live effektivt, hvilket fører til rigere og mere fordybende AR-oplevelser.

Mosaik af modaliteter: Et omfattende benchmark for multimodal graflæring

MM-Graph introducerer det første benchmark for multimodal graflæring, der inkorporerer både visuelle og tekstuelle data for at adressere det betydelige hul af visuel information i nuværende benchmarks. Dette giver mulighed for en mere omfattende modelevaluering og driver innovation i graflæringssystemer, der kan forstå rigere input fra den virkelige verden.

Video Alchemist

Med en tekstprompt og et sæt referencebilleder gør Video Alchemist det muligt at generere videoer uden omfattende finjustering eller optimering. I praksis vil dette strømline videopersonalisering med brugerdefinerede udseender og baggrunde, hvilket sparer tid og samtidig øger kreativiteten.

Mind the Time: Tidsmæssigt styret videogenerering med flere begivenheder

Mind the Time introducerer præcis tidsmæssig kontrol i AI-genererede videoer. Det vil give skabere mulighed for at diktere rækkefølgen og timingen af begivenheder. Det muliggør mere struktureret, sammenhængende historiefortælling i videogenerering.

Video Motion Transfer med Diffusion Transformers

Video Motion Transfer er en metode til at overføre realistisk bevægelse fra en video til en anden ved hjælp af en diffusionsforskningsmodel. I praksis kan denne model nemt skabe videoer med realistiske bevægelser ved at overføre bevægelse fra referencevideoer, uden at det kræver komplekse opsætninger.

Wonderland: Navigering i 3D-scener fra et enkelt billede

Wonderland skaber detaljerede 3D-scener fra kun ét foto, hvilket forenkler oprettelsen af 3D-scener og giver mulighed for hurtigere og mere effektivt design uden behov for flere vinkler eller omfattende ressourcer.

AC3D: Analyse og forbedring af 3D-kamerastyring i Video Diffusion Transformers

AC3D forbedrer kamerastyringen i videogenereringsmodeller, hvilket muliggør jævnere og mere realistiske bevægelser. Dette giver skabere mere fleksibilitet over kamerabevægelser i videoer og forbedrer kvaliteten og realismen i de genererede scener.

*Alle modeller og alt arbejde, der er beskrevet her, er kun til forskningsformål.

Dette indlæg vil løbende blive opdateret.

Tilbage til Nyheder

Kontakt os

For presseanmodninger, email press@snap.com.
For alle andre henvendelser, besøg venligst vores supportside.