10. august 2025

Snap Research 2025

Konferanser og arrangementer

Snap Research-teamet leder innovasjon innen AR og generativ AI, anbefalingssystemer og personlig tilpassede kreative verktøy.

I 2025 viser vi frem arbeidet vårt på flere av de ledende bransjekonferansene og arrangementene.

Tidligere arrangementer:

SIGGRAPH 2025-- Vancouver, Canada fra 10. til 14. august

Nested Attention: Semantisk bevisste oppmerksomhetsverdier for konsepttilpasning

Nested Attention er en ny metode som bidrar til å forbedre bevaring av identitet i bildegenereringsmodeller, og skaper mer konsistente og nøyaktige bilder av spesifikke motiver på tvers av ulike stiler og scener. Ved å introdusere en semantisk bevisst oppmerksomhetsstruktur, bevarer modellen identiteten bedre på tvers av varierte stiler og scener. Dette gjør det mulig å lage personlig tilpassede bilder, og til og med kombinere forskjellige motiver – som en person og kjæledyret deres – i ett bilde.

InstantRestore: Personlig tilpasset ansiktsrestaurering i ett trinn med delt bildeoppmerksomhet

Denne artikkelen introduserer InstantRestore, en metode for å restaurere forringede ansiktsbilder ved hjelp av en enkelt foroverføring gjennom en diffusjonsmodell. Den har som mål å beholde identitetsspesifikke funksjoner, og støtter effektiv identitetsbevisst restaurering for forbedring av portrettbilder.

Personlig tilpasning av dynamiske konsepter fra enkeltvideoer

Set-and-Sequence er et nytt rammeverk for videogenereringsmodeller som tar for seg utfordringen med å generere videoer med «dynamiske konsepter» – enheter definert ikke bare av utseendet, men også av deres unike bevegelsesmønstre over tid, som havbølger eller et blafrende bål. Set-and-Sequence muliggjør realistisk videotilpasning ved å lære hvordan dynamiske motiver oppfører seg over tid, noe som gir konsistent bevegelse, scenesammensetning og blanding på tvers av scener.

DuetGen: Musikkdrevet dansgenerering for to personer via hierarkisk maskert modellering

DuetGen er et rammeverk for å generere synkroniserte dansebevegelser for to personer direkte fra musikk. Det tar for seg utfordringen med å modellere interaktiv koreografi, som koordinert bevegelse og fysiske interaksjoner mellom dansepartnere. Systemet muliggjør realistisk generering av duett-dans for bruk i animasjon, virtuelle avatarer og digital fremføring.

Vær avgjørende: Støyinduserte oppsett for generering av flere motiver

Vårt arbeid Be Decisive tar for seg utfordringen med å nøyaktig generere flere distinkte motiver i komplekse bilder uten visuelle unøyaktigheter eller utilsiktet blanding. Be Decisive introduserer et lite nevralt nettverk som forutsier og forbedrer et støyindusert romlig oppsett under støyfjerning, og veileder hvor hvert motiv skal vises fra de tidligste stadiene av bildegenerering. Dette gjør det mulig å lage svært detaljerte bilder med flere spesifikke motiver, og sikrer klare grenser og naturlige komposisjoner mellom dem.

KDD 2025-- Toronto, Ontario, Canada fra 3. til 7. august

GiGL: Storskala grafnevrale nettverk hos Snapchat

GiGL er et åpen kildekode-bibliotek for trening og kjøring av grafnevrale nettverk (GNN-er) på storskala grafer, som støtter hundrevis av millioner av noder og milliarder av kanter. GIGL brukes hos Snap på tvers av sentrale maskinlæringsapplikasjoner, inkludert brukervekst, innholdsrangering og annonsering.

Om rollen til vektnedbrytning i samarbeidsfiltrering: Et popularitetsperspektiv

Denne artikkelen introduserer PRISM (Popularity-awaRe Initialization Strategy for embedding Magnitudes). PRISM eliminerer bruken av vektnedbrytning for innebygging, en vanlig, men kostbar teknikk i trening av anbefalingsmodeller, og erstatter den i stedet med en enkelt, lett beregning ved starten av treningen. PRISM er rask, enkel å bruke og fører til mer effektive anbefalingssystemer.

Gjennomgang av selv-oppmerksomhet for sekvensiell anbefaling på tvers av domener

Dette arbeidet introduserer AutoCDSR, en metode for å forbedre hvordan slike systemer forutsier brukeratferd på tvers av forskjellige interaksjonsdomener, ved å fremme effektiv kunnskapsdeling samtidig som støyende eller irrelevante signaler reduseres. AutoCDSR forbedrer nøyaktigheten og robustheten til personlig tilpasning i anbefalingsinnstillinger.

SnapGen: Temming av høyoppløselige tekst-til-bilde-modeller for mobile enheter med effektive arkitekturer og trening Snap AI T2I-modell for mobile enheter

SnapGen er en høytytende tekst-til-bilde-forskningsmodell designet for å kjøre direkte på mobile enheter, og genererer bilder av høy kvalitet på under to sekunder. Den har potensial til å drastisk redusere beregnings- og minnekravene for bildegenerering på enheten.

SnapGen-V: Genererer en fem sekunders video på fem sekunder på en mobil enhet

SnapGen-V utvider vår SnapGen-modell til å generere fem sekunders videoer direkte på mobile enheter på bare fem sekunder. Den gjør rask videogenerering på enheten oppnåelig, og bygger på våre fremskritt innen tekst-til-bilde-modellering.

4Real-Video: Læring av generaliserbar fotorealistisk 4D-videodiffusjon

4Real-Video-forskningsmodellen genererer realistiske 4D-videoer med rike detaljer og naturlig bevegelse, som kan ses fra flere vinkler. Denne teknologien har potensielle anvendelser i oppslukende VR og neste generasjons fortelleropplevelser.

Stabil flyt: Vitale lag for treningsfri bilderedigering

Vår Stable Flow-forskningsmodell muliggjør kraftig bilderedigering, som å legge til eller fjerne objekter uten å kreve kompleks trening eller avansert maskinvare. Denne tilnærmingen lar hvem som helst redigere bilder med letthet, uten behov for teknisk ekspertise.

Omni-ID: Holistisk identitetsrepresentasjon designet for generative oppgaver

Vår Omni-ID-forskningsmodell bygger en omfattende representasjon av en persons ansikt på tvers av ulike vinkler og uttrykk, noe som muliggjør mer realistiske og personlig tilpassede AI- og AR-generasjoner.

PrEditor3D: Rask og presis 3D-formredigering

PrEditor3D er et verktøy utviklet av våre forskningsteam som muliggjør rask og presis redigering av 3D-modeller med minimal input, og effektiviserer prosessen med å lage 3D-innhold ved å forenkle hvordan 3D-former manipuleres og justeres. I praksis har PrEditor3D potensial til å gjøre det enklere for animatører og Linse-skapere å realisere sine visjoner effektivt, noe som fører til rikere og mer oppslukende AR-opplevelser.

Mosaikk av modaliteter: En omfattende referansetest for multimodal graflæring

MM-Graph introduserer den første referansetesten for multimodal graflæring, som inkluderer både visuelle og tekstlige data for å adressere det betydelige gapet av visuell informasjon i nåværende referansetester. Dette muliggjør en mer omfattende modellevaluering og driver innovasjon i graflæringssystemer som kan forstå rikere, virkelige input.

Videoalkymist

Med en tekstmelding og et sett med referansebilder, gjør Video Alchemist det mulig å generere videoer uten omfattende justering eller optimalisering. I praksis vil dette effektivisere videotilpasning med tilpassede utseender og bakgrunner, noe som sparer tid samtidig som kreativiteten økes.

Pass på tiden: Tidsstyrt videogenerering med flere hendelser

Mind the Time introduserer presis tidsstyring i AI-genererte videoer. Det vil la skapere diktere rekkefølgen og timingen av hendelser. Det muliggjør mer strukturert, sammenhengende historiefortelling i videogenerering.

Video Motion Transfer med diffusjonstransformatorer

Video Motion Transfer er en metode for å overføre realistisk bevegelse fra en video til en annen ved hjelp av en diffusjonsforskningsmodell. I praksis kan denne modellen enkelt lage videoer med realistisk bevegelse ved å overføre bevegelse fra referansevideoer, uten behov for komplekse oppsett.

Wonderland: Navigering i 3D-scener fra et enkelt bilde

Wonderland lager detaljerte 3D-scener fra bare ett bilde, noe som forenkler opprettelsen av 3D-scener og gir raskere og mer effektiv design uten behov for flere vinkler eller omfattende ressurser.

AC3D: Analyse og forbedring av 3D-kamerakontroll i videodiffusjonstransformatorer

AC3D forbedrer kamerakontrollen i videogenereringsmodeller, noe som muliggjør jevnere og mer realistisk bevegelse. Dette gir skapere mer fleksibilitet over kamerabevegelser i videoer, og forbedrer kvaliteten og realismen i genererte scener.

*Alle modeller og alt arbeid som er beskrevet her, er kun for forskningsformål.

Dette innlegget vil bli oppdatert fortløpende.

Tilbake til nyheter

Ta kontakt

For presseforespørsler, send e-post tilpress@snap.com.
For alle andre henvendelser, vennligst besøk vårstøtteside.