10 augusti 2025

Snap Research 2025

Konferenser och evenemang

Snap Research-teamet leder innovation inom AR och generativ AI, rekommendationssystem och personliga kreativa verktyg.

Under 2025 visar vi upp vårt arbete på flera av de ledande branschkonferenserna och evenemangen.

Tidigare evenemang:

SIGGRAPH 2025-- Vancouver, Kanada från 10 augusti - 14 augusti

Nested Attention: Semantiskt medvetna uppmärksamhetsvärden för konceptanpassning

Nested Attention är en ny metod som hjälper till att förbättra identitetsbevarandet i bildgenereringsmodeller, vilket skapar mer konsekventa och exakta bilder av specifika motiv i olika stilar och scener. Genom att introducera en semantiskt medveten uppmärksamhetsstruktur bevarar modellen identiteten bättre i olika stilar och scener. Detta gör det möjligt att skapa personliga bilder, även genom att kombinera olika motiv – som en person och dennes husdjur – i en och samma bild.

InstantRestore: Personlig ansiktsrestaurering i ett enda steg med delad bilduppmärksamhet

Denna uppsats introducerar InstantRestore, en metod för att återställa försämrade ansiktsbilder med hjälp av en enda framåtpassning genom en diffusionsmodell. Syftet är att behålla identitetsspecifika funktioner, vilket stöder effektiv identitetsmedveten restaurering för förbättring av porträttfoton.

Anpassning av dynamiska koncept från enskilda videor

Set-and-Sequence är ett nytt ramverk för videogenereringsmodeller som tar itu med utmaningen att generera videor med "dynamiska koncept" – enheter som inte bara definieras av sitt utseende utan också av sina unika rörelsemönster över tid, såsom havsvågor eller en flimrande lägereld. Set-and-Sequence möjliggör realistisk videoanpassning genom att lära sig hur dynamiska motiv beter sig över tid, vilket möjliggör konsekvent rörelse, scensammansättning och blandning över scener.

DuetGen: Musikdriven dansgenerering för två personer via hierarkisk maskerad modellering

DuetGen är ett ramverk för att generera synkroniserade dansrörelser för två personer direkt från musik. Det tar itu med utmaningen att modellera interaktiv koreografi, såsom koordinerade rörelser och fysiska interaktioner mellan danspartners. Systemet möjliggör realistisk duett-dansgenerering för tillämpningar inom animation, virtuella avatarer och digitala framträdanden.

Be Decisive: Brusinducerade layouter för generering av flera motiv

Vårt arbete Be Decisive tar itu med utmaningen att korrekt generera flera distinkta motiv i komplexa bilder utan visuella felaktigheter eller oavsiktlig blandning. Be Decisive introducerar ett litet neuralt nätverk som förutsäger och förfinar en brusinducerad rumslig layout under brusreducering, vilket styr var varje motiv ska visas från de tidigaste stadierna av bildgenerering. Detta möjliggör skapandet av mycket detaljerade bilder med flera specifika motiv, vilket säkerställer tydliga gränser och naturliga kompositioner mellan dem.

KDD 2025-- Toronto, Ontario, Kanada från 3 augusti - 7 augusti

GiGL: Storskaliga grafneurala nätverk på Snapchat

GiGL är ett bibliotek med öppen källkod för att träna och köra grafneurala nätverk (GNN) på storskaliga grafer, som stöder hundratals miljoner noder och miljarder kanter. GIGL används på Snap i viktiga maskininlärningsapplikationer, inklusive användartillväxt, innehållsrankning och annonsering.

Om rollen av viktnedbrytning i kollaborativ filtrering: ett popularitetsperspektiv

Denna uppsats introducerar PRISM (Popularity-awaRe Initialization Strategy for embedding Magnitudes). PRISM eliminerar användningen av inbäddningsviktnedbrytning, en vanlig men dyr teknik i träning av rekommendationsmodeller, och ersätter den istället med en enda lätt beräkning i början av träningen. PRISM är snabb, enkel att tillämpa och leder till effektivare rekommendationssystem.

Återbesök av självuppmärksamhet för sekventiell rekommendation över domäner

Detta arbete introducerar AutoCDSR, en metod för att förbättra hur sådana system förutsäger användarbeteenden över olika interaktionsdomäner, genom att främja effektiv kunskapsdelning samtidigt som man mildrar brusiga eller irrelevanta signaler. AutoCDSR förbättrar noggrannheten och robustheten i personalisering i rekommendationsinställningar.

SnapGen: Tämja högupplösta text-till-bild-modeller för mobila enheter med effektiva arkitekturer och träning Snap AI T2I-modell för mobila enheter

SnapGen är en högpresterande text-till-bild-forskningsmodell som är utformad för att köras direkt på mobila enheter och generera högkvalitativa bilder på under två sekunder. Den har potential att drastiskt minska den beräkningskraft och det minne som krävs för bildgenerering på enheten.

SnapGen-V: Generera en fem sekunder lång video inom fem sekunder på en mobil enhet

SnapGen-V utökar vår SnapGen-modell för att generera fem sekunder långa videor direkt på mobila enheter på bara fem sekunder. Det gör snabb videogenerering på enheten möjlig och bygger vidare på våra framsteg inom text-till-bild-modellering.

4Real-Video: Inlärning av generaliserbar fotorealistisk 4D-videodiffusion

Forskningsmodellen 4Real-Video genererar realistiska 4D-videor med rika detaljer och naturliga rörelser, som kan ses från flera vinklar. Denna teknik har potentiella tillämpningar i uppslukande VR och nästa generations berättarupplevelser.

Stable Flow: Vitala lager för träningsfri bildredigering

Vår forskningsmodell Stable Flow möjliggör kraftfull bildredigering, som att lägga till eller ta bort objekt utan att kräva komplex träning eller avancerad hårdvara. Detta tillvägagångssätt gör det möjligt för vem som helst att enkelt redigera foton, utan att någon teknisk expertis behövs.

Omni-ID: Holistisk identitetsrepresentation utformad för generativa uppgifter

Vår forskningsmodell Omni-ID bygger en omfattande representation av en persons ansikte från olika vinklar och uttryck, vilket möjliggör mer realistiska och personliga AI- och AR-generationer.

PrEditor3D: Snabb och exakt redigering av 3D-former

PrEditor3D är ett verktyg som utvecklats av våra forskningsteam och som möjliggör snabb och exakt redigering av 3D-modeller med minimal input, vilket effektiviserar processen för att skapa 3D-innehåll genom att förenkla hur 3D-former manipuleras och justeras. I praktiken har PrEditor3D potential att göra det lättare för animatörer och lins-skapare att förverkliga sina visioner på ett effektivt sätt, vilket leder till rikare och mer uppslukande AR-upplevelser.

Mosaic of Modalities: Ett omfattande riktmärke för multimodal grafinlärning

MM-Graph introducerar det första riktmärket för multimodal grafinlärning, som innehåller både visuella och textuella data för att åtgärda den betydande bristen på visuell information i nuvarande riktmärken. Detta möjliggör en mer omfattande modellutvärdering och driver innovation i grafinlärningssystem som kan förstå rikare, verkliga indata.

Video Alchemist

Med en textuppmaning och en uppsättning referensbilder gör Video Alchemist det möjligt att generera videor utan omfattande justering eller optimering. I praktiken kommer detta att effektivisera videoanpassning med anpassade utseenden och bakgrunder, vilket sparar tid samtidigt som kreativiteten förbättras.

Mind the Time: Tidsmässigt styrd videogenerering av flera händelser

Mind the Time introducerar exakt tidsmässig kontroll i AI-genererade videor. Det skulle göra det möjligt för skapare att diktera sekvensen och tidpunkten för händelser. Det möjliggör ett mer strukturerat, sammanhängande berättande i videogenerering.

Video Motion Transfer med diffusionstransformatorer

Video Motion Transfer är en metod för att överföra realistiska rörelser från en video till en annan med hjälp av en diffusionsforskningsmodell. I praktiken kan denna modell enkelt skapa videor med realistiska rörelser genom att överföra rörelser från referensvideor, utan att behöva komplicerade inställningar.

Wonderland: Navigera i 3D-scener från en enda bild

Wonderland skapar detaljerade 3D-scener från bara ett foto, vilket förenklar skapandet av 3D-scener och möjliggör snabbare och effektivare design utan att behöva flera vinklar eller omfattande resurser.

AC3D: Analysera och förbättra 3D-kamerakontroll i videodiffusionstransformatorer

AC3D förbättrar kamerakontrollen i videogenereringsmodeller, vilket möjliggör smidigare och mer realistiska rörelser. Detta ger skapare mer flexibilitet över kamerarörelser i videor och förbättrar kvaliteten och realismen i genererade scener.

*Alla modeller och allt arbete som beskrivs här är endast för forskningsändamål.

Detta inlägg kommer att fortsätta att uppdateras.

Tillbaka till Nyheter

Kontakta oss

För pressförfrågningar, skicka e-post tillpress@snap.com.
För alla andra frågor, besök vårSupport-webbplats.