10 august 2025

Snap Research 2025

Conferințe și evenimente

Echipa Snap Research este lider în inovație în domeniul AR și al inteligenței artificiale generative, al sistemelor de recomandare și al instrumentelor creative personalizate.

În 2025, ne prezentăm lucrările în cadrul mai multor conferințe și evenimente de top din industrie.

Evenimente anterioare:

SIGGRAPH 2025 -- Vancouver, Canada, în perioada 10 - 14 august

Nested Attention: Valori de atenție conștiente semantic pentru personalizarea conceptelor

Nested Attention este o nouă metodă care ajută la îmbunătățirea păstrării identității în modelele de generare a imaginilor, creând imagini mai coerente și mai precise ale unor subiecți specifici în diferite stiluri și scene. Prin introducerea unei structuri de atenție conștiente semantic, modelul păstrează mai bine identitatea în diverse stiluri și scene. Acest lucru face posibilă crearea de imagini personalizate, chiar și combinând diferiți subiecți - cum ar fi o persoană și animalul său de companie - într-o singură imagine.

InstantRestore: Restaurarea personalizată a feței într-un singur pas cu atenție la imaginea partajată

Această lucrare introduce InstantRestore, o metodă de restaurare a imaginilor de față degradate folosind o singură trecere înainte printr-un model de difuzie. Aceasta urmărește să rețină caracteristicile specifice identității, sprijinind restaurarea eficientă conștientă de identitate pentru îmbunătățirea fotografiilor de portret.

Personalizarea conceptelor dinamice din videoclipuri unice

Set-and-Sequence este un nou cadru pentru modelele de generare video care abordează provocarea generării de videoclipuri cu „concepte dinamice” – entități definite nu numai prin aspectul lor, ci și prin modelele lor unice de mișcare în timp, cum ar fi valurile oceanului sau un foc de tabără pâlpâitor. Set-and-Sequence permite personalizarea realistă a videoclipurilor prin învățarea modului în care subiecții dinamici se comportă în timp, permițând o mișcare consecventă, compoziția scenei și amestecarea între scene.

DuetGen: Generarea de dans pentru două persoane pe bază de muzică prin modelare ierarhică mascată

DuetGen este un cadru pentru generarea de mișcări de dans sincronizate pentru două persoane direct din muzică. Acesta abordează provocarea modelării coregrafiei interactive, cum ar fi mișcarea coordonată și interacțiunile fizice dintre partenerii de dans. Sistemul permite generarea realistă de dans în duet pentru aplicații în animație, avatare virtuale și performanțe digitale.

Be Decisive: Aranjamente induse de zgomot pentru generarea cu mai mulți subiecți

Lucrarea noastră, Be Decisive, abordează provocarea de a genera cu acuratețe mai mulți subiecți distincți în imagini complexe, fără inexactități vizuale sau amestecuri neintenționate. Be Decisive introduce o mică rețea neuronală care prezice și rafinează un aranjament spațial indus de zgomot în timpul eliminării zgomotului, ghidând unde ar trebui să apară fiecare subiect încă din primele etape ale generării imaginii. Acest lucru permite crearea de imagini foarte detaliate cu mai mulți subiecți specifici, asigurând limite clare și compoziții naturale între aceștia.

KDD 2025 -- Toronto, Ontario, Canada, în perioada 3 - 7 august

GiGL: Rețele neuronale grafice la scară largă la Snapchat

GiGL este o bibliotecă open-source pentru antrenarea și rularea rețelelor neuronale grafice (GNN) pe grafice la scară largă, care acceptă sute de milioane de noduri și miliarde de muchii. GIGL este utilizat la Snap în aplicații cheie de învățare automată, inclusiv creșterea numărului de utilizatori, clasificarea conținutului și publicitate.

Despre rolul diminuării ponderii în filtrarea colaborativă: O perspectivă a popularității

Această lucrare introduce PRISM (Strategia de inițializare conștientă de popularitate pentru încorporarea magnitudinilor). PRISM elimină utilizarea diminuării ponderii de încorporare, o tehnică comună, dar costisitoare în antrenarea modelelor de recomandare, și o înlocuiește cu un singur calcul ușor la începutul antrenamentului. PRISM este rapid, simplu de aplicat, ducând la sisteme de recomandare mai eficiente.

Reexaminarea auto-atenției pentru recomandarea secvențială între domenii

Această lucrare introduce AutoCDSR, o metodă de îmbunătățire a modului în care astfel de sisteme prezic comportamentele utilizatorilor în diferite domenii de interacțiune, prin promovarea partajării eficiente a cunoștințelor, atenuând în același timp semnalele zgomotoase sau irelevante. AutoCDSR îmbunătățește acuratețea și robustețea personalizării în setările de recomandare.

SnapGen: Adaptarea modelelor de înaltă rezoluție text-imagine pentru dispozitive mobile cu arhitecturi și antrenament eficiente Modelul Snap AI T2I pentru dispozitive mobile

SnapGen este un model de cercetare text-imagine de înaltă performanță, conceput pentru a rula direct pe dispozitive mobile, generând imagini de înaltă calitate în mai puțin de două secunde. Acesta are potențialul de a reduce drastic calculul și memoria necesare pentru generarea de imagini pe dispozitiv.

SnapGen-V: Generarea unui videoclip de cinci secunde în cinci secunde pe un dispozitiv mobil

SnapGen-V extinde modelul nostru SnapGen pentru a genera videoclipuri de cinci secunde direct pe dispozitivele mobile în doar cinci secunde. Acesta aduce la îndemână generarea rapidă de videoclipuri pe dispozitiv, bazându-se pe progresele noastre în modelarea text-imagine.

4Real-Video: Învățarea difuziei video 4D fotorealiste generalizabile

Modelul de cercetare 4Real-Video generează videoclipuri 4D realiste, cu detalii bogate și mișcare naturală, vizibile din mai multe unghiuri. Această tehnologie are aplicații potențiale în VR imersiv și în experiențe de povestire de ultimă generație.

Stable Flow: Straturi vitale pentru editarea de imagini fără antrenament

Modelul nostru de cercetare Stable Flow permite editarea puternică a imaginilor, cum ar fi adăugarea sau eliminarea de obiecte fără a necesita un antrenament complex sau hardware de ultimă generație. Această abordare permite oricui să editeze fotografii cu ușurință, fără a fi nevoie de expertiză tehnică.

Omni-ID: Reprezentarea holistică a identității concepută pentru sarcini generative

Modelul nostru de cercetare Omni-ID construiește o reprezentare cuprinzătoare a feței unei persoane din diverse unghiuri și expresii, permițând generații AI și AR mai realiste și personalizate.

PrEditor3D: Editare rapidă și precisă a formelor 3D

PrEditor3D este un instrument dezvoltat de echipele noastre de cercetare care permite editarea rapidă și precisă a modelelor 3D cu o intervenție minimă, simplificând procesul de creare a conținutului 3D prin simplificarea modului în care formele 3D sunt manipulate și ajustate. În aplicație, PrEditor3D are potențialul de a facilita animatorilor și creatorilor de Lentile să își aducă la viață viziunile în mod eficient, ducând la experiențe AR mai bogate și mai imersive.

Mozaic de modalități: Un punct de referință cuprinzător pentru învățarea grafică multimodală

MM-Graph introduce primul punct de referință pentru învățarea grafică multimodală, încorporând atât date vizuale, cât și textuale pentru a aborda lacuna semnificativă de informații vizuale din punctele de referință actuale. Acest lucru permite o evaluare mai cuprinzătoare a modelelor și stimulează inovația în sistemele de învățare grafică care pot înțelege intrări mai bogate, din lumea reală.

Video Alchemist

Cu o solicitare text și un set de imagini de referință, Video Alchemist permite generarea de videoclipuri fără reglare sau optimizare extensivă. În aplicație, acest lucru va eficientiza personalizarea video cu aspecte și fundaluri personalizate, economisind timp și sporind în același timp creativitatea.

Mind the Time: Generare video cu mai multe evenimente controlate temporal

Mind the Time introduce un control temporal precis în videoclipurile generate de AI. Acesta ar permite creatorilor să dicteze secvența și momentul evenimentelor. Permite o povestire mai structurată și mai coerentă în generarea de videoclipuri.

Transfer de mișcare video cu transformatoare de difuzie

Transferul de mișcare video este o metodă de transferare a mișcării realiste de la un videoclip la altul folosind un model de cercetare a difuziei. În aplicație, acest model ar putea crea cu ușurință videoclipuri cu mișcare realistă prin transferul mișcării din videoclipuri de referință, fără a fi nevoie de setări complexe.

Wonderland: Navigarea scenelor 3D dintr-o singură imagine

Wonderland creează scene 3D detaliate dintr-o singură fotografie, simplificând crearea de scene 3D și permițând un design mai rapid și mai eficient, fără a fi nevoie de mai multe unghiuri sau resurse extinse.

AC3D: Analizarea și îmbunătățirea controlului camerei 3D în transformatoarele de difuzie video

AC3D îmbunătățește controlul camerei în cadrul modelelor de generare video, permițând o mișcare mai lină și mai realistă. Acest lucru oferă creatorilor mai multă flexibilitate asupra mișcărilor camerei în videoclipuri și îmbunătățește calitatea și realismul scenelor generate.

*Toate modelele și lucrările prezentate aici sunt doar în scop de cercetare.

Această postare va fi actualizată în continuare.

Înapoi la Noutăți

Ia legătura

Pentru solicitări de presă, trimite un e-mail la press@snap.com.
Pentru toate celelalte întrebări, te rugăm să vizitezi site-ul nostru de asistență.