10 agosto 2025
10 agosto 2025

Snap Research 2025

Conferenze ed eventi

Il team di Snap Research sta dando impulso all'innovazione nei settori dell'AR e dell'IA generativa, dei sistemi di raccomandazione e degli strumenti creativi personalizzati. 

Nel 2025 presenteremo il nostro lavoro in alcune delle principali conferenze ed eventi del settore. 


Eventi passati:

SIGGRAPH 2025 -- Vancouver, Canada dal 10 al 14 agosto

Attenzione annidata: valori di attenzione semantici per la personalizzazione del concetto

L'attenzione annidata è un nuovo metodo che aiuta a migliorare la conservazione dell'identità nei modelli di generazione delle immagini, creando immagini più coerenti e accurate di soggetti specifici in diversi stili e scene. Grazie all'introduzione di una struttura di attenzione semantica, il modello preserva meglio l'identità in vari stili e scene. Ciò consente di creare immagini personalizzate, persino combinando soggetti diversi, come una persona e il suo animale domestico, in un'unica immagine.

InstantRestore: ripristino del viso personalizzato in un unico passaggio con attenzione alle immagini condivise

In questo documento viene presentato InstantRestore, un metodo per il ripristino delle immagini del viso degradate utilizzando un singolo passaggio in avanti attraverso un modello di diffusione. Mira a conservare le funzionalità specifiche dell'identità, supportandone un efficiente ripristino per il miglioramento dei ritratti.

Personalizzazione di concetti dinamici da singoli

Set-and-Sequence è un nuovo framework per modelli di generazione video che affronta la sfida di generare  video con "concetti dinamici", entità definite non solo dal loro aspetto ma anche dai loro schemi di movimento unici nel tempo, come le onde dell'oceano o un falò tremolante. Set-and-Sequence consente una personalizzazione video realistica imparando come i soggetti dinamici si comportano nel tempo, consentendo movimenti coerenti, composizione delle scene e fusione tra esse.

DuetGen: generazione di balli di coppia basata sulla musica tramite modellazione mascherata gerarchica

DuetGen è un framework per la generazione di movimenti di danza di coppia sincronizzati direttamente dalla musica. Riguarda la sfida della modellazione della coreografia interattiva, come il movimento coordinato e le interazioni fisiche tra i partner di danza. Il sistema consente la generazione di danze realistiche di coppia per applicazioni in animazione, avatar virtuali e prestazioni digitali.

Be Decisive: layout indotti dal rumore per la generazione di soggetti multipli

Il nostro lavoro Be Decisive affronta la sfida di generare con precisione più soggetti distinti in immagini complesse senza imprecisioni visive o fusioni involontarie. Be Decisive introduce una piccola rete neurale che prevede e perfeziona un layout spaziale indotto dal rumore durante la riduzione del rumore, indicando dove ogni soggetto dovrebbe apparire fin dalle primissime fasi della generazione dell'immagine. Ciò consente la creazione di immagini altamente dettagliate con più soggetti specifici, garantendo confini chiari e composizioni naturali tra loro.

KDD 2025 -- Toronto, Ontario, Canada dal 3 al 7 agosto

GiGL: reti neurali grafiche su larga scala su Snapchat

GiGL è una libreria open-source per l'addestramento e l'esecuzione di Graph Neural Networks (GNN) su grafici su larga scala, supportando centinaia di milioni di nodi e miliardi di edge. GIGL viene utilizzato da Snap in applicazioni chiave di apprendimento automatico, tra cui la crescita degli utenti, la classificazione dei contenuti e la pubblicità.

Sul ruolo del decadimento di peso nel filtraggio collaborativo: una prospettiva sulla popolarità

Questo documento introduce PRISM (Popularity-awaRe Initialization Strategy per l'incorporamento di Magnitudes).  PRISM elimina l'uso dell'incorporamento del decadimento del peso, una tecnica comune ma costosa nell'addestramento dei modelli di raccomandazione e lo sostituisce con un singolo calcolo della luce all'inizio dell'addestramento.  PRISM è veloce, semplice da applicare e rende i sistemi di raccomandazione più efficienti.

Rivisitare l'attenzione personale per la raccomandazione sequenziale tra domini

Questo lavoro introduce AutoCDSR, un metodo per migliorare il modo in cui tali sistemi prevedono i comportamenti degli utenti in diversi domini di interazione, promuovendo un'efficace condivisione delle conoscenze e mitigando al contempo segnali rumorosi o irrilevanti.  AutoCDSR migliora la precisione e la robustezza della personalizzazione nelle impostazioni delle raccomandazioni.

SnapGen: modellazione da testo a immagine ad alta risoluzione per dispositivi mobili con architetture efficienti e sistemi di apprendimento del modello Snap AI T2I per dispositivi mobili

SnapGen è un modello di ricerca per la conversione da testo a immagine ad alte prestazioni progettato per essere utilizzato direttamente sui dispositivi mobili e per generare immagini di alta qualità in meno di due secondi. Ha il potenziale per ridurre drasticamente il tempo di calcolo e la memoria necessari per generare le immagini sul dispositivo.

SnapGen-V: generazione di un video da cinque secondi in cinque secondi su un dispositivo mobile

SnapGen-V estende il modello SnapGen alla creazione di video da cinque secondi direttamente sui dispositivi mobili in soli cinque secondi. Questo modello consente di generare video in modo rapido e su qualsiasi dispositivo, sfruttando i nostri progressi nel campo della conversione da testo a immagine.

4Real-Video: diffusione di video 4D fotorealistici generalizzabili per l'apprendimento 

Il modello di ricerca 4Real-Video genera video 4D realistici con movimenti e dettagli naturali, visualizzabili da più angolazioni. Questa tecnologia ha potenziali applicazioni nella realtà virtuale immersiva e nelle esperienze di narrazione di nuova generazione.

Stable Flow: livelli essenziali per il ritocco delle immagini senza necessità di apprendimento

Il nostro modello di ricerca Stable Flow consente di modificare le immagini in modo efficace, ad esempio aggiungendo o rimuovendo oggetti senza la necessità di un apprendimento complesso o di un hardware ad alte prestazioni. Questo approccio consente a chiunque di modificare le foto in modo semplice, senza bisogno di competenze tecniche.

Omni-ID: rappresentazione olistica dell'identità progettata per compiti generativi

Il nostro modello di ricerca Omni-ID crea una rappresentazione completa del viso di una persona da varie angolazioni ed espressioni, consentendo di generare AI e AR più realistiche e personalizzate.

PrEditor3D: modifica delle forme 3D rapida e precisa

PrEditor3D è uno strumento sviluppato dai nostri team di ricerca che consente una modifica rapida e precisa dei modelli 3D con un input minimo, semplificando il processo di creazione dei contenuti e facilitando la manipolazione e la regolazione delle forme 3D. Dal punto di vista applicativo, PrEditor3D ha la capacità di rendere più semplice per gli animatori e i creator di Lenti il lavoro di dare vita alle loro visioni in modo efficiente, offrendo esperienze AR più ricche e immersive.

Mosaic of Modalities (MM-Graph): un parametro di riferimento completo per l'apprendimento grafico multimodale

MM-Graph introduce il primo parametro di riferimento per l'apprendimento grafico multimodale, che incorpora dati visivi e testuali per colmare la significativa mancanza di informazioni negli attuali parametri. Ciò consente una valutazione più completa dei modelli e favorisce l'innovazione dei sistemi di apprendimento grafico che possono comprendere input più ricchi e reali.

Video Alchemist

Con un messaggio di testo e una serie di immagini di riferimento, Video Alchemist consente di generare video senza bisogno di grandi modifiche od ottimizzazioni. Da un punto di vista applicativo, questo semplificherà la personalizzazione dei video con aspetti e sfondi personalizzati, facendo risparmiare tempo e aumentando la creatività.

Mind the Time: generazione di video multi-evento con controllo del tempo

Mind the Time introduce un controllo del tempo preciso nei video generati dall'AI. Consente ai creator di stabilire la sequenza e la tempistica degli eventi. Permette di creare un racconto più strutturato e coerente durante la creazione di video.

Video Motion Transfer con trasformatori di diffusione

Video Motion Transfer è un metodo per trasferire movimenti realistici da un video a un altro utilizzando un modello di ricerca sulla diffusione. Da un punto di vista applicativo, questo modello può consentire di creare facilmente video con movimenti realistici trasferendo i movimenti da un video di riferimento, senza la necessità di configurazioni complesse.

Wonderland: navigazione nelle scene 3D da una singola immagine

Wonderland crea scene 3D dettagliate partendo da una sola foto, semplificando la creazione di scene 3D e consentendo una progettazione più rapida ed efficiente senza la necessità di angolazioni multiple o di risorse eccessive.

AC3D: analisi e miglioramento del controllo della fotocamera 3D nei trasformatori di diffusione video

AC3D migliora il controllo della fotocamera nei modelli di generazione video, consentendo movimenti più fluidi e realistici. Ciò offre ai creator una maggiore flessibilità per quanto riguarda i movimenti della fotocamera nei video e migliora la qualità e il realismo delle scene generate.

*Tutti i modelli e le attività descritte qui sono da considerare solo a scopo di ricerca. 

Questo post continuerà ad essere aggiornato.

Torna alle Notizie