
Snap al CVPR
Come la ricerca di Snap è pronta a plasmare il futuro della tecnologia digitale creativa
Quest'anno presenteremo 12 lavori al CVPR 2025, la principale conferenza sull'innovazione dell'AI e della visione artificiale che si terrà a Nashville, nel Tennessee, da oggi fino al 15 giugno.
Il 77% dei lavori presentati dalla ricerca di Snap è stato accettato, superando del 22% la media di settore, a testimonianza della capacità innovativa del nostro team.
Snap presenterà una serie di temi, tra cui due dei nostri lavori: SnapGen e 4Real-Video, che il CVPR ha classificato tra il 3% dei lavori migliori presentati.
Per un riepilogo completo e per il programma, vedere di seguito.
1. SnapGen: modelli di conversione da testo a immagine ad alta risoluzione per dispositivi mobili con architetture e sistemi di apprendimento efficienti
Modello Snap IA T2I per dispositivi mobili
SnapGen è un modello di ricerca per la conversione da testo a immagine ad alte prestazioni progettato per essere utilizzato direttamente sui dispositivi mobili e per generare immagini di alta qualità in meno di due secondi. Ha il potenziale per ridurre drasticamente il tempo di calcolo e la memoria necessari per generare le immagini sul dispositivo.

2. SnapGen-V: generazione di un video da cinque secondi in cinque secondi su un dispositivo mobile
SnapGen-V estende il modello SnapGen alla creazione di video da cinque secondi direttamente sui dispositivi mobili in soli cinque secondi. Questo modello consente di generare video in modo rapido e su qualsiasi dispositivo, sfruttando i nostri progressi nel campo della conversione da testo a immagine.

3. 4Real-Video: diffusione di video 4D fotorealistici generalizzabili per l'apprendimento
Il modello di ricerca 4Real-Video genera video 4D realistici con movimenti e dettagli naturali, visualizzabili da più angolazioni. Questa tecnologia ha potenziali applicazioni nella realtà virtuale immersiva e nelle esperienze di narrazione di nuova generazione.

4. Stable Flow: livelli essenziali per il ritocco delle immagini senza necessità di apprendimento
Il nostro modello di ricerca Stable Flow consente di modificare le immagini in modo efficace, ad esempio aggiungendo o rimuovendo oggetti senza la necessità di un apprendimento complesso o di un hardware ad alte prestazioni. Questo approccio consente a chiunque di modificare le foto in modo semplice, senza bisogno di competenze tecniche.

5. Omni-ID: rappresentazione olistica dell'identità progettata per compiti generativi
Il nostro modello di ricerca Omni-ID crea una rappresentazione completa del viso di una persona da varie angolazioni ed espressioni, consentendo di generare AI e AR più realistiche e personalizzate.

6. PrEditor3D: modifica delle forme 3D rapida e precisa
PrEditor3D è uno strumento sviluppato dai nostri team di ricerca che consente una modifica rapida e precisa dei modelli 3D con un input minimo, semplificando il processo di creazione dei contenuti e facilitando la manipolazione e la regolazione delle forme 3D. Dal punto di vista applicativo, PrEditor3D ha la capacità di rendere più semplice per gli animatori e i creator di Lenti il lavoro di dare vita alle loro visioni in modo efficiente, offrendo esperienze AR più ricche e immersive.

MM-Graph introduce il primo parametro di riferimento per l'apprendimento grafico multimodale, che incorpora dati visivi e testuali per colmare la significativa mancanza di informazioni negli attuali parametri. Ciò consente una valutazione più completa dei modelli e favorisce l'innovazione dei sistemi di apprendimento grafico che possono comprendere input più ricchi e reali.

Con un messaggio di testo e una serie di immagini di riferimento, Video Alchemist consente di generare video senza bisogno di grandi modifiche od ottimizzazioni. Da un punto di vista applicativo, questo semplificherà la personalizzazione dei video con aspetti e sfondi personalizzati, facendo risparmiare tempo e aumentando la creatività.

9. Mind the Time: generazione di video multi-evento con controllo del tempo
Mind the Time introduce un controllo del tempo preciso nei video generati dall'AI. Consente ai creator di stabilire la sequenza e la tempistica degli eventi. Permette di creare un racconto più strutturato e coerente durante la creazione di video.

10. Video Motion Transfer con trasformatori di diffusione
Video Motion Transfer è un metodo per trasferire movimenti realistici da un video a un altro utilizzando un modello di ricerca sulla diffusione. Da un punto di vista applicativo, questo modello può consentire di creare facilmente video con movimenti realistici trasferendo i movimenti da un video di riferimento, senza la necessità di configurazioni complesse.

11. Wonderland: navigazione nelle scene 3D da una singola immagine
Wonderland crea scene 3D dettagliate partendo da una sola foto, semplificando la creazione di scene 3D e consentendo una progettazione più rapida ed efficiente senza la necessità di angolazioni multiple o di risorse eccessive.

AC3D migliora il controllo della fotocamera nei modelli di generazione video, consentendo movimenti più fluidi e realistici. Ciò offre ai creator una maggiore flessibilità per quanto riguarda i movimenti della fotocamera nei video e migliora la qualità e il realismo delle scene generate.

Vieni a trovarci al CVPR!
*Tutti i modelli e le attività descritte qui sono da considerare solo a scopo di ricerca.
Entra in contatto
Per richieste stampa invia una mail a press@snap.com.
Per tutte le altre richieste, visita il nostro Sito di assistenza.