10 Agustus 2025

Riset Snap 2025

Konferensi & Acara

Tim Riset Snap memimpin inovasi di seluruh AR & AI generatif, sistem rekomendasi, dan alat kreatif yang dipersonalisasi.

Pada tahun 2025, kami menampilkan karya kami di beberapa konferensi & acara industri terkemuka.

Acara Sebelumnya:

SIGGRAPH 2025-- Vancouver, Kanada dari 10 Agustus - 14 Agustus

Nested Attention: Nilai Perhatian Sadar Semantik untuk Personalisasi Konsep

Nested Attention adalah metode baru yang membantu meningkatkan pelestarian identitas dalam model pembuatan gambar, menciptakan gambar subjek tertentu yang lebih konsisten dan akurat di berbagai gaya dan adegan. Dengan memperkenalkan struktur perhatian sadar semantik, model ini lebih baik dalam mempertahankan identitas di berbagai gaya dan adegan. Hal ini memungkinkan pembuatan gambar yang dipersonalisasi, bahkan menggabungkan subjek yang berbeda – seperti seseorang dan hewan peliharaannya – ke dalam satu gambar.

InstantRestore: Pemulihan Wajah yang Dipersonalisasi dalam Satu Langkah dengan Perhatian Gambar Bersama

Makalah ini memperkenalkan InstantRestore, sebuah metode untuk memulihkan gambar wajah yang rusak menggunakan satu lintasan maju melalui model difusi. Tujuannya adalah untuk mempertahankan fitur spesifik identitas, mendukung pemulihan sadar identitas yang efisien untuk penyempurnaan foto potret.

Personalisasi konsep dinamis dari video tunggal

Set-and-Sequence adalah kerangka kerja baru untuk model pembuatan video yang menjawab tantangan dalam menghasilkan video dengan “konsep dinamis” – entitas yang tidak hanya ditentukan oleh penampilannya tetapi juga oleh pola gerak uniknya dari waktu ke waktu, seperti ombak laut atau api unggun yang berkedip-kedip. Set-and-Sequence memungkinkan personalisasi video yang realistis dengan mempelajari bagaimana subjek dinamis berperilaku dari waktu ke waktu, memungkinkan gerakan yang konsisten, komposisi adegan, dan perpaduan lintas adegan.

DuetGen: Generasi Tarian Dua Orang yang Digerakkan oleh Musik melalui Pemodelan Bertopeng Hierarkis

DuetGen adalah kerangka kerja untuk menghasilkan gerakan tarian dua orang yang tersinkronisasi langsung dari musik. Ini menjawab tantangan pemodelan koreografi interaktif, seperti gerakan terkoordinasi dan interaksi fisik antara pasangan dansa. Sistem ini memungkinkan pembuatan tarian duet yang realistis untuk aplikasi dalam animasi, avatar virtual, dan pertunjukan digital.

Be Decisive: Tata Letak yang Diinduksi oleh Derau untuk Generasi Multi-Subjek

Karya kami, Be Decisive, mengatasi tantangan dalam menghasilkan beberapa subjek berbeda secara akurat dalam gambar yang kompleks tanpa ketidakakuratan visual atau perpaduan yang tidak diinginkan. Be Decisive memperkenalkan jaringan saraf kecil yang memprediksi dan menyempurnakan tata letak spasial yang diinduksi oleh derau selama proses denoising, memandu di mana setiap subjek harus muncul sejak tahap paling awal pembuatan gambar. Hal ini memungkinkan pembuatan gambar yang sangat detail dengan beberapa subjek spesifik, memastikan batas yang jelas dan komposisi alami di antara mereka.

KDD 2025-- Toronto, Ontario, Kanada dari 3 Agustus - 7 Agustus

GiGL: Jaringan Saraf Graf Skala Besar di Snapchat

GiGL adalah pustaka sumber terbuka untuk melatih dan menjalankan Jaringan Saraf Graf (GNN) pada graf skala besar, yang mendukung ratusan juta node dan miliaran edge. GIGL digunakan di Snap di seluruh aplikasi pembelajaran mesin utama, termasuk pertumbuhan pengguna, peringkat konten, dan periklanan.

Tentang Peran Penurunan Bobot dalam Pemfilteran Kolaboratif: Perspektif Popularitas

Makalah ini memperkenalkan PRISM (Strategi Inisialisasi Sadar Popularitas untuk Besaran Penyematan). PRISM menghilangkan penggunaan penurunan bobot penyematan, teknik yang umum tetapi mahal dalam pelatihan model rekomendasi, dan sebagai gantinya menggantinya dengan satu komputasi ringan di awal pelatihan. PRISM cepat, mudah diterapkan, dan menghasilkan sistem rekomendasi yang lebih efisien.

Meninjau Kembali Perhatian Mandiri untuk Rekomendasi Berurutan Lintas Domain

Karya ini memperkenalkan AutoCDSR, sebuah metode untuk meningkatkan cara sistem tersebut memprediksi perilaku pengguna di berbagai domain interaksi, dengan mempromosikan berbagi pengetahuan yang efektif sambil mengurangi sinyal yang bising atau tidak relevan. AutoCDSR meningkatkan akurasi dan ketahanan personalisasi dalam pengaturan rekomendasi.

SnapGen: Menjinakkan Model Teks-ke-Gambar Resolusi Tinggi untuk Perangkat Seluler dengan Arsitektur dan Pelatihan yang Efisien Model T2I AI Snap untuk Perangkat Seluler

SnapGen adalah model riset teks-ke-gambar berkinerja tinggi yang dirancang untuk berjalan langsung di perangkat seluler, menghasilkan gambar berkualitas tinggi dalam waktu kurang dari dua detik. Model ini berpotensi mengurangi secara drastis komputasi dan memori yang diperlukan untuk pembuatan gambar di perangkat.

SnapGen-V: Menghasilkan Video Lima Detik dalam Lima Detik di Perangkat Seluler

SnapGen-V memperluas model SnapGen kami untuk menghasilkan video berdurasi lima detik langsung di perangkat seluler hanya dalam lima detik. Ini membuat pembuatan video di perangkat yang cepat menjadi terjangkau, dengan memanfaatkan kemajuan kami dalam pemodelan teks-ke-gambar.

4Real-Video: Mempelajari Difusi Video 4D Foto-Realistis yang Dapat Digeneralisasi

Model riset 4Real-Video menghasilkan video 4D realistis dengan detail yang kaya dan gerakan alami, yang dapat dilihat dari berbagai sudut. Teknologi ini memiliki potensi aplikasi dalam VR imersif dan pengalaman bercerita generasi berikutnya.

Stable Flow: Layer Penting untuk Pengeditan Gambar Tanpa Pelatihan

Model riset Stable Flow kami memungkinkan pengeditan gambar yang canggih, seperti menambahkan atau menghapus objek tanpa memerlukan pelatihan yang rumit atau perangkat keras kelas atas. Pendekatan ini memungkinkan siapa pun untuk mengedit foto dengan mudah, tanpa memerlukan keahlian teknis.

Omni-ID: Representasi Identitas Holistik yang Dirancang untuk Tugas Generatif

Model riset Omni-ID kami membangun representasi komprehensif dari wajah seseorang di berbagai sudut dan ekspresi, memungkinkan generasi AI dan AR yang lebih realistis dan dipersonalisasi.

PrEditor3D: Pengeditan Bentuk 3D yang Cepat dan Tepat

PrEditor3D adalah alat yang dikembangkan oleh tim riset kami yang memungkinkan pengeditan model 3D yang cepat dan tepat dengan input minimal, menyederhanakan proses pembuatan konten 3D dengan menyederhanakan cara bentuk 3D dimanipulasi dan disesuaikan. Dalam penerapannya, PrEditor3D berpotensi memudahkan para animator dan kreator Lensa untuk mewujudkan visi mereka secara efisien, yang mengarah pada pengalaman AR yang lebih kaya dan lebih imersif.

Mosaik Modalitas: Tolok Ukur Komprehensif untuk Pembelajaran Graf Multimodal

MM-Graph memperkenalkan tolok ukur pertama untuk pembelajaran graf multi-modal, yang menggabungkan data visual dan tekstual untuk mengatasi kesenjangan informasi visual yang signifikan dalam tolok ukur saat ini. Hal ini memungkinkan evaluasi model yang lebih komprehensif dan mendorong inovasi dalam sistem pembelajaran graf yang dapat memahami masukan dunia nyata yang lebih kaya.

Video Alchemist

Dengan perintah teks dan satu set gambar referensi, Video Alchemist memungkinkan kemampuan untuk menghasilkan video tanpa penyetelan atau pengoptimalan yang ekstensif. Dalam penerapannya, ini akan menyederhanakan personalisasi video dengan penampilan dan latar belakang khusus, menghemat waktu sambil meningkatkan kreativitas.

Mind the Time: Generasi Video Multi-Acara yang Dikontrol Secara Temporal

Mind the Time memperkenalkan kontrol temporal yang presisi ke dalam video yang dihasilkan AI. Ini akan memungkinkan para kreator untuk menentukan urutan dan waktu acara. Ini memungkinkan penceritaan yang lebih terstruktur dan koheren dalam pembuatan video.

Transfer Gerak Video dengan Transformer Difusi

Video Motion Transfer adalah metode untuk mentransfer gerakan realistis dari satu video ke video lain menggunakan model riset difusi. Dalam penerapannya, model ini dapat dengan mudah membuat video dengan gerakan realistis dengan mentransfer gerakan dari video referensi, tanpa memerlukan pengaturan yang rumit.

Wonderland: Menavigasi Adegan 3D dari Satu Gambar

Wonderland menciptakan adegan 3D yang detail hanya dari satu foto, menyederhanakan pembuatan adegan 3D, dan memungkinkan desain yang lebih cepat dan lebih efisien tanpa memerlukan banyak sudut atau sumber daya yang besar.

AC3D: Menganalisis dan Meningkatkan Kontrol Kamera 3D dalam Transformer Difusi Video

AC3D meningkatkan kontrol kamera dalam model pembuatan video, memungkinkan gerakan yang lebih halus dan lebih realistis. Ini memberi para kreator lebih banyak fleksibilitas atas gerakan kamera dalam video, dan meningkatkan kualitas dan realisme adegan yang dihasilkan.

*Semua model dan karya yang diuraikan di sini hanya untuk tujuan penelitian.

Postingan ini akan terus diperbarui.

Kembali ke Berita

Hubungi Kami

Untuk permintaan pers, email press@snap.com.
Untuk semua pertanyaan lainnya, silakan kunjungi situs Dukungan.