10 Ogos 2025

Penyelidikan Snap 2025

Persidangan & Acara

Pasukan Penyelidikan Snap menerajui inovasi merentasi AR & AI generatif, sistem pengesyoran dan alatan kreatif yang diperibadikan.

Pada tahun 2025, kami mempamerkan hasil kerja kami di beberapa persidangan & acara industri terkemuka.

Acara Lalu:

SIGGRAPH 2025-- Vancouver, Kanada dari 10 Ogos - 14 Ogos

Nested Attention: Nilai Perhatian Sedar-Semantik untuk Pemperibadian Konsep

Nested Attention ialah kaedah baharu yang membantu meningkatkan pemeliharaan identiti dalam model penjanaan imej, mencipta gambar subjek tertentu yang lebih konsisten dan tepat merentasi gaya dan babak yang berbeza. Dengan memperkenalkan struktur perhatian sedar-semantik, model ini memelihara identiti dengan lebih baik merentasi pelbagai gaya dan babak. Ini membolehkan penciptaan imej yang diperibadikan, malah menggabungkan subjek yang berbeza – seperti seseorang dan haiwan peliharaannya – ke dalam satu gambar.

InstantRestore: Pemulihan Wajah Peribadi Satu Langkah dengan Perhatian Imej-Berkongsi

Kertas kerja ini memperkenalkan InstantRestore, satu kaedah untuk memulihkan imej muka yang terdegradasi menggunakan satu laluan ke hadapan melalui model resapan. Ia bertujuan untuk mengekalkan ciri khusus identiti, menyokong pemulihan sedar identiti yang cekap untuk peningkatan foto potret.

Pemperibadian konsep dinamik daripada video tunggal

Set-and-Sequence ialah rangka kerja baharu untuk model penjanaan video yang menangani cabaran menjana video dengan "konsep dinamik" – entiti yang ditakrifkan bukan sahaja oleh penampilan mereka tetapi juga oleh corak gerakan unik mereka merentasi masa, seperti ombak lautan atau unggun api yang berkelip-kelip. Set-and-Sequence membolehkan pemperibadian video yang realistik dengan mempelajari cara subjek dinamik berkelakuan dari semasa ke semasa, membolehkan gerakan yang konsisten, gubahan babak dan pengadunan silang babak.

DuetGen: Penjanaan Tarian Dua Orang Didorong Muzik melalui Pemodelan Bertopeng Hierarki

DuetGen ialah rangka kerja untuk menjana gerakan tarian dua orang yang disegerakkan secara terus daripada muzik. Ia menangani cabaran pemodelan koreografi interaktif, seperti pergerakan yang diselaraskan dan interaksi fizikal antara pasangan tarian. Sistem ini membolehkan penjanaan tarian duet yang realistik untuk aplikasi dalam animasi, avatar maya dan persembahan digital.

Be Decisive: Reka Letak Dorongan Hingar untuk Penjanaan Berbilang Subjek

Kerja kami Be Decisive menangani cabaran menjana pelbagai subjek yang berbeza dengan tepat dalam imej yang kompleks tanpa ketidaktepatan visual atau pengadunan yang tidak diingini. Be Decisive memperkenalkan rangkaian neural kecil yang meramal dan memperhalusi reka letak spatial yang didorong oleh hingar semasa penyahhingaran, membimbing di mana setiap subjek harus muncul dari peringkat terawal penjanaan imej. Ini membolehkan penciptaan imej yang sangat terperinci dengan pelbagai subjek tertentu, memastikan sempadan yang jelas dan gubahan semula jadi di antara mereka.

KDD 2025-- Toronto, Ontario, Kanada dari 3 Ogos - 7 Ogos

GiGL: Rangkaian Neural Graf Skala Besar di Snapchat

GiGL ialah perpustakaan sumber terbuka untuk melatih dan menjalankan Rangkaian Neural Graf (GNN) pada graf berskala besar, menyokong ratusan juta nod dan berbilion-bilion sisi. GIGL digunakan di Snap merentasi aplikasi pembelajaran mesin utama, termasuk pertumbuhan pengguna, kedudukan kandungan dan pengiklanan.

Mengenai Peranan Pereputan Berat dalam Penapisan Kolaboratif: Perspektif Populariti

Kertas kerja ini memperkenalkan PRISM (Strategi Permulaan Sedar Populariti untuk Magnitud pembenaman). PRISM menghapuskan penggunaan pereputan berat pembenaman, teknik yang biasa tetapi mahal dalam latihan model pengesyoran, dan sebaliknya menggantikannya dengan satu pengiraan ringan pada permulaan latihan. PRISM adalah pantas, mudah untuk digunakan, membawa kepada sistem pengesyoran yang lebih cekap.

Meninjau Semula Perhatian Kendiri untuk Pengesyoran Jujukan Merentas Domain

Kerja ini memperkenalkan AutoCDSR, satu kaedah untuk menambah baik cara sistem sedemikian meramalkan tingkah laku pengguna merentasi domain interaksi yang berbeza, dengan mempromosikan perkongsian pengetahuan yang berkesan sambil mengurangkan isyarat yang hingar atau tidak relevan. AutoCDSR meningkatkan ketepatan dan keteguhan pemperibadian dalam tetapan pengesyoran.

SnapGen: Menjinakkan Model Teks-ke-Imej Resolusi Tinggi untuk Peranti Mudah Alih dengan Seni Bina dan Latihan yang Cekap Model T2I AI Snap untuk Peranti Mudah Alih

SnapGen ialah model penyelidikan teks-ke-imej berprestasi tinggi yang direka untuk dijalankan terus pada peranti mudah alih, menjana imej berkualiti tinggi dalam masa kurang daripada dua saat. Ia berpotensi untuk mengurangkan secara drastik pengiraan dan memori yang diperlukan untuk penjanaan imej pada peranti.

SnapGen-V: Menjana Video Lima Saat dalam Masa Lima Saat pada Peranti Mudah Alih

SnapGen-V melanjutkan model SnapGen kami untuk menjana video lima saat secara terus pada peranti mudah alih dalam masa lima saat sahaja. Ia membawa penjanaan video pada peranti yang pantas dalam jangkauan, berdasarkan kemajuan kami dalam pemodelan teks-ke-imej.

4Real-Video: Pembelajaran Resapan Video 4D Foto-Realisitik yang Boleh Digeneralisasikan

Model penyelidikan 4Real-Video menjana video 4D yang realistik dengan perincian yang kaya dan gerakan semula jadi, boleh dilihat dari pelbagai sudut. Teknologi ini mempunyai aplikasi yang berpotensi dalam VR yang imersif dan pengalaman penceritaan generasi akan datang.

Aliran Stabil: Lapisan Penting untuk Penyuntingan Imej Tanpa Latihan

Model penyelidikan Aliran Stabil kami membolehkan penyuntingan imej yang berkuasa, seperti menambah atau mengalih keluar objek tanpa memerlukan latihan yang kompleks atau perkakasan mewah. Pendekatan ini membolehkan sesiapa sahaja menyunting foto dengan mudah, tanpa memerlukan kepakaran teknikal.

Omni-ID: Perwakilan Identiti Holistik Direka untuk Tugas Generatif

Model penyelidikan Omni-ID kami membina perwakilan komprehensif wajah seseorang merentasi pelbagai sudut dan ekspresi, membolehkan penjanaan AI dan AR yang lebih realistik dan diperibadikan.

PrEditor3D: Penyuntingan Bentuk 3D yang Pantas dan Tepat

PrEditor3D ialah alat yang dibangunkan oleh pasukan penyelidik kami yang membolehkan penyuntingan model 3D yang pantas dan tepat dengan input yang minimum, memperkemas proses penciptaan kandungan 3D dengan memudahkan cara bentuk 3D dimanipulasi dan dilaraskan. Dalam aplikasi, PrEditor3D berpotensi untuk memudahkan animator dan pencipta Lensa untuk menghidupkan visi mereka dengan cekap, membawa kepada pengalaman AR yang lebih kaya dan lebih imersif.

Mozek Modaliti: Penanda Aras Komprehensif untuk Pembelajaran Graf Multimodal

MM-Graph memperkenalkan penanda aras pertama untuk pembelajaran graf berbilang mod, menggabungkan data visual dan teks untuk menangani jurang maklumat visual yang ketara dalam penanda aras semasa. Ini membolehkan penilaian model yang lebih komprehensif dan memacu inovasi dalam sistem pembelajaran graf yang boleh memahami input dunia sebenar yang lebih kaya.

Video Alchemist

Dengan gesaan teks dan satu set imej rujukan, Video Alchemist membolehkan keupayaan untuk menjana video tanpa penalaan atau pengoptimuman yang meluas. Dalam aplikasi, ini akan memperkemas pemperibadian video dengan penampilan dan latar belakang tersuai, menjimatkan masa sambil meningkatkan kreativiti.

Mind the Time: Penjanaan Video Berbilang Acara yang Dikawal Secara Temporal

Mind the Time memperkenalkan kawalan temporal yang tepat ke dalam video yang dijana AI. Ia akan membolehkan pencipta menentukan urutan dan masa acara. Ia membolehkan penceritaan yang lebih berstruktur dan koheren dalam penjanaan video.

Pemindahan Gerakan Video dengan Transformer Resapan

Pemindahan Gerakan Video ialah kaedah untuk memindahkan gerakan realistik dari satu video ke video lain menggunakan model penyelidikan resapan. Dalam aplikasi, model ini boleh mencipta video dengan mudah dengan pergerakan realistik dengan memindahkan gerakan daripada video rujukan, tanpa memerlukan persediaan yang kompleks.

Wonderland: Menavigasi Babak 3D daripada Imej Tunggal

Wonderland mencipta babak 3D terperinci daripada hanya satu foto, memudahkan penciptaan babak 3D, dan membolehkan reka bentuk yang lebih pantas dan lebih cekap tanpa memerlukan pelbagai sudut atau sumber yang luas.

AC3D: Menganalisis dan Memperbaiki Kawalan Kamera 3D dalam Transformer Resapan Video

AC3D menambah baik kawalan kamera dalam model penjanaan video, membolehkan pergerakan yang lebih lancar dan lebih realistik. Ini memberikan pencipta lebih banyak fleksibiliti ke atas pergerakan kamera dalam video, dan meningkatkan kualiti dan realisme babak yang dijana.

*Semua model dan kerja yang digariskan di sini adalah untuk tujuan penyelidikan sahaja.

Catatan ini akan terus dikemas kini.

Kembali ke Berita

Hubungi Kami

Untuk permintaan akhbar, e-mel press@snap.com.
Untuk semua pertanyaan lain, sila lawati laman Sokongan.