Agosto 10, 2025

Snap Research 2025

Mga Kumperensya at Event

Nangunguna ang team ng Snap Research sa inobasyon sa AR at generative AI, mga sistema ng rekomendasyon, at mga personalized na creative tool.

Sa 2025, ipapakita namin ang aming gawa sa ilang nangungunang kumperensya at event sa industriya.

Mga Nakaraang Event:

SIGGRAPH 2025 -- Vancouver, Canada mula Agosto 10 - Agosto 14

Nested Attention: Semantic-aware Attention Values for Concept Personalization

Ang Nested Attention ay isang bagong paraan na tumutulong na pahusayin ang pagpapanatili ng pagkakakilanlan sa mga modelo ng pagbuo ng imahe, na lumilikha ng mas pare-pareho at tumpak na mga larawan ng mga partikular na subject sa iba't ibang istilo at eksena. Sa pamamagitan ng pagpapakilala ng isang semantic-aware attention structure, mas napapanatili ng modelo ang pagkakakilanlan sa iba't ibang istilo at eksena. Ginagawa nitong posible na lumikha ng mga personalized na imahe, kahit na pinagsasama ang iba't ibang subject – tulad ng isang tao at ang kanilang alagang hayop – sa isang larawan.

InstantRestore: Single-Step Personalized Face Restoration with Shared-Image Attention

Ipinapakilala ng papel na ito ang InstantRestore, isang paraan para sa pag-restore ng mga nasirang imahe ng mukha gamit ang isang single forward pass sa isang diffusion model. Layunin nitong panatilihin ang mga feature na partikular sa pagkakakilanlan, na sumusuporta sa mahusay na identity-aware na pag-restore para sa pagpapahusay ng portrait na larawan.

Dynamic concepts personalization from single videos

Ang Set-and-Sequence ay isang bagong framework para sa mga modelo ng pagbuo ng video na tumutugon sa hamon ng pagbuo ng mga video na may “mga dynamic na konsepto” – mga entity na tinukoy hindi lamang sa kanilang hitsura kundi pati na rin sa kanilang mga natatanging pattern ng paggalaw sa paglipas ng panahon, tulad ng mga alon sa karagatan o isang kumikislap na siga. Ang Set-and-Sequence ay nagbibigay-daan sa makatotohanang pag-personalize ng video sa pamamagitan ng pag-aaral kung paano kumikilos ang mga dynamic na subject sa paglipas ng panahon, na nagbibigay-daan para sa pare-parehong paggalaw, komposisyon ng eksena, at cross-scene blending.

DuetGen: Music Driven Two-Person Dance Generation via Hierarchical Masked Modeling

Ang DuetGen ay isang framework para sa pagbuo ng mga naka-synchronize na galaw ng sayaw ng dalawang tao nang direkta mula sa musika. Tinutugunan nito ang hamon ng pag-model ng interactive na choreography, tulad ng coordinated na paggalaw at pisikal na interaksyon sa pagitan ng mga kasayaw. Ang system ay nagbibigay-daan sa makatotohanang pagbuo ng duet na sayaw para sa mga application sa animation, mga virtual avatar, at digital na pagganap.

Be Decisive: Noise-Induced Layouts for Multi-Subject Generation

Tinutugunan ng aming gawang Be Decisive ang hamon ng tumpak na pagbuo ng maraming natatanging subject sa mga kumplikadong imahe nang walang mga visual na kamalian o hindi sinasadyang paghahalo. Ipinapakilala ng Be Decisive ang isang maliit na neural network na humuhula at nagpipino ng isang noise-induced na spatial na layout sa panahon ng denoising, na gumagabay kung saan dapat lumitaw ang bawat subject mula sa pinakamaagang yugto ng pagbuo ng imahe. Nagbibigay-daan ito para sa paglikha ng mga napakadetalyadong imahe na may maraming partikular na subject, na tinitiyak ang malinaw na mga hangganan at natural na komposisyon sa pagitan nila.

KDD 2025 -- Toronto, Ontario, Canada mula Agosto 3 - Agosto 7

GiGL: Large-Scale Graph Neural Networks at Snapchat

Ang GiGL ay isang open-source na library para sa pagsasanay at pagpapatakbo ng Graph Neural Networks (GNNs) sa mga malakihang graph, na sumusuporta sa daan-daang milyong node at bilyun-bilyong edge. Ginagamit ang GIGL sa Snap sa mga pangunahing application ng machine learning, kabilang ang paglago ng user, pag-rank ng content, at advertising.

On the Role of Weight Decay in Collaborative Filtering: A Popularity Perspective

Ipinapakilala ng papel na ito ang PRISM (Popularity-awaRe Initialization Strategy for embedding Magnitudes). Tinatanggal ng PRISM ang paggamit ng embedding weight decay, isang karaniwan ngunit magastos na technique sa pagsasanay ng modelo ng rekomendasyon, at sa halip ay pinapalitan ito ng isang magaan na computation sa simula ng pagsasanay. Ang PRISM ay mabilis, simpleng i-apply, na humahantong sa mas mahusay na mga sistema ng rekomendasyon.

Revisiting Self-Attention for Cross-Domain Sequential Recommendation

Ipinapakilala ng gawang ito ang AutoCDSR, isang paraan para sa pagpapabuti kung paano hinuhulaan ng mga naturang system ang mga gawi ng user sa iba't ibang domain ng interaksyon, sa pamamagitan ng pag-promote ng epektibong pagbabahagi ng kaalaman habang pinapagaan ang maingay o hindi kaugnay na mga signal. Pinapabuti ng AutoCDSR ang katumpakan at katatagan ng pag-personalize sa mga setting ng rekomendasyon.

SnapGen: Taming High-Resolution Text-to-Image Models for Mobile Devices with Efficient Architectures and Training Snap AI T2I Model para sa mga Mobile Device

Ang SnapGen ay isang high-performance na text-to-image na modelo ng pananaliksik na idinisenyo upang direktang tumakbo sa mga mobile device, na bumubuo ng mga de-kalidad na imahe sa loob ng wala pang dalawang segundo. May potensyal itong lubos na bawasan ang compute at memory na kailangan para sa on-device na pagbuo ng imahe.

SnapGen-V: Generating a Five-Second Video within Five Seconds on a Mobile Device

Pinapalawak ng SnapGen-V ang aming modelo ng SnapGen upang makabuo ng limang segundong video nang direkta sa mga mobile device sa loob lamang ng limang segundo. Inilalapit nito ang mabilis, on-device na pagbuo ng video, na binuo sa aming mga pagsulong sa text-to-image modeling.

4Real-Video: Learning Generalizable Photo-Realistic 4D Video Diffusion

Ang 4Real-Video research model ay bumubuo ng mga makatotohanang 4D na video na mayaman sa detalye at natural na paggalaw, na maaaring tingnan mula sa maraming anggulo. Ang teknolohiyang ito ay may mga potensyal na application sa immersive VR at mga susunod na henerasyong karanasan sa pagkukuwento.

Stable Flow: Vital Layers for Training-Free Image Editing

Ang aming Stable Flow research model ay nagbibigay-daan sa malakas na pag-edit ng imahe, tulad ng pagdaragdag o pag-alis ng mga bagay nang hindi nangangailangan ng kumplikadong pagsasanay o high-end na hardware. Ang paraang ito ay nagbibigay-daan sa sinuman na mag-edit ng mga larawan nang madali, walang kinakailangang teknikal na kadalubhasaan.

Omni-ID: Holistic Identity Representation Designed for Generative Tasks

Ang aming Omni-ID research model ay bumubuo ng isang komprehensibong representasyon ng mukha ng isang tao sa iba't ibang anggulo at ekspresyon, na nagbibigay-daan sa mas makatotohanan at personalized na mga henerasyon ng AI at AR.

PrEditor3D: Fast and Precise 3D Shape Editing

Ang PrEditor3D ay isang tool na binuo ng aming mga research team na nagbibigay-daan para sa mabilis at tumpak na pag-edit ng mga 3D na modelo na may kaunting input, na nagpapadali sa proseso ng paglikha ng 3D na content sa pamamagitan ng pagpapasimple kung paano minamanipula at inaayos ang mga 3D na hugis. Sa application, ang PrEditor3D ay may potensyal na gawing mas madali para sa mga animator at Lens creator na bigyang-buhay ang kanilang mga pananaw nang mahusay, na humahantong sa mas mayaman at mas nakaka-engganyong mga karanasan sa AR.

Mosaic of Modalities: A Comprehensive Benchmark for Multimodal Graph Learning

Ipinapakilala ng MM-Graph ang unang benchmark para sa multi-modal graph learning, na nagsasama ng parehong visual at textual na data upang matugunan ang malaking kakulangan ng visual na impormasyon sa mga kasalukuyang benchmark. Nagbibigay-daan ito para sa mas komprehensibong pagsusuri ng modelo at nagtutulak ng inobasyon sa mga graph learning system na nakakaunawa ng mas mayaman, real-world na mga input.

Video Alchemist

Sa isang text prompt at isang set ng mga reference na imahe, binibigyang-daan ng Video Alchemist ang kakayahang bumuo ng mga video nang walang malawak na pag-tune o pag-optimize. Sa application, papadaliin nito ang pag-personalize ng video gamit ang mga custom na hitsura at background, na nakakatipid ng oras habang pinapahusay ang pagkamalikhain.

Mind the Time: Temporally-Controlled Multi-Event Video Generation

Ipinapakilala ng Mind the Time ang tumpak na temporal na kontrol sa mga video na binuo ng AI. Papayagan nito ang mga creator na idikta ang pagkakasunud-sunod at timing ng mga event. Nagbibigay-daan ito sa mas nakabalangkas, magkakaugnay na pagkukuwento sa pagbuo ng video.

Video Motion Transfer with Diffusion Transformers

Ang Video Motion Transfer ay isang paraan para sa paglilipat ng makatotohanang paggalaw mula sa isang video patungo sa isa pa gamit ang isang diffusion research model. Sa application, madaling makakalikha ang modelong ito ng mga video na may makatotohanang paggalaw sa pamamagitan ng paglilipat ng galaw mula sa mga reference na video, nang hindi nangangailangan ng mga kumplikadong setup.

Wonderland: Navigating 3D Scenes from a Single Image

Ang Wonderland ay lumilikha ng mga detalyadong 3D na eksena mula sa isang larawan lamang, na nagpapasimple sa paglikha ng mga 3D na eksena, at nagbibigay-daan para sa mas mabilis at mas mahusay na disenyo nang hindi nangangailangan ng maraming anggulo o malawak na mapagkukunan.

AC3D: Analyzing and Improving 3D Camera Control in Video Diffusion Transformers

Pinapabuti ng AC3D ang kontrol ng camera sa loob ng mga modelo ng pagbuo ng video, na nagbibigay-daan sa mas makinis, mas makatotohanang paggalaw. Nagbibigay ito sa mga creator ng higit na kakayahang umangkop sa mga paggalaw ng camera sa mga video, at pinapabuti ang kalidad at pagiging totoo ng mga nabuong eksena.

*Lahat ng mga modelo at gawang nakabalangkas dito ay para sa mga layunin ng pananaliksik lamang.

Patuloy na ia-update ang post na ito.

Bumalik sa Mga Balita

Makipag-ugnayan

Para sa mga press request, mag-email sa press@snap.com.
Para sa lahat ng iba pang katanungan, pakibisita ang aming Support site.