
CVPR में Snap
Snap रिसर्च किस तरह क्रिएटिव डिजिटल टेक्नोलॉजी के भविष्य को आकार देने के लिए तैयार है
इस साल, हम CVPR 2025 में 12 पेपर शेयर करेंगे, जो AI और कंप्यूटर विज़न इनोवेशन के लिए प्रीमियर कॉन्फ़्रेंस है, जो नैशविले, टेनेसी में आयोजित किया जा रहा है — आज से 15 जून तक।
Snap रिसर्च के 77% सबमिशन स्वीकार किए गए — हमने इंडस्ट्री के 22% के औसत को पीछे छोड़ दिया — जो हमारी टीम द्वारा किए जा रहे इनोवेटिव वर्क का गवाह है।
Snap कई टॉपिक्स पर प्रज़ेंट करेगा, जिसमें हमारे दो पेपर — SnapGen और 4Real-Video — शामिल हैं, जिन्हें CVPR ने सबमिशन के टॉप 3% में शामिल किया है।
पूरे सारांश और शेड्यूल के लिए नीचे देखें।
1. SnapGen: एफ़िशिएंट आर्किटेक्चर और ट्रेनिंग के साथ मोबाइल डिवाइस के लिए हाई-रिज़ॉल्यूशन टेक्स्ट-टू-इमेज मॉडल को कंट्रोल करना
मोबाइल डिवाइस के लिए Snap AI T2I मॉडल
SnapGen एक हाई-परफ़ॉर्मेंस टेक्स्ट-टू-इमेज रिसर्च मॉडल है जिसे सीधे मोबाइल डिवाइस पर चलने के लिए डिज़ाइन किया गया है, जो दो सेकंड से भी कम समय में हाई-क्वालिटी इमेज जनरेट करता है। इसमें ऑन-डिवाइस इमेज जनरेशन के लिए ज़रूरी कंप्यूट और मेमोरी को काफ़ी कम करने की क्षमता है।

2. SnapGen-V: मोबाइल डिवाइस पर पांच सेकंड के अंदर पांच-सेकंड का वीडियो जनरेट करना
SnapGen-V हमारे SnapGen मॉडल को सिर्फ़ पांच सेकंड के वीडियो सीधे मोबाइल डिवाइस पर जनरेट करने के लिए एक्सटेंड करता है। यह तेज़, ऑन-डिवाइस वीडियो जनरेशन को रीच में लाता है, जो टेक्स्ट-टू-इमेज मॉडलिंग में हमारी प्रगति पर आधारित है।

3. 4Real-Video: जनरलाइज़ किए जा सकने वाले फ़ोटो-रियलिस्टिक 4D वीडियो डिफ्यूज़ करना सीखना
4Real-Video रिसर्च मॉडल रिच डिटेल और नेचुरल मोशन के साथ रियलिस्टिक 4D वीडियो जनरेट करता है जिन्हें कई ऐंगल से देखा जा सकता है। इस टेक्नोलॉजी में इमर्सिव VR और नेक्स्ट-जनरेशन स्टोरीटेलिंग एक्सपीरिएंस से जुड़े संभावित एप्लिकेशन हैं।

4. स्थिर फ़्लो: ट्रेनिंग-फ़्री इमेज एडिटिंग के लिए ज़रूरी लेयर
हमारा स्टेबल फ़्लो रिसर्च मॉडल पावरफ़ुल इमेज एडिटिंग चालू करता है जैसे कि कॉम्प्लेक्स ट्रेनिंग या हाई-एंड हार्डवेयर की ज़रूरत के बिना ऑब्जेक्ट जोड़ना या हटाना। यह ऐप किसी को भी फ़ोटो को आसानी से एडिट करने की सुविधा देता है, इसके लिए किसी तकनीकी विशेषज्ञता की भी ज़रूरत नहीं है।

5. Omni-ID: जनरेटिव टास्क के लिए डिज़ाइन किया गया होलिस्टिक आइडेंटिटी रिप्रेजेंटेशन
हमारा Omni-ID रिसर्च मॉडल अलग-अलग ऐंगल और एक्सप्रेशन में किसी व्यक्ति के चेहरे का कॉम्प्रिहेंसिव रिप्रज़ंटेशन बनाता है, जिससे AI और AR जनरेशन ज़्यादा रियलिस्टिक और पर्सनलाइज़्ड हो जाते हैं।

6. PrEditor3D: तेज़ और सटीक 3D शेप एडिटिंग
PrEditor3D हमारी रिसर्च टीमों द्वारा विकसित किया गया एक टूल है जो न्यूनतम इनपुट के साथ 3D मॉडल्स को तेज़ और सटीक एडिटिंग की सुविधा देता है, साथ ही 3D कॉन्टेंट क्रिएशन की प्रोसेस को भी आसान बनाता है, ताकि 3D शेप्स में हेरफेर करने और एडजस्ट करने का तरीका भी आसान हो जाए। ऐप्लिकेशन में PrEditor3D में एनिमेटर्स और Lens क्रिएटर्स के लिए अपने विज़न को कुशलता से जीवंत करना आसान हो जाता है, जिससे AR और भी ज़्यादा इमर्सिव हो सकता है।

7. मॉडलिटी का मोज़ेक: मल्टीमोडल ग्राफ़ लर्निंग के लिए एक कॉम्प्रिहेंसिव बेंचमार्क
MM-Graph मल्टी-मोडल ग्राफ़ लर्निंग के लिए पहला बेंचमार्क पेश करता है, जिसमें विज़ुअल और टेक्सचुअल डेटा दोनों शामिल हैं, ताकि मौजूदा बेंचमार्क में विज़ुअल जानकारी के महत्वपूर्ण अंतर को दूर किया जा सके। यह ज़्यादा कॉम्प्रिहेंसिव मॉडल मूल्यांकन की सुविधा देता है और ऐसे ग्राफ़ लर्निंग सिस्टम में इनोवेशन को बढ़ावा देता है जो ज़्यादा बेहतर रियल-वर्ल्ड इनपुट को समझ सकता है।

एक टेक्स्ट प्रॉम्प्ट और रेफ़रेंस इमेज के एक सेट के साथ, वीडियो अल्केमिस्ट की मदद से बिना ज़्यादा ट्यूनिंग या ऑप्टिमाइज़ेशन के वीडियो बनाए जा सकते हैं। ऐप में यह वीडियो पर्सनलाइज़ेशन को कस्टम अपीयरेंस और बैकग्राउंड की मदद से सुव्यवस्थित करेगा जिससे समय की बचत होगी और क्रिएटिविटी भी बढ़ेगी।

9. समय पर ध्यान दें: अस्थायी रूप से नियंत्रित मल्टी-इवेंट वीडियो जनरेशन
समय पर ध्यान दें, AI-जनरेटेड वीडियो में सटीक अस्थायी नियंत्रण की सुविधा देने वाला है. यह क्रिएटर्स को इवेंट के क्रम और समय को तय करने की सुविधा देगा। यह वीडियो जनरेशन में ज़्यादा स्ट्रक्चर्ड, सुसंगत स्टोरीटेलिंग की सुविधा देता है।

10. डिफ्यूज़न ट्रांसफ़ॉर्मर के साथ वीडियो मोशन ट्रांसफ़र
वीडियो मोशन ट्रांसफ़र, डिफ़्यूज़न रिसर्च मॉडल का इस्तेमाल करके रियलिस्टिक मोशन को एक वीडियो से दूसरे वीडियो में ट्रांसफ़र करने का एक तरीका है। ऐप में यह मॉडल आसानी से रियलिस्टिक मूवमेंट वाले वीडियो बना सकता है बिना कॉम्प्लेक्स सेटअप के इस्तेमाल के। इसके लिए, रेफ़रेंस वीडियो से मोशन ट्रांसफ़र किया जाता है।

11. वंडरलैंड: किसी सिंगल इमेज से 3D सीन नेविगेट करना
Wonderland सिर्फ़ एक फ़ोटो से डिटेल्ड 3D सीन बनाता है, जिससे 3D सीन बनाना आसान हो जाता है और बिना कई ऐंगल या ज़्यादा रिसोर्स के, तेज़ और ज़्यादा कुशल डिज़ाइन की सुविधा मिलती है।

12. AC3D: वीडियो डिफ़्यूज़न ट्रांसफ़ॉर्मर में 3D कैमरा कंट्रोल का विश्लेषण करना और बेहतर बनाना
AC3D वीडियो जनरेशन मॉडल के भीतर कैमरा कंट्रोल को बेहतर बनाता है, जिससे ज़्यादा स्मूद और रियलिस्टिक मूवमेंट हो सकता है। यह क्रिएटर्स को वीडियो में कैमरा मूवमेंट पर ज़्यादा फ़्लेक्सिबिलिटी की सुविधा देता है और जनरेटेड सीन की क्वॉलिटी और रियलिज़्म को बेहतर बनाता है।

आइए हमसे CVPR में मिलिए!
*यहाँ दिए गए सभी मॉडल और काम सिर्फ़ रिसर्च के लिए है।
संपर्क में रहें
प्रेस से संबंधित अनुरोधों के लिए, press@snap.com पर ईमेल करें
। अन्य सभी पूछताछ के लिए, कृपया हमारी सहायता साइट पर जाएं।