
Snap रिसर्च 2025
कॉन्फरन्स आणि इव्हेंट्स
Snap रिसर्च टीम AR आणि जनरेटिव्ह AI, शिफारस प्रणाली आणि वैयक्तिकृत क्रिएटिव्ह टूल्समध्ये नवनवीन शोध लावत आहे.
2025 मध्ये, आम्ही आमचे काम अनेक प्रमुख उद्योग परिषदा आणि कार्यक्रमांमध्ये प्रदर्शित करत आहोत.
मागील कार्यक्रम:

SIGGRAPH 2025-- व्हँकुव्हर, कॅनडा 10 ऑगस्ट ते 14 ऑगस्ट
नेस्टेड अटेंशन: संकल्पना वैयक्तिकरणासाठी सिमेंटिक-अवेअर अटेंशन व्हॅल्यूज
नेस्टेड अटेंशन ही एक नवीन पद्धत आहे जी इमेज जनरेशन मॉडेल्समध्ये ओळख जतन करण्यास मदत करते, ज्यामुळे विविध शैली आणि दृश्यांमध्ये विशिष्ट विषयांची अधिक सुसंगत आणि अचूक चित्रे तयार होतात. सिमेंटिक-अवेअर अटेंशन स्ट्रक्चर सादर करून, मॉडेल विविध शैली आणि दृश्यांमध्ये ओळख अधिक चांगल्या प्रकारे जतन करते. यामुळे वैयक्तिकृत प्रतिमा तयार करणे शक्य होते, अगदी एखाद्या व्यक्तीला आणि त्यांच्या पाळीव प्राण्यासारख्या भिन्न विषयांना एका चित्रात एकत्र करणे शक्य होते.
इन्स्टंटरिस्टोअर: शेअर्ड-इमेज अटेंशनसह सिंगल-स्टेप पर्सनलाइज्ड फेस रिस्टोरेशन
हा पेपर इन्स्टंटरिस्टोअर सादर करतो, जो डिफ्यूजन मॉडेलद्वारे एकाच फॉरवर्ड पासचा वापर करून खराब झालेल्या चेहऱ्याच्या प्रतिमा पुनर्संचयित करण्याची एक पद्धत आहे. पोर्ट्रेट फोटो सुधारण्यासाठी कार्यक्षम ओळख-जागरूक पुनर्संचयित करण्यास समर्थन देऊन, ओळख-विशिष्ट वैशिष्ट्ये टिकवून ठेवण्याचे याचे उद्दिष्ट आहे.
एकाच व्हिडिओमधून डायनॅमिक संकल्पनांचे वैयक्तिकरण
सेट-अँड-सिक्वेन्स हे व्हिडिओ जनरेशन मॉडेल्ससाठी एक नवीन फ्रेमवर्क आहे जे "डायनॅमिक संकल्पना" असलेले व्हिडिओ तयार करण्याचे आव्हान हाताळते - ज्या संस्था केवळ त्यांच्या स्वरूपाद्वारेच नव्हे तर त्यांच्या वेळेनुसार अद्वितीय गती नमुन्यांद्वारे परिभाषित केल्या जातात, जसे की समुद्राच्या लाटा किंवा लुकलुकणारी शेकोटी. सेट-अँड-सिक्वेन्स डायनॅमिक विषय कालांतराने कसे वागतात हे शिकून वास्तववादी व्हिडिओ वैयक्तिकरण सक्षम करते, ज्यामुळे सुसंगत गती, दृश्य रचना आणि क्रॉस-सीन ब्लेंडिंगला अनुमती मिळते.
ड्यूएटजेन: हायरार्किकल मास्क्ड मॉडेलिंगद्वारे संगीतावर आधारित दोन-व्यक्ती नृत्य निर्मिती
ड्यूएटजेन हे थेट संगीतामधून सिंक्रोनाइझ केलेले दोन-व्यक्ती नृत्य हालचाली तयार करण्यासाठी एक फ्रेमवर्क आहे. हे परस्परसंवादी नृत्यदिग्दर्शनाचे मॉडेलिंग करण्याचे आव्हान हाताळते, जसे की नृत्य भागीदारांमधील समन्वित हालचाल आणि शारीरिक संवाद. ही प्रणाली ॲनिमेशन, व्हर्च्युअल अवतार आणि डिजिटल परफॉर्मन्समध्ये अनुप्रयोगांसाठी वास्तववादी युगल नृत्य निर्मिती सक्षम करते.
निर्णायक व्हा: मल्टी-सब्जेक्ट जनरेशनसाठी नॉइज-इंड्यूस्ड लेआउट्स
आमचे बी डिसाइसिव्ह हे काम व्हिज्युअल अयोग्यता किंवा अनपेक्षित ब्लेंडिंगशिवाय जटिल प्रतिमांमध्ये एकापेक्षा जास्त भिन्न विषय अचूकपणे तयार करण्याचे आव्हान हाताळते. बी डिसाइसिव्ह एक लहान न्यूरल नेटवर्क सादर करते जे डिनॉइजिंग दरम्यान नॉइज-इंड्यूस्ड स्थानिक लेआउटचा अंदाज घेते आणि परिष्कृत करते, इमेज निर्मितीच्या सुरुवातीच्या टप्प्यापासून प्रत्येक विषय कोठे दिसला पाहिजे हे मार्गदर्शन करते. हे एकाधिक विशिष्ट विषयांसह अत्यंत तपशीलवार प्रतिमा तयार करण्यास अनुमती देते, त्यांच्यामध्ये स्पष्ट सीमा आणि नैसर्गिक रचना सुनिश्चित करते.

KDD 2025-- टोरोंटो, ओंटारियो, कॅनडा 3 ऑगस्ट ते 7 ऑगस्ट
GiGL: Snapchat वर मोठ्या प्रमाणावर ग्राफ न्यूरल नेटवर्क्स
GiGL ही मोठ्या प्रमाणातील आलेखांवर ग्राफ न्यूरल नेटवर्क्स (GNNs) प्रशिक्षित करण्यासाठी आणि चालवण्यासाठी एक ओपन-सोर्स लायब्ररी आहे, जी लाखो नोड्स आणि अब्जावधी कडांना समर्थन देते. GIGL चा वापर Snap मध्ये वापरकर्ता वाढ, सामग्री रँकिंग आणि जाहिरातींसह प्रमुख मशीन लर्निंग ऍप्लिकेशन्समध्ये केला जातो.
कोलॅबोरेटिव्ह फिल्टरिंगमध्ये वेट डिकेच्या भूमिकेवर: एक लोकप्रियतेचा दृष्टीकोन
हा पेपर PRISM (एम्बेडिंग मॅग्निट्यूड्ससाठी पॉप्युलॅरिटी-अवेअर इनिशिएलायझेशन स्ट्रॅटेजी) सादर करतो. PRISM एम्बेडिंग वेट डिकेचा वापर काढून टाकते, जे शिफारस मॉडेल प्रशिक्षणातील एक सामान्य परंतु महागडे तंत्र आहे, आणि त्याऐवजी प्रशिक्षणाच्या सुरुवातीला एकाच हलक्या गणनेने ते बदलते. PRISM जलद, लागू करण्यास सोपे आहे, ज्यामुळे अधिक कार्यक्षम शिफारस प्रणाली तयार होतात.
क्रॉस-डोमेन सिक्वेन्शियल शिफारसीसाठी सेल्फ-अटेंशनचा पुनर्विचार
हे काम AutoCDSR सादर करते, ही एक पद्धत आहे जी अशा प्रणाली वेगवेगळ्या परस्परसंवाद डोमेनवर वापरकर्त्याच्या वर्तनाचा अंदाज कसा लावतात हे सुधारण्यासाठी आहे, गोंगाटयुक्त किंवा अप्रासंगिक सिग्नल कमी करताना प्रभावी ज्ञान सामायिक करण्यास प्रोत्साहन देऊन. AutoCDSR शिफारस सेटिंग्जमध्ये वैयक्तिकरणाची अचूकता आणि मजबुती सुधारते.

SnapGen: मोबाइल उपकरणांसाठी उच्च-रिझोल्यूशन टेक्स्ट-टू-इमेज मॉडेल्सवर नियंत्रण कार्यक्षम आर्किटेक्चर्स आणि प्रशिक्षणासह मोबाइल उपकरणांसाठी Snap AI T2I मॉडेल
SnapGen हे एक उच्च-कार्यक्षमता असलेले टेक्स्ट-टू-इमेज संशोधन मॉडेल आहे जे थेट मोबाइल उपकरणांवर चालवण्यासाठी डिझाइन केलेले आहे, जे दोन सेकंदांपेक्षा कमी वेळेत उच्च-गुणवत्तेच्या प्रतिमा तयार करते. यात ऑन-डिव्हाइस इमेज जनरेशनसाठी आवश्यक असलेले संगणन आणि मेमरी मोठ्या प्रमाणात कमी करण्याची क्षमता आहे.
SnapGen-V: मोबाइल डिव्हाइसवर पाच सेकंदात पाच सेकंदांचा व्हिडिओ तयार करणे
SnapGen-V आमच्या SnapGen मॉडेलचा विस्तार करते आणि फक्त पाच सेकंदात थेट मोबाइल उपकरणांवर पाच-सेकंदांचे व्हिडिओ तयार करते. हे आमच्या टेक्स्ट-टू-इमेज मॉडेलिंगमधील प्रगतीवर आधारित, जलद, ऑन-डिव्हाइस व्हिडिओ निर्मिती आवाक्यात आणते.
4Real-Video: सामान्यीकरण करण्यायोग्य फोटो-रिअलिस्टिक 4D व्हिडिओ डिफ्यूजन
4Real-Video संशोधन मॉडेल समृद्ध तपशील आणि नैसर्गिक गतीसह वास्तववादी 4D व्हिडिओ तयार करते, जे अनेक कोनातून पाहण्यायोग्य आहेत. या तंत्रज्ञानामध्ये इमर्सिव्ह VR आणि नेक्स्ट-जनरेशन स्टोरीटेलिंग अनुभवांमध्ये संभाव्य अनुप्रयोग आहेत.
स्टेबल फ्लो: ट्रेनिंग-फ्री इमेज एडिटिंगसाठी महत्त्वाचे लेअर्स
आमचे स्टेबल फ्लो रिसर्च मॉडेल शक्तिशाली इमेज एडिटिंग सक्षम करते, जसे की जटिल प्रशिक्षण किंवा हाय-एंड हार्डवेअरची आवश्यकता न ठेवता वस्तू जोडणे किंवा काढणे. हा दृष्टिकोन कोणालाही सहजतेने फोटो संपादित करण्यास अनुमती देतो, कोणत्याही तांत्रिक कौशल्याची आवश्यकता नाही.
ओम्नी-आयडी: जनरेटिव्ह कार्यांसाठी डिझाइन केलेले समग्र ओळख प्रतिनिधित्व
आमचे Omni-ID संशोधन मॉडेल विविध कोन आणि हावभावांमधून व्यक्तीच्या चेहऱ्याचे सर्वसमावेशक प्रतिनिधित्व तयार करते, ज्यामुळे अधिक वास्तववादी आणि वैयक्तिकृत AI आणि AR निर्मिती शक्य होते.
PrEditor3D: जलद आणि अचूक 3D आकार संपादन
PrEditor3D हे आमच्या संशोधन संघांनी विकसित केलेले एक साधन आहे जे किमान इनपुटसह 3D मॉडेल्सचे जलद आणि अचूक संपादन करण्यास अनुमती देते, 3D आकार कसे हाताळले जातात आणि समायोजित केले जातात हे सोपे करून 3D सामग्री निर्मितीची प्रक्रिया सुव्यवस्थित करते. अनुप्रयोगात, PrEditor3D मध्ये ॲनिमेटर आणि लेन्स निर्मात्यांना त्यांची दृष्टी कार्यक्षमतेने जिवंत करणे सोपे करण्याची क्षमता आहे, ज्यामुळे अधिक समृद्ध आणि अधिक इमर्सिव्ह AR अनुभव मिळतात.
मोडॅलिटीजचे मोज़ेक: मल्टीमॉडल ग्राफ लर्निंगसाठी एक व्यापक बेंचमार्क
MM-Graph मल्टी-मॉडल ग्राफ लर्निंगसाठी पहिला बेंचमार्क सादर करतो, ज्यामध्ये सध्याच्या बेंचमार्कमधील व्हिज्युअल माहितीची लक्षणीय तफावत दूर करण्यासाठी व्हिज्युअल आणि मजकूर दोन्ही डेटा समाविष्ट आहे. हे अधिक व्यापक मॉडेल मूल्यांकनास अनुमती देते आणि ग्राफ लर्निंग सिस्टममध्ये नवकल्पना चालवते जे अधिक समृद्ध, वास्तविक-जागतिक इनपुट समजू शकतात.
टेक्स्ट प्रॉम्प्ट आणि संदर्भ प्रतिमांच्या सेटसह, व्हिडिओ अल्केमिस्ट व्यापक ट्यूनिंग किंवा ऑप्टिमायझेशनशिवाय व्हिडिओ तयार करण्याची क्षमता सक्षम करते. अनुप्रयोगात हे सानुकूल स्वरूप आणि पार्श्वभूमीसह व्हिडिओ वैयक्तिकरण सुव्यवस्थित करेल, सर्जनशीलता वाढवताना वेळ वाचवेल.
वेळेचे भान ठेवा: तात्पुरते-नियंत्रित मल्टी-इव्हेंट व्हिडिओ निर्मिती
माइंड द टाइम AI-जनरेटेड व्हिडिओंमध्ये अचूक तात्पुरते नियंत्रण आणते. हे निर्मात्यांना घटनांचा क्रम आणि वेळ ठरवण्याची परवानगी देईल. हे व्हिडिओ निर्मितीमध्ये अधिक संरचित, सुसंगत कथाकथन सक्षम करते.
डिफ्यूजन ट्रान्सफॉर्मर्ससह व्हिडिओ मोशन ट्रान्सफर
व्हिडिओ मोशन ट्रान्सफर ही डिफ्यूजन रिसर्च मॉडेल वापरून एका व्हिडिओमधून दुसऱ्या व्हिडिओमध्ये वास्तववादी गती हस्तांतरित करण्याची एक पद्धत आहे. अनुप्रयोगात हे मॉडेल जटिल सेटअपची आवश्यकता न ठेवता संदर्भ व्हिडिओंमधून गती हस्तांतरित करून सहजपणे वास्तववादी हालचालींसह व्हिडिओ तयार करू शकते.
वंडरलँड: एकाच प्रतिमेतून 3D दृश्यांमध्ये नेव्हिगेट करणे
वंडरलँड फक्त एका फोटोमधून तपशीलवार 3D दृश्ये तयार करते, 3D दृश्ये तयार करणे सोपे करते आणि अनेक कोन किंवा विस्तृत संसाधनांची आवश्यकता न ठेवता जलद आणि अधिक कार्यक्षम डिझाइनला अनुमती देते.
AC3D: व्हिडिओ डिफ्यूजन ट्रान्सफॉर्मर्समध्ये 3D कॅमेरा नियंत्रणाचे विश्लेषण आणि सुधारणा
AC3D व्हिडिओ जनरेशन मॉडेल्समध्ये कॅमेरा नियंत्रण सुधारते, ज्यामुळे नितळ, अधिक वास्तववादी हालचाल शक्य होते. हे निर्मात्यांना व्हिडिओंमधील कॅमेरा हालचालींवर अधिक लवचिकता देते आणि व्युत्पन्न दृश्यांची गुणवत्ता आणि वास्तविकता सुधारते.
*येथे वर्णन केलेले सर्व मॉडेल आणि काम केवळ संशोधनाच्या उद्देशाने आहे.
ही पोस्ट अपडेट होत राहील.
संपर्कात रहा
प्रेस विनंत्यांसाठी, ईमेल कराpress@snap.com.
इतर सर्व चौकशीसाठी, कृपया आमच्यासपोर्ट साइटला भेट द्या.