10 ઑગસ્ટ, 2025

Snap સંશોધન 2025

કોન્ફરન્સ અને ઇવેન્ટ્સ

Snap સંશોધન ટીમ AR અને જનરેટિવ AI, ભલામણ સિસ્ટમ્સ અને વ્યક્તિગત કરેલા સર્જનાત્મક સાધનોમાં નવીનતાનું નેતૃત્વ કરી રહી છે.

2025 માં, અમે અગ્રણી ઉદ્યોગ કોન્ફરન્સ અને ઇવેન્ટ્સમાં અમારા કાર્યનું પ્રદર્શન કરી રહ્યા છીએ.

ભૂતકાળની ઇવેન્ટ્સ:

SIGGRAPH 2025-- વાનકુવર, કેનેડા 10 ઓગસ્ટથી 14 ઓગસ્ટ સુધી

નેસ્ટેડ એટેન્શન: કોન્સેપ્ટ પર્સનલાઇઝેશન માટે સિમેન્ટિક-અવેર એટેન્શન વેલ્યુઝ

નેસ્ટેડ એટેન્શન એ એક નવી પદ્ધતિ છે જે ઇમેજ જનરેશન મોડેલોમાં ઓળખની જાળવણીને વધારવામાં મદદ કરે છે, જે વિવિધ શૈલીઓ અને દ્રશ્યોમાં ચોક્કસ વિષયોના વધુ સુસંગત અને સચોટ ચિત્રો બનાવે છે. સિમેન્ટિક-અવેર એટેન્શન સ્ટ્રક્ચર રજૂ કરીને, મોડેલ વિવિધ શૈલીઓ અને દ્રશ્યોમાં ઓળખને વધુ સારી રીતે સાચવે છે. આ વ્યક્તિગત કરેલી છબીઓ બનાવવાનું શક્ય બનાવે છે, જેમાં એક વ્યક્તિ અને તેમના પાલતુ જેવા જુદા જુદા વિષયોને એક ચિત્રમાં જોડવામાં આવે છે.

ઇન્સ્ટન્ટરિસ્ટોર: શેર્ડ-ઇમેજ એટેન્શન સાથે સિંગલ-સ્ટેપ પર્સનલાઇઝ્ડ ફેસ રિસ્ટોરેશન

આ પેપર ઇન્સ્ટન્ટરિસ્ટોરનો પરિચય આપે છે, જે ડિફ્યુઝન મોડેલ દ્વારા સિંગલ ફોરવર્ડ પાસનો ઉપયોગ કરીને ક્ષતિગ્રસ્ત ચહેરાની છબીઓને પુનઃસ્થાપિત કરવાની એક પદ્ધતિ છે. તેનો હેતુ ઓળખ-વિશિષ્ટ સુવિધાઓને જાળવી રાખવાનો છે, જે પોટ્રેટ ફોટો એન્હાન્સમેન્ટ માટે કાર્યક્ષમ ઓળખ-જાગૃત પુનઃસ્થાપનને સમર્થન આપે છે.

સિંગલ વીડિયોમાંથી ડાયનેમિક કોન્સેપ્ટનું પર્સનલાઇઝેશન

સેટ-એન્ડ-સિક્વન્સ એ વીડિયો જનરેશન મોડલ્સ માટે એક નવું ફ્રેમવર્ક છે જે “ડાયનેમિક કોન્સેપ્ટ્સ” સાથે વીડિયો જનરેટ કરવાના પડકારને સંબોધે છે – જે ફક્ત તેમના દેખાવ દ્વારા જ નહીં પરંતુ સમય જતાં તેમની અનન્ય ગતિ પેટર્ન દ્વારા પણ વ્યાખ્યાયિત કરવામાં આવે છે, જેમ કે સમુદ્રના મોજા અથવા ઝબકતી બોનફાયર. સેટ-એન્ડ-સિક્વન્સ સમય જતાં ગતિશીલ વિષયો કેવી રીતે વર્તે છે તે શીખીને વાસ્તવિક વીડિયો પર્સનલાઇઝેશનને સક્ષમ કરે છે, જે સુસંગત ગતિ, દ્રશ્ય રચના અને ક્રોસ-સીન બ્લેન્ડિંગ માટે પરવાનગી આપે છે.

ડ્યુએટજેન: હાયરાર્કિકલ માસ્ક્ડ મોડેલિંગ દ્વારા મ્યુઝિક ડ્રાઇવન ટુ-પર્સન ડાન્સ જનરેશન

ડ્યુએટજેન એ સીધા સંગીતમાંથી સિંક્રનાઇઝ્ડ બે-વ્યક્તિના ડાન્સ મોશન જનરેટ કરવા માટેનું એક માળખું છે. તે ઇન્ટરેક્ટિવ કોરિયોગ્રાફીના મોડેલિંગના પડકારને સંબોધે છે, જેમ કે ડાન્સ પાર્ટનર્સ વચ્ચે સંકલિત હલનચલન અને શારીરિક ક્રિયાપ્રતિક્રિયાઓ. આ સિસ્ટમ એનિમેશન, વર્ચ્યુઅલ અવતાર અને ડિજિટલ પર્ફોર્મન્સમાં એપ્લિકેશન માટે વાસ્તવિક ડ્યુએટ ડાન્સ જનરેશનને સક્ષમ કરે છે.

નિર્ણાયક બનો: મલ્ટિ-સબ્જેક્ટ જનરેશન માટે નોઇઝ-ઇન્ડ્યુસ્ડ લેઆઉટ

અમારું કાર્ય બી ડિસિસિવ દ્રશ્ય અચોક્કસતા અથવા અનિચ્છનીય મિશ્રણ વિના જટિલ છબીઓમાં બહુવિધ વિશિષ્ટ વિષયોને ચોક્કસ રીતે ઉત્પન્ન કરવાના પડકારનો સામનો કરે છે. બી ડિસિસિવ એક નાનું ન્યુરલ નેટવર્ક રજૂ કરે છે જે ડિનોઇઝિંગ દરમિયાન નોઇઝ-પ્રેરિત અવકાશી લેઆઉટની આગાહી કરે છે અને તેને સુધારે છે, જે ઇમેજ જનરેશનના પ્રારંભિક તબક્કામાંથી દરેક વિષય ક્યાં દેખાવો જોઈએ તે માર્ગદર્શન આપે છે. આ બહુવિધ વિશિષ્ટ વિષયો સાથે અત્યંત વિગતવાર છબીઓ બનાવવાની મંજૂરી આપે છે, તેમની વચ્ચે સ્પષ્ટ સીમાઓ અને કુદરતી રચનાઓ સુનિશ્ચિત કરે છે.

KDD 2025-- ટોરોન્ટો, ઓન્ટારિયો, કેનેડા 3 ઓગસ્ટથી 7 ઓગસ્ટ સુધી

GiGL: Snapchat પર લાર્જ-સ્કેલ ગ્રાફ ન્યુરલ નેટવર્ક્સ

GiGL એ મોટા પાયે ગ્રાફ પર ગ્રાફ ન્યુરલ નેટવર્ક્સ (GNNs) ને તાલીમ આપવા અને ચલાવવા માટે એક ઓપન-સોર્સ લાઇબ્રેરી છે, જે લાખો નોડ્સ અને અબજો એજને સપોર્ટ કરે છે. GIGL નો ઉપયોગ Snap પર મુખ્ય મશીન લર્નિંગ એપ્લિકેશન્સમાં થાય છે, જેમાં વપરાશકર્તા વૃદ્ધિ, કન્ટેન્ટ રેન્કિંગ અને જાહેરાતનો સમાવેશ થાય છે.

કોલાબોરેટિવ ફિલ્ટરિંગમાં વેઇટ ડિકેની ભૂમિકા પર: લોકપ્રિયતાનો પરિપ્રેક્ષ્ય

આ પેપર PRISM (એમ્બેડિંગ મેગ્નિટ્યુડ માટે લોકપ્રિયતા-જાગૃત પ્રારંભિક વ્યૂહરચના) નો પરિચય આપે છે. PRISM એમ્બેડિંગ વેઇટ ડિકેના ઉપયોગને દૂર કરે છે, જે ભલામણ મોડેલ તાલીમમાં એક સામાન્ય પરંતુ ખર્ચાળ તકનીક છે, અને તેના બદલે તેને તાલીમની શરૂઆતમાં એક જ લાઇટ કમ્પ્યુટેશન સાથે બદલે છે. PRISM ઝડપી, લાગુ કરવા માટે સરળ છે, જે વધુ કાર્યક્ષમ ભલામણ સિસ્ટમ્સ તરફ દોરી જાય છે.

ક્રોસ-ડોમેન સિક્વન્શિયલ ભલામણ માટે સેલ્ફ-એટેન્શનની પુનઃવિચારણા

આ કાર્ય AutoCDSR રજૂ કરે છે, જે ઘોંઘાટવાળા અથવા અપ્રસ્તુત સંકેતોને ઘટાડતી વખતે અસરકારક જ્ઞાનની વહેંચણીને પ્રોત્સાહન આપીને, આવી સિસ્ટમો વિવિધ ક્રિયાપ્રતિક્રિયા ડોમેન્સમાં વપરાશકર્તાના વર્તનની આગાહી કેવી રીતે કરે છે તે સુધારવા માટેની એક પદ્ધતિ છે. AutoCDSR ભલામણ સેટિંગ્સમાં પર્સનલાઇઝેશનની ચોકસાઈ અને મજબૂતાઈમાં સુધારો કરે છે.

SnapGen: મોબાઇલ ઉપકરણો માટે ઉચ્ચ-રીઝોલ્યુશન ટેક્સ્ટ-ટુ-ઇમેજ મોડલ્સને નિયંત્રિત કરવું કાર્યક્ષમ આર્કિટેક્ચર્સ અને તાલીમ સાથે મોબાઇલ ઉપકરણો માટે Snap AI T2I મોડેલ

SnapGen એ ઉચ્ચ-પ્રદર્શન ટેક્સ્ટ-ટુ-ઇમેજ સંશોધન મોડેલ છે જે સીધા મોબાઇલ ઉપકરણો પર ચલાવવા માટે રચાયેલ છે, જે બે સેકન્ડથી ઓછા સમયમાં ઉચ્ચ-ગુણવત્તાવાળી છબીઓ બનાવે છે. તેમાં ઓન-ડિવાઇસ ઇમેજ જનરેશન માટે જરૂરી કમ્પ્યુટ અને મેમરીને ભારે ઘટાડવાની ક્ષમતા છે.

SnapGen-V: મોબાઇલ ઉપકરણ પર પાંચ સેકન્ડમાં પાંચ-સેકન્ડનો વીડિયો જનરેટ કરવો

SnapGen-V અમારા SnapGen મોડેલને ફક્ત પાંચ સેકન્ડમાં મોબાઇલ ઉપકરણો પર સીધા પાંચ-સેકન્ડના વીડિયો જનરેટ કરવા માટે વિસ્તૃત કરે છે. તે ટેક્સ્ટ-ટુ-ઇમેજ મોડેલિંગમાં અમારી પ્રગતિ પર નિર્માણ કરીને, ઝડપી, ઓન-ડિવાઇસ વીડિયો જનરેશનને પહોંચમાં લાવે છે.

4રિયલ-વીડિયો: જનરલાઇઝેબલ ફોટો-રિયાલિસ્ટિક 4D વીડિયો ડિફ્યુઝન શીખવું

4રિયલ-વીડિયો સંશોધન મોડેલ સમૃદ્ધ વિગતો અને કુદરતી ગતિ સાથે વાસ્તવિક 4D વીડિયો બનાવે છે, જે બહુવિધ ખૂણાઓથી જોઈ શકાય છે. આ ટેક્નોલોજીમાં ઇમર્સિવ VR અને નેક્સ્ટ-જનન સ્ટોરીટેલિંગ અનુભવોમાં સંભવિત એપ્લિકેશનો છે.

સ્ટેબલ ફ્લો: ટ્રેનિંગ-ફ્રી ઇમેજ એડિટિંગ માટે મહત્વપૂર્ણ લેયર

અમારું સ્ટેબલ ફ્લો સંશોધન મોડેલ શક્તિશાળી ઇમેજ એડિટિંગને સક્ષમ કરે છે, જેમ કે જટિલ તાલીમ અથવા ઉચ્ચ-અંતના હાર્ડવેરની જરૂર વગર ઑબ્જેક્ટ્સ ઉમેરવા અથવા દૂર કરવા. આ અભિગમ કોઈપણને તકનીકી કુશળતા વિના, સરળતાથી ફોટા સંપાદિત કરવાની મંજૂરી આપે છે.

ઓમ્ની-આઈડી: જનરેટિવ કાર્યો માટે રચાયેલ સર્વગ્રાહી ઓળખ પ્રતિનિધિત્વ

અમારું ઓમ્ની-આઈડી સંશોધન મોડેલ વિવિધ ખૂણાઓ અને અભિવ્યક્તિઓમાં વ્યક્તિના ચહેરાનું વ્યાપક પ્રતિનિધિત્વ બનાવે છે, જે વધુ વાસ્તવિક અને વ્યક્તિગત AI અને AR જનરેશનને સક્ષમ કરે છે.

PrEditor3D: ઝડપી અને ચોક્કસ 3D આકાર સંપાદન

PrEditor3D એ અમારી સંશોધન ટીમો દ્વારા વિકસિત એક સાધન છે જે ન્યૂનતમ ઇનપુટ સાથે 3D મોડેલોના ઝડપી અને ચોક્કસ સંપાદનની મંજૂરી આપે છે, 3D આકારોને કેવી રીતે હેરફેર અને સમાયોજિત કરવામાં આવે છે તે સરળ બનાવીને 3D કન્ટેન્ટ બનાવવાની પ્રક્રિયાને સુવ્યવસ્થિત કરે છે. એપ્લિકેશનમાં, PrEditor3D એનિમેટર્સ અને લેન્સ સર્જકો માટે તેમની દ્રષ્ટિને અસરકારક રીતે જીવંત બનાવવાનું સરળ બનાવવાની ક્ષમતા ધરાવે છે, જે વધુ સમૃદ્ધ અને વધુ ઇમર્સિવ AR અનુભવો તરફ દોરી જાય છે.

મોડાલિટીઝનું મોઝેક: મલ્ટિમોડલ ગ્રાફ લર્નિંગ માટે એક વ્યાપક બેન્ચમાર્ક

MM-ગ્રાફ મલ્ટિ-મોડલ ગ્રાફ લર્નિંગ માટે પ્રથમ બેન્ચમાર્ક રજૂ કરે છે, જેમાં વર્તમાન બેન્ચમાર્કમાં દ્રશ્ય માહિતીના નોંધપાત્ર અંતરને દૂર કરવા માટે દ્રશ્ય અને ટેક્સ્ચ્યુઅલ ડેટા બંનેનો સમાવેશ થાય છે. આ વધુ વ્યાપક મોડેલ મૂલ્યાંકન માટે પરવાનગી આપે છે અને ગ્રાફ લર્નિંગ સિસ્ટમ્સમાં નવીનતાને પ્રોત્સાહન આપે છે જે વધુ સમૃદ્ધ, વાસ્તવિક-વિશ્વના ઇનપુટ્સને સમજી શકે છે.

વીડિયો આલ્કેમિસ્ટ

ટેક્સ્ટ પ્રોમ્પ્ટ અને સંદર્ભ છબીઓના સમૂહ સાથે, વીડિયો આલ્કેમિસ્ટ વ્યાપક ટ્યુનિંગ અથવા ઑપ્ટિમાઇઝેશન વિના વીડિયો જનરેટ કરવાની ક્ષમતાને સક્ષમ કરે છે. એપ્લિકેશનમાં આ સર્જનાત્મકતામાં વધારો કરતી વખતે સમય બચાવવા, કસ્ટમ દેખાવ અને બેકગ્રાઉન્ડ સાથે વીડિયો પર્સનલાઇઝેશનને સુવ્યવસ્થિત કરશે.

સમયનું ધ્યાન રાખો: ટેમ્પોરલી-કંટ્રોલ્ડ મલ્ટિ-ઇવેન્ટ વીડિયો જનરેશન

માઇન્ડ ધ ટાઇમ AI-જનરેટેડ વીડિયોમાં ચોક્કસ ટેમ્પોરલ કંટ્રોલ રજૂ કરે છે. તે સર્જકોને ઘટનાઓના ક્રમ અને સમયને નિર્ધારિત કરવાની મંજૂરી આપશે. તે વીડિયો જનરેશનમાં વધુ સંરચિત, સુસંગત વાર્તા કહેવાને સક્ષમ કરે છે.

ડિફ્યુઝન ટ્રાન્સફોર્મર્સ સાથે વીડિયો મોશન ટ્રાન્સફર

વીડિયો મોશન ટ્રાન્સફર એ ડિફ્યુઝન રિસર્ચ મોડલનો ઉપયોગ કરીને એક વીડિયોમાંથી બીજા વીડિયોમાં વાસ્તવિક ગતિને સ્થાનાંતરિત કરવાની એક પદ્ધતિ છે. એપ્લિકેશનમાં આ મોડેલ જટિલ સેટઅપની જરૂર વગર, સંદર્ભ વીડિયોમાંથી ગતિને સ્થાનાંતરિત કરીને વાસ્તવિક હલનચલન સાથે સરળતાથી વીડિયો બનાવી શકે છે.

વન્ડરલેન્ડ: એક જ છબીમાંથી 3D દ્રશ્યો નેવિગેટ કરવું

વન્ડરલેન્ડ ફક્ત એક ફોટામાંથી વિગતવાર 3D દ્રશ્યો બનાવે છે, 3D દ્રશ્યોની રચનાને સરળ બનાવે છે, અને બહુવિધ ખૂણાઓ અથવા વ્યાપક સંસાધનોની જરૂર વગર ઝડપી અને વધુ કાર્યક્ષમ ડિઝાઇન માટે પરવાનગી આપે છે.

AC3D: વીડિયો ડિફ્યુઝન ટ્રાન્સફોર્મર્સમાં 3D કેમેરા કંટ્રોલનું વિશ્લેષણ અને સુધારણા

AC3D વીડિયો જનરેશન મોડલ્સમાં કેમેરા કંટ્રોલમાં સુધારો કરે છે, જે વધુ સરળ, વધુ વાસ્તવિક હલનચલનને સક્ષમ કરે છે. આ સર્જકોને વીડિયોમાં કેમેરાની હલનચલન પર વધુ સુગમતા આપે છે, અને જનરેટ થયેલા દ્રશ્યોની ગુણવત્તા અને વાસ્તવિકતામાં સુધારો કરે છે.

*અહીં દર્શાવેલ તમામ મોડેલો અને કાર્ય ફક્ત સંશોધન હેતુઓ માટે છે.

આ પોસ્ટ અપડેટ થતી રહેશે.

સમાચાર પર પાછા જાઓ

સંપર્કમાં રહો

પ્રેસ વિનંતીઓ માટે, ઇમેઇલ કરો press@snap.com.
અન્ય તમામ પૂછપરછ માટે, કૃપા કરીને અમારી સપોર્ટ સાઇટની મુલાકાત લો.