১০ আগস্ট, ২০২৫

Snap গবেষণা 2025

সম্মেলন ও অনুষ্ঠান

Snap গবেষণা দল AR এবং জেনারেটিভ AI, সুপারিশ সিস্টেম এবং ব্যক্তিগতকৃত সৃজনশীল সরঞ্জাম জুড়ে উদ্ভাবনে নেতৃত্ব দিচ্ছে।

2025 সালে, আমরা বেশ কয়েকটি নেতৃস্থানীয় শিল্প সম্মেলন এবং ইভেন্ট জুড়ে আমাদের কাজ প্রদর্শন করছি।

অতীতের অনুষ্ঠান:

SIGGRAPH 2025-- ভ্যাঙ্কুভার, কানাডা 10ই আগস্ট থেকে 14ই আগস্ট পর্যন্ত

নেস্টেড অ্যাটেনশন: কনসেপ্ট ব্যক্তিগতকরণের জন্য শব্দার্থ-সচেতন অ্যাটেনশন ভ্যালু

নেস্টেড অ্যাটেনশন একটি নতুন পদ্ধতি যা ইমেজ জেনারেশন মডেলগুলিতে পরিচয় সংরক্ষণ বাড়াতে সাহায্য করে, বিভিন্ন শৈলী এবং দৃশ্য জুড়ে নির্দিষ্ট বিষয়গুলির আরও সামঞ্জস্যপূর্ণ এবং নির্ভুল ছবি তৈরি করে। একটি শব্দার্থ-সচেতন মনোযোগ কাঠামো প্রবর্তন করে, মডেলটি বিভিন্ন শৈলী এবং দৃশ্য জুড়ে পরিচয়কে আরও ভালভাবে সংরক্ষণ করে। এটি ব্যক্তিগতকৃত ছবি তৈরি করা সম্ভব করে, এমনকি বিভিন্ন বিষয়কে - যেমন একজন ব্যক্তি এবং তাদের পোষা প্রাণী - একটি ছবিতে একত্রিত করে।

ইনস্ট্যান্টরিস্টোর: শেয়ার্ড-ইমেজ অ্যাটেনশন সহ এক-ধাপে ব্যক্তিগতকৃত মুখ পুনরুদ্ধার

এই পেপারটি ইনস্ট্যান্টরিস্টোর প্রবর্তন করে, একটি ডিফিউশন মডেলের মাধ্যমে একটি একক ফরোয়ার্ড পাস ব্যবহার করে অবক্ষয়িত মুখের ছবি পুনরুদ্ধার করার একটি পদ্ধতি। এর লক্ষ্য হল পরিচয়-নির্দিষ্ট বৈশিষ্ট্যগুলি ধরে রাখা, পোর্ট্রেট ফটো বর্ধনের জন্য দক্ষ পরিচয়-সচেতন পুনরুদ্ধারকে সমর্থন করা।

একক ভিডিও থেকে ডায়নামিক কনসেপ্ট ব্যক্তিগতকরণ

সেট-অ্যান্ড-সিকোয়েন্স হল ভিডিও জেনারেশন মডেলগুলির জন্য একটি নতুন কাঠামো যা "ডাইনামিক কনসেপ্ট" সহ ভিডিও তৈরি করার চ্যালেঞ্জকে মোকাবেলা করে – সত্তাগুলি কেবল তাদের চেহারা দ্বারা সংজ্ঞায়িত নয় বরং সময়ের সাথে সাথে তাদের অনন্য গতির ধরণ দ্বারাও সংজ্ঞায়িত হয়, যেমন সমুদ্রের ঢেউ বা একটি জ্বলন্ত বনফায়ার। সেট-অ্যান্ড-সিকোয়েন্স সময়ের সাথে সাথে গতিশীল বিষয়গুলি কীভাবে আচরণ করে তা শেখার মাধ্যমে বাস্তবসম্মত ভিডিও ব্যক্তিগতকরণ সক্ষম করে, যা সামঞ্জস্যপূর্ণ গতি, দৃশ্যের রচনা এবং ক্রস-সিন মিশ্রণের অনুমতি দেয়।

ডুয়েটজেন: হায়ারার্কিক্যাল মাস্কড মডেলিংয়ের মাধ্যমে সঙ্গীত চালিত দুই-ব্যক্তির নৃত্য তৈরি

ডুয়েটজেন হল সরাসরি সঙ্গীত থেকে সিঙ্ক্রোনাইজড দুই-ব্যক্তির নাচের গতি তৈরির জন্য একটি কাঠামো। এটি ইন্টারেক্টিভ কোরিওগ্রাফি মডেলিংয়ের চ্যালেঞ্জকে মোকাবেলা করে, যেমন সমন্বিত আন্দোলন এবং নৃত্য সঙ্গীদের মধ্যে শারীরিক মিথস্ক্রিয়া। সিস্টেমটি অ্যানিমেশন, ভার্চুয়াল অবতার এবং ডিজিটাল পারফরম্যান্সে অ্যাপ্লিকেশনগুলির জন্য বাস্তবসম্মত ডুয়েট নৃত্য তৈরি করতে সক্ষম করে।

বি ডিসাইসিভ: মাল্টি-সাবজেক্ট জেনারেশনের জন্য নয়েজ-ইনডিউসড লেআউট

আমাদের কাজ বি ডিসাইসিভ ভিজ্যুয়াল ভুল বা অনিচ্ছাকৃত মিশ্রণ ছাড়াই জটিল চিত্রগুলিতে একাধিক স্বতন্ত্র বিষয় সঠিকভাবে তৈরি করার চ্যালেঞ্জ মোকাবেলা করে। বি ডিসাইসিভ একটি ছোট নিউরাল নেটওয়ার্ক প্রবর্তন করে যা ডিনয়েজিংয়ের সময় একটি নয়েজ-ইনডিউসড স্থানিক বিন্যাস ভবিষ্যদ্বাণী করে এবং পরিমার্জন করে, ইমেজ জেনারেশনের প্রাথমিক পর্যায় থেকে প্রতিটি বিষয় কোথায় উপস্থিত হওয়া উচিত তা নির্দেশ করে। এটি একাধিক নির্দিষ্ট বিষয় সহ অত্যন্ত বিশদ চিত্র তৈরি করার অনুমতি দেয়, তাদের মধ্যে স্পষ্ট সীমানা এবং প্রাকৃতিক রচনা নিশ্চিত করে।

KDD 2025-- টরন্টো, অন্টারিও, কানাডা 3রা আগস্ট থেকে 7ই আগস্ট পর্যন্ত

GiGL: Snapchat-এ বড় আকারের গ্রাফ নিউরাল নেটওয়ার্ক

GiGL হল বড় আকারের গ্রাফে গ্রাফ নিউরাল নেটওয়ার্ক (GNNs) প্রশিক্ষণ এবং চালানোর জন্য একটি ওপেন-সোর্স লাইব্রেরি, যা লক্ষ লক্ষ নোড এবং বিলিয়ন এজ সমর্থন করে। GIGL ব্যবহারকারীর বৃদ্ধি, বিষয়বস্তু র‌্যাঙ্কিং এবং বিজ্ঞাপন সহ মূল মেশিন লার্নিং অ্যাপ্লিকেশন জুড়ে Snap-এ ব্যবহৃত হয়।

সহযোগিতামূলক ফিল্টারিং-এ ওয়েট ডিকে-র ভূমিকার উপর: একটি জনপ্রিয়তার দৃষ্টিকোণ

এই পেপারটি PRISM (পপুলারিটি-অ্যাওয়্যার ইনিশিয়ালাইজেশন স্ট্র্যাটেজি ফর এমবেডিং ম্যাগনিটিউডস) প্রবর্তন করে। PRISM এমবেডিং ওয়েট ডিকে-র ব্যবহার দূর করে, যা সুপারিশ মডেল প্রশিক্ষণে একটি সাধারণ কিন্তু ব্যয়বহুল কৌশল, এবং পরিবর্তে প্রশিক্ষণের শুরুতে একটি একক হালকা গণনা দিয়ে এটি প্রতিস্থাপন করে। PRISM দ্রুত, প্রয়োগ করা সহজ, যা আরও দক্ষ সুপারিশ সিস্টেমের দিকে নিয়ে যায়।

ক্রস-ডোমেন সিকোয়েন্সিয়াল সুপারিশের জন্য সেলফ-অ্যাটেনশন পুনর্বিবেচনা

এই কাজটি অটোসিডিএসআর প্রবর্তন করে, গোলমাল বা অপ্রাসঙ্গিক সংকেত প্রশমিত করার সময় কার্যকর জ্ঞান ভাগ করে নেওয়ার প্রচারের মাধ্যমে এই ধরনের সিস্টেমগুলি কীভাবে বিভিন্ন মিথস্ক্রিয়া ডোমেন জুড়ে ব্যবহারকারীর আচরণ ভবিষ্যদ্বাণী করে তা উন্নত করার একটি পদ্ধতি। অটোসিডিএসআর সুপারিশ সেটিংসে ব্যক্তিগতকরণের নির্ভুলতা এবং দৃঢ়তা উন্নত করে।

SnapGen: মোবাইল ডিভাইসের জন্য উচ্চ-রেজোলিউশন টেক্সট-টু-ইমেজ মডেলগুলিকে নিয়ন্ত্রণ করা দক্ষ আর্কিটেকচার এবং প্রশিক্ষণ সহ মোবাইল ডিভাইসের জন্য Snap AI T2I মডেল

SnapGen হল একটি উচ্চ-পারফরম্যান্স টেক্সট-টু-ইমেজ গবেষণা মডেল যা সরাসরি মোবাইল ডিভাইসে চালানোর জন্য ডিজাইন করা হয়েছে, দুই সেকেন্ডের মধ্যে উচ্চ-মানের ছবি তৈরি করে। এটি অন-ডিভাইস ইমেজ জেনারেশনের জন্য প্রয়োজনীয় গণনা এবং মেমরিকে মারাত্মকভাবে হ্রাস করার সম্ভাবনা রাখে।

SnapGen-V: একটি মোবাইল ডিভাইসে পাঁচ সেকেন্ডের মধ্যে একটি পাঁচ-সেকেন্ডের ভিডিও তৈরি করা

SnapGen-V আমাদের SnapGen মডেলকে মাত্র পাঁচ সেকেন্ডের মধ্যে সরাসরি মোবাইল ডিভাইসে পাঁচ-সেকেন্ডের ভিডিও তৈরি করতে প্রসারিত করে। এটি টেক্সট-টু-ইমেজ মডেলিংয়ে আমাদের অগ্রগতির উপর ভিত্তি করে দ্রুত, অন-ডিভাইস ভিডিও জেনারেশনকে নাগালের মধ্যে নিয়ে আসে।

4Real-Video: সাধারণীকরণযোগ্য ফটো-রিয়ালিস্টিক 4D ভিডিও ডিফিউশন শেখা

4Real-Video গবেষণা মডেল সমৃদ্ধ বিবরণ এবং প্রাকৃতিক গতি সহ বাস্তবসম্মত 4D ভিডিও তৈরি করে, যা একাধিক কোণ থেকে দেখা যায়। এই প্রযুক্তির ইমারসিভ ভিআর এবং পরবর্তী প্রজন্মের গল্প বলার অভিজ্ঞতায় সম্ভাব্য অ্যাপ্লিকেশন রয়েছে।

স্টেবল ফ্লো: প্রশিক্ষণ-মুক্ত চিত্র সম্পাদনার জন্য গুরুত্বপূর্ণ স্তর

আমাদের স্টেবল ফ্লো গবেষণা মডেল শক্তিশালী চিত্র সম্পাদনা সক্ষম করে, যেমন জটিল প্রশিক্ষণ বা উচ্চ-সম্পন্ন হার্ডওয়্যারের প্রয়োজন ছাড়াই বস্তু যোগ করা বা অপসারণ করা। এই পদ্ধতিটি যে কাউকে সহজে ফটো সম্পাদনা করতে দেয়, কোন প্রযুক্তিগত দক্ষতার প্রয়োজন নেই।

Omni-ID: জেনারেটিভ কাজের জন্য ডিজাইন করা সামগ্রিক পরিচয় উপস্থাপনা

আমাদের Omni-ID গবেষণা মডেল বিভিন্ন কোণ এবং অভিব্যক্তি জুড়ে একজন ব্যক্তির মুখের একটি ব্যাপক উপস্থাপনা তৈরি করে, যা আরও বাস্তবসম্মত এবং ব্যক্তিগতকৃত AI এবং AR প্রজন্মকে সক্ষম করে।

PrEditor3D: দ্রুত এবং নির্ভুল 3D আকার সম্পাদনা

PrEditor3D হল আমাদের গবেষণা দলগুলির দ্বারা তৈরি একটি টুল যা ন্যূনতম ইনপুট সহ 3D মডেলগুলির দ্রুত এবং সুনির্দিষ্ট সম্পাদনার অনুমতি দেয়, 3D আকারগুলি কীভাবে চালিত এবং সামঞ্জস্য করা হয় তা সহজ করে 3D সামগ্রী তৈরির প্রক্রিয়াটিকে সুগম করে। অ্যাপ্লিকেশনে, PrEditor3D-এর অ্যানিমেটর এবং লেন্সগুলি নির্মাতাদের জন্য দক্ষতার সাথে তাদের দৃষ্টিভঙ্গিকে জীবন্ত করে তোলা সহজ করার সম্ভাবনা রয়েছে, যা আরও সমৃদ্ধ এবং আরও নিমগ্ন AR অভিজ্ঞতার দিকে পরিচালিত করে।

মোডালিটির মোজাইক: মাল্টিমোডাল গ্রাফ শেখার জন্য একটি ব্যাপক বেঞ্চমার্ক

MM-গ্রাফ মাল্টি-মোডাল গ্রাফ শেখার জন্য প্রথম বেঞ্চমার্ক প্রবর্তন করে, বর্তমান বেঞ্চমার্কগুলিতে ভিজ্যুয়াল তথ্যের উল্লেখযোগ্য ব্যবধান মোকাবেলার জন্য ভিজ্যুয়াল এবং পাঠ্য উভয় ডেটা অন্তর্ভুক্ত করে। এটি আরও ব্যাপক মডেল মূল্যায়নের অনুমতি দেয় এবং গ্রাফ লার্নিং সিস্টেমে উদ্ভাবন চালায় যা সমৃদ্ধ, বাস্তব-বিশ্বের ইনপুট বুঝতে পারে।

ভিডিও অ্যালকেমিস্ট

একটি টেক্সট প্রম্পট এবং রেফারেন্স ইমেজগুলির একটি সেট সহ, ভিডিও অ্যালকেমিস্ট ব্যাপক টিউনিং বা অপ্টিমাইজেশান ছাড়াই ভিডিও তৈরি করার ক্ষমতা সক্ষম করে। অ্যাপ্লিকেশনে এটি কাস্টম উপস্থিতি এবং ব্যাকগ্রাউন্ডের সাথে ভিডিও ব্যক্তিগতকরণকে স্ট্রীমলাইন করবে, সৃজনশীলতা বাড়ানোর সময় সময় বাঁচাবে।

মাইন্ড দ্য টাইম: টেম্পোরালি-কন্ট্রোলড মাল্টি-ইভেন্ট ভিডিও জেনারেশন

মাইন্ড দ্য টাইম AI-জেনারেটেড ভিডিওগুলিতে সুনির্দিষ্ট টেম্পোরাল নিয়ন্ত্রণ প্রবর্তন করে। এটি নির্মাতাদের ঘটনাগুলির ক্রম এবং সময় নির্ধারণ করতে দেবে। এটি ভিডিও জেনারেশনে আরও কাঠামোবদ্ধ, সুসংগত গল্প বলা সক্ষম করে।

ডিফিউশন ট্রান্সফরমার সহ ভিডিও মোশন ট্রান্সফার

ভিডিও মোশন ট্রান্সফার হল একটি ডিফিউশন রিসার্চ মডেল ব্যবহার করে একটি ভিডিও থেকে অন্য ভিডিওতে বাস্তবসম্মত গতি স্থানান্তর করার একটি পদ্ধতি। অ্যাপ্লিকেশনে এই মডেলটি জটিল সেটআপের প্রয়োজন ছাড়াই রেফারেন্স ভিডিও থেকে গতি স্থানান্তর করে বাস্তবসম্মত মুভমেন্ট সহ সহজেই ভিডিও তৈরি করতে পারে।

ওয়ান্ডারল্যান্ড: একটি একক চিত্র থেকে 3D দৃশ্য নেভিগেট করা

ওয়ান্ডারল্যান্ড শুধুমাত্র একটি ফটো থেকে বিশদ 3D দৃশ্য তৈরি করে, 3D দৃশ্য তৈরিকে সহজ করে, এবং একাধিক কোণ বা ব্যাপক সম্পদের প্রয়োজন ছাড়াই দ্রুত এবং আরও দক্ষ ডিজাইনের অনুমতি দেয়।

AC3D: ভিডিও ডিফিউশন ট্রান্সফরমারে 3D ক্যামেরা নিয়ন্ত্রণ বিশ্লেষণ এবং উন্নত করা

AC3D ভিডিও জেনারেশন মডেলের মধ্যে ক্যামেরা নিয়ন্ত্রণ উন্নত করে, মসৃণ, আরও বাস্তবসম্মত মুভমেন্ট সক্ষম করে। এটি নির্মাতাদের ভিডিওতে ক্যামেরা মুভমেন্টের উপর আরও নমনীয়তা দেয় এবং জেনারেট করা দৃশ্যের গুণমান এবং বাস্তবতা উন্নত করে।

*এখানে বর্ণিত সমস্ত মডেল এবং কাজ শুধুমাত্র গবেষণার উদ্দেশ্যে।

এই পোস্টটি আপডেট করা হতে থাকবে।

সংবাদে ফিরে আসুন

যোগাযোগ করুন

প্রেস অনুরোধের জন্য, ইমেল করুন press@snap.com।
অন্যান্য সমস্ত অনুসন্ধানের জন্য, অনুগ্রহ করে আমাদের সহায়তা সাইট-এ যান।