
Snap Research 2025
কনফারেন্স এবং ইভেন্ট
Snap Research টিম AR এবং জেনারেটিভ AI, সুপারিশ সিস্টেম এবং ব্যক্তিগতকৃত সৃজনশীল সরঞ্জাম জুড়ে উদ্ভাবনে নেতৃত্ব দিচ্ছে।
2025 সালে, আমরা বেশ কয়েকটি নেতৃস্থানীয় শিল্প সম্মেলন এবং ইভেন্ট জুড়ে আমাদের কাজ প্রদর্শন করছি।
অতীতের ইভেন্ট:

SIGGRAPH 2025-- ভ্যাঙ্কুভার, কানাডা আগস্ট 10 থেকে আগস্ট 14 পর্যন্ত
নেস্টেড অ্যাটেনশন: কনসেপ্ট পার্সোনালাইজেশনের জন্য সেমান্টিক-অ্যাওয়ার অ্যাটেনশন ভ্যালু
নেস্টেড অ্যাটেনশন হলো একটি নতুন পদ্ধতি যা ইমেজ জেনারেশন মডেলগুলিতে পরিচয় সংরক্ষণ বাড়াতে সাহায্য করে, বিভিন্ন স্টাইল এবং দৃশ্য জুড়ে নির্দিষ্ট বিষয়ের আরও সামঞ্জস্যপূর্ণ এবং সঠিক ছবি তৈরি করে। একটি সেমান্টিক-অ্যাওয়ার অ্যাটেনশন কাঠামো প্রবর্তন করে, মডেলটি বিভিন্ন শৈলী এবং দৃশ্য জুড়ে পরিচয়কে আরও ভালভাবে সংরক্ষণ করে। এটি ব্যক্তিগতকৃত ছবি তৈরি করা সম্ভব করে, এমনকি বিভিন্ন বিষয়কে একত্রিত করে - যেমন একজন ব্যক্তি এবং তাদের পোষা প্রাণী - একটি ছবিতে।
ইনস্ট্যান্টরিস্টোর: শেয়ারড-ইমেজ অ্যাটেনশন সহ এক-ধাপে ব্যক্তিগতকৃত ফেস রিস্টোরেশন
এই পেপারটি ইনস্ট্যান্টরিস্টোর চালু করেছে, যা একটি ডিফিউশন মডেলের মাধ্যমে একটি একক ফরোয়ার্ড পাস ব্যবহার করে ক্ষতিগ্রস্ত মুখের ছবি পুনরুদ্ধার করার একটি পদ্ধতি। এর লক্ষ্য হল পরিচয়-নির্দিষ্ট বৈশিষ্ট্যগুলি ধরে রাখা, পোর্ট্রেট ছবির উন্নতির জন্য দক্ষ পরিচয়-সচেতন পুনরুদ্ধারে সহায়তা করা।
একক ভিডিও থেকে ডাইনামিক কনসেপ্ট পার্সোনালাইজেশন
সেট-অ্যান্ড-সিকোয়েন্স হল ভিডিও জেনারেশন মডেলগুলির জন্য একটি নতুন ফ্রেমওয়ার্ক যা "ডাইনামিক কনসেপ্ট" সহ ভিডিও তৈরির চ্যালেঞ্জ মোকাবেলা করে - সত্তাগুলি কেবল তাদের চেহারা দ্বারা সংজ্ঞায়িত নয় বরং সময়ের সাথে সাথে তাদের অনন্য গতির ধরণ দ্বারাও সংজ্ঞায়িত, যেমন সমুদ্রের ঢেউ বা একটি জ্বলন্ত বনফায়ার। সেট-অ্যান্ড-সিকোয়েন্স সময়ের সাথে সাথে গতিশীল বিষয়গুলি কীভাবে আচরণ করে তা শেখার মাধ্যমে বাস্তবসম্মত ভিডিও ব্যক্তিগতকরণ সক্ষম করে, যা সামঞ্জস্যপূর্ণ গতি, দৃশ্যের রচনা এবং ক্রস-সিন ব্লেন্ডিংয়ের অনুমতি দেয়।
ডুয়েটজেন: হায়ারার্কিক্যাল মাস্কড মডেলিং এর মাধ্যমে সঙ্গীত চালিত দুই-ব্যক্তির নৃত্য তৈরি
ডুয়েটজেন হল সরাসরি সঙ্গীত থেকে সিঙ্ক্রোনাইজ করা দুই-ব্যক্তির নাচের গতি তৈরির জন্য একটি কাঠামো। এটি ইন্টারেক্টিভ কোরিওগ্রাফি মডেলিংয়ের চ্যালেঞ্জ মোকাবেলা করে, যেমন নৃত্য সঙ্গীদের মধ্যে সমন্বিত আন্দোলন এবং শারীরিক মিথস্ক্রিয়া। সিস্টেমটি অ্যানিমেশন, ভার্চুয়াল অবতার এবং ডিজিটাল পারফরম্যান্সে অ্যাপ্লিকেশনের জন্য বাস্তবসম্মত ডুয়েট ডান্স জেনারেশন সক্ষম করে।
বি ডিসাইসিভ: মাল্টি-সাবজেক্ট জেনারেশনের জন্য নয়েজ-ইনডিউসড লেআউট
আমাদের কাজ বি ডিসাইসিভ ভিজ্যুয়াল ভুল বা অনিচ্ছাকৃত মিশ্রণ ছাড়াই জটিল চিত্রগুলিতে একাধিক স্বতন্ত্র বিষয় সঠিকভাবে তৈরি করার চ্যালেঞ্জ মোকাবেলা করে। বি ডিসাইসিভ একটি ছোট নিউরাল নেটওয়ার্ক প্রবর্তন করে যা ডিনয়েজিংয়ের সময় একটি নয়েজ-ইনডিউসড স্পেশিয়াল লেআউটকে পূর্বাভাস দেয় এবং পরিমার্জন করে, ইমেজ তৈরির প্রাথমিক পর্যায় থেকে প্রতিটি বিষয় কোথায় উপস্থিত হওয়া উচিত তা নির্দেশ করে। এটি একাধিক নির্দিষ্ট বিষয় সহ অত্যন্ত বিশদ চিত্র তৈরি করার অনুমতি দেয়, তাদের মধ্যে স্পষ্ট সীমানা এবং প্রাকৃতিক রচনা নিশ্চিত করে।

KDD 2025-- টরন্টো, অন্টারিও, কানাডা আগস্ট 3 থেকে আগস্ট 7 পর্যন্ত
GiGL: Snapchat-এ বড় আকারের গ্রাফ নিউরাল নেটওয়ার্ক
GiGL হল বড় আকারের গ্রাফে গ্রাফ নিউরাল নেটওয়ার্ক (GNNs) প্রশিক্ষণ এবং চালানোর জন্য একটি ওপেন-সোর্স লাইব্রেরি, যা শত শত মিলিয়ন নোড এবং বিলিয়ন এজ সমর্থন করে। GIGL ব্যবহারকারীর বৃদ্ধি, বিষয়বস্তু র্যাঙ্কিং এবং বিজ্ঞাপন সহ মূল মেশিন লার্নিং অ্যাপ্লিকেশন জুড়ে Snap-এ ব্যবহৃত হয়।
কোলাবোরেটিভ ফিল্টারিং-এ ওয়েট ডিকে-র ভূমিকার উপর: একটি জনপ্রিয়তার দৃষ্টিকোণ
এই পেপারটি PRISM (পপুলারিটি-অ্যাওয়ার ইনিশিয়ালাইজেশন স্ট্র্যাটেজি ফর এমবেডিং ম্যাগনিটিউডস) চালু করেছে। PRISM এমবেডিং ওয়েট ডিকে-র ব্যবহার দূর করে, যা সুপারিশ মডেল প্রশিক্ষণে একটি সাধারণ কিন্তু ব্যয়বহুল কৌশল, এবং এর পরিবর্তে প্রশিক্ষণের শুরুতে একটি একক হালকা গণনা দিয়ে এটি প্রতিস্থাপন করে। PRISM দ্রুত, প্রয়োগ করা সহজ, যা আরও দক্ষ সুপারিশ সিস্টেমের দিকে নিয়ে যায়।
ক্রস-ডোমেন সিকোয়েন্সিয়াল রিকমেন্ডেশনের জন্য সেলফ-অ্যাটেনশন পুনর্বিবেচনা
এই কাজটি AutoCDSR চালু করেছে, যা বিভিন্ন ইন্টারঅ্যাকশন ডোমেন জুড়ে ব্যবহারকারীর আচরণ ভবিষ্যদ্বাণী করার পদ্ধতি উন্নত করার একটি পদ্ধতি, যা কোলাহলপূর্ণ বা অপ্রাসঙ্গিক সংকেত হ্রাস করার সময় কার্যকর জ্ঞান ভাগ করে নেওয়ার প্রচার করে। AutoCDSR সুপারিশ সেটিংসে ব্যক্তিগতকরণের নির্ভুলতা এবং দৃঢ়তা উন্নত করে।

SnapGen: মোবাইল ডিভাইসের জন্য হাই-রেজোলিউশন টেক্সট-টু-ইমেজ মডেল নিয়ন্ত্রণ দক্ষ আর্কিটেকচার এবং প্রশিক্ষণ সহ মোবাইল ডিভাইসের জন্য Snap AI T2I মডেল
SnapGen একটি উচ্চ-পারফরম্যান্স টেক্সট-টু-ইমেজ গবেষণা মডেল যা সরাসরি মোবাইল ডিভাইসে চালানোর জন্য ডিজাইন করা হয়েছে, দুই সেকেন্ডের মধ্যে উচ্চ-মানের ছবি তৈরি করে। এটি অন-ডিভাইস ইমেজ তৈরির জন্য প্রয়োজনীয় কম্পিউট এবং মেমরিকে মারাত্মকভাবে হ্রাস করার সম্ভাবনা রাখে।
SnapGen-V: একটি মোবাইল ডিভাইসে পাঁচ সেকেন্ডের মধ্যে একটি পাঁচ-সেকেন্ডের ভিডিও তৈরি করা
SnapGen-V আমাদের SnapGen মডেলকে মাত্র পাঁচ সেকেন্ডে সরাসরি মোবাইল ডিভাইসে পাঁচ-সেকেন্ডের ভিডিও তৈরি করতে প্রসারিত করে। এটি টেক্সট-টু-ইমেজ মডেলিংয়ে আমাদের অগ্রগতির উপর ভিত্তি করে দ্রুত, অন-ডিভাইস ভিডিও তৈরিকে নাগালের মধ্যে নিয়ে আসে।
4Real-Video: জেনারেলাইজেবল ফটো-রিয়ালিস্টিক 4D ভিডিও ডিফিউশন শেখা
4Real-Video গবেষণা মডেলটি সমৃদ্ধ বিবরণ এবং প্রাকৃতিক গতি সহ বাস্তবসম্মত 4D ভিডিও তৈরি করে, যা একাধিক কোণ থেকে দেখা যায়। এই প্রযুক্তির ইমারসিভ ভিআর এবং পরবর্তী প্রজন্মের গল্প বলার অভিজ্ঞতায় সম্ভাব্য অ্যাপ্লিকেশন রয়েছে।
স্টেবল ফ্লো: প্রশিক্ষণ-মুক্ত ইমেজ এডিটিং এর জন্য অত্যাবশ্যক স্তর
আমাদের স্টেবল ফ্লো গবেষণা মডেল শক্তিশালী ইমেজ এডিটিং সক্ষম করে, যেমন জটিল প্রশিক্ষণ বা হাই-এন্ড হার্ডওয়্যারের প্রয়োজন ছাড়াই বস্তু যোগ করা বা অপসারণ করা। এই পদ্ধতিটি যে কাউকে সহজেই ফটো সম্পাদনা করার অনুমতি দেয়, কোনও প্রযুক্তিগত দক্ষতার প্রয়োজন নেই।
Omni-ID: জেনারেটিভ কাজের জন্য ডিজাইন করা সামগ্রিক পরিচয় উপস্থাপনা
আমাদের Omni-ID গবেষণা মডেল বিভিন্ন কোণ এবং অভিব্যক্তি জুড়ে একজন ব্যক্তির মুখের একটি ব্যাপক উপস্থাপনা তৈরি করে, যা আরও বাস্তবসম্মত এবং ব্যক্তিগতকৃত AI এবং AR প্রজন্মকে সক্ষম করে।
PrEditor3D: দ্রুত এবং নির্ভুল 3D আকার সম্পাদনা
PrEditor3D আমাদের গবেষণা দল দ্বারা তৈরি একটি টুল যা ন্যূনতম ইনপুট সহ 3D মডেলগুলির দ্রুত এবং নির্ভুল সম্পাদনার অনুমতি দেয়, 3D আকারগুলি কীভাবে চালিত এবং সামঞ্জস্য করা হয় তা সহজ করে 3D সামগ্রী তৈরির প্রক্রিয়াটিকে সহজতর করে। প্রয়োগে, PrEditor3D-এর অ্যানিমেটর এবং লেন্স নির্মাতাদের জন্য তাদের দৃষ্টিভঙ্গিকে দক্ষতার সাথে জীবন্ত করে তোলা সহজ করার সম্ভাবনা রয়েছে, যা আরও সমৃদ্ধ এবং আরও নিমগ্ন AR অভিজ্ঞতার দিকে পরিচালিত করে।
মোডালিটির মোজাইক: মাল্টিমোডাল গ্রাফ লার্নিংয়ের জন্য একটি ব্যাপক বেঞ্চমার্ক
MM-Graph মাল্টি-মোডাল গ্রাফ শেখার জন্য প্রথম বেঞ্চমার্ক চালু করেছে, বর্তমান বেঞ্চমার্কগুলিতে ভিজ্যুয়াল তথ্যের উল্লেখযোগ্য ব্যবধান মোকাবেলা করার জন্য ভিজ্যুয়াল এবং পাঠ্য উভয় ডেটা অন্তর্ভুক্ত করে। এটি আরও ব্যাপক মডেল মূল্যায়নের অনুমতি দেয় এবং গ্রাফ লার্নিং সিস্টেমে উদ্ভাবন চালায় যা সমৃদ্ধ, বাস্তব-বিশ্বের ইনপুট বুঝতে পারে।
একটি টেক্সট প্রম্পট এবং রেফারেন্স ইমেজগুলির একটি সেট সহ, ভিডিও অ্যালকেমিস্ট ব্যাপক টিউনিং বা অপ্টিমাইজেশন ছাড়াই ভিডিও তৈরি করার ক্ষমতা সক্ষম করে। প্রয়োগে এটি সৃজনশীলতা বাড়ানোর সাথে সাথে সময় বাঁচিয়ে কাস্টম উপস্থিতি এবং ব্যাকগ্রাউন্ড সহ ভিডিও ব্যক্তিগতকরণকে সহজতর করবে।
মাইন্ড দ্য টাইম: টেম্পোরালি-কন্ট্রোলড মাল্টি-ইভেন্ট ভিডিও জেনারেশন
মাইন্ড দ্য টাইম AI-জেনারেটেড ভিডিওগুলিতে সুনির্দিষ্ট টেম্পোরাল নিয়ন্ত্রণ প্রবর্তন করে। এটি নির্মাতাদের ঘটনাগুলির ক্রম এবং সময় নির্ধারণ করতে দেবে। এটি ভিডিও তৈরিতে আরও কাঠামোগত, সুসংগত গল্প বলা সক্ষম করে।
ডিফিউশন ট্রান্সফরমার সহ ভিডিও মোশন ট্রান্সফার
ভিডিও মোশন ট্রান্সফার হল একটি ডিফিউশন রিসার্চ মডেল ব্যবহার করে একটি ভিডিও থেকে অন্য ভিডিওতে বাস্তবসম্মত গতি স্থানান্তর করার একটি পদ্ধতি। প্রয়োগে এই মডেলটি জটিল সেটআপের প্রয়োজন ছাড়াই রেফারেন্স ভিডিও থেকে গতি স্থানান্তর করে বাস্তবসম্মত মুভমেন্ট সহ সহজেই ভিডিও তৈরি করতে পারে।
ওয়ান্ডারল্যান্ড: একটি একক চিত্র থেকে 3D দৃশ্য নেভিগেট করা
ওয়ান্ডারল্যান্ড শুধুমাত্র একটি ছবি থেকে বিস্তারিত 3D দৃশ্য তৈরি করে, 3D দৃশ্য তৈরির প্রক্রিয়াকে সহজ করে, এবং একাধিক কোণ বা ব্যাপক সম্পদের প্রয়োজন ছাড়াই দ্রুত এবং আরও দক্ষ ডিজাইনের অনুমতি দেয়।
AC3D: ভিডিও ডিফিউশন ট্রান্সফরমারগুলিতে 3D ক্যামেরা নিয়ন্ত্রণ বিশ্লেষণ এবং উন্নত করা
AC3D ভিডিও জেনারেশন মডেলের মধ্যে ক্যামেরা নিয়ন্ত্রণ উন্নত করে, মসৃণ, আরও বাস্তবসম্মত গতি সক্ষম করে। এটি নির্মাতাদের ভিডিওতে ক্যামেরা মুভমেন্টের উপর আরও নমনীয়তা দেয় এবং তৈরি করা দৃশ্যের গুণমান এবং বাস্তবতা উন্নত করে।
* এখানে বর্ণিত সমস্ত মডেল এবং কাজ শুধুমাত্র গবেষণার উদ্দেশ্যে।
এই পোস্টটি আপডেট করা অব্যাহত থাকবে।
যোগাযোগ করুন
প্রেস অনুরোধের জন্য, ইমেল করুন press@snap.com।
অন্যান্য সকল অনুসন্ধানের জন্য, অনুগ্রহ করে আমাদের সহায়তা সাইট-এ যান।