10 أغسطس 2025

أبحاث Snap لعام 2025

المؤتمرات والفعاليات

فريق البحث في سناب يقود الابتكار في مجالات الواقع المعزّز والذكاء الاصطناعي التوليدي وأنظمة التوصية وأدوات التصميم المخصصة.

في عام 2025، سنعرض عملنا في العديد من المؤتمرات والفعاليات الرائدة في المجال.

الفعاليات السابقة:

فعالية SIGGRAPH 2025 -- فانكوفر، كندا من 10 أغسطس إلى 14 أغسطس

الانتباه المتداخل: قيم الانتباه الواعية بالدلالة لتخصيص المفاهيم

الانتباه المتداخل عبارة عن طريقة جديدة تساعد على تحسين الحفاظ على الهوية في نماذج توليد الصور، وذلك بإنشاء صور أكثر اتساقًا ودقة لموضوعات محددة عبر أنماط ومشاهد مختلفة. ومن خلال تقديم هيكل الانتباه الواعي بالدلالة، فإن النموذج يحافظ على الهوية بشكل أفضل عبر مختلف الأنماط والمشاهد. وهو ما يجعل من الممكن إنشاء صور مخصصة، بل وحتى الجمع بين موضوعات مختلفة - مثل شخص وحيوانه الأليف - في صورة واحدة.

الاستعادة الفورية: استعادة الوجه المخصّص بخطوة واحدة مع الانتباه للصورة المشتركة

يستعرض هذا البحث الاستعادة الفورية، وهي طريقة لاستعادة صور الوجه المتدهورة باستخدام تمرير واحد إلى الأمام عبر نموذج الانتشار. وهو يهدف إلى الاحتفاظ بالسمات الخاصة بالهوية، مما يدعم استعادة فعالة واعية بالهوية لتحسين جودة الصور الشخصية.

التخصيص الديناميكي للمفاهيم من الفيديوهات الفردية

نموذج "المجموعة والتتابع" عبارة عن إطار جديد لنماذج توليد الفيديوهات يحل مشكلة إنتاج فيديوهات ذات "مفاهيم ديناميكية"، وهي الكيانات التي لا تتميز بمظهرها فحسب بل بأنماط حركتها الفريدة مع مرور الوقت، مثل أمواج المحيطات أو النار الوامضة. يتيح نموذج "المجموعة والتتابع" عمل تخصيص واقعي للفيديوهات من خلال معرفة كيفية سلوك الأشياء الديناميكية مع مرور الوقت، مما يسمح بحركة متسقة وتكوين المشهد والمزج بين المشاهد.

نموذج توليد الرقص الثنائي (DuetGen): توليد رقص لشخصين من الموسيقى عبر النمذجة المقنّعة الهرمية

نموذج توليد الرقص الثنائي عبارة عن إطار عمل لتوليد حركات رقص متزامنة لشخصين من الموسيقى مباشرةً. وهو يحل مشكلة نمذجة الرقص التفاعلي، مثل الحركة المنسقة والتفاعلات الجسدية بين الشريكين أثناء الرقص. يتيح النظام توليد رقص ثنائي واقعي لاستخدامه في الرسوم المتحركة والصور الرمزية الافتراضية والأداء الرقمي.

نموذج (Be Decisive): تخطيطات ناتجة عن الضوضاء لتوليد أجسام متعددة

نموذج Be Decisive يحل مشكلة التوليد الدقيق لأجسام متعددة في صور معقدة دون أخطاء بصرية في الدقة أو مزج غير مقصود. تقدم ميزة Be Decisive شبكة عصبية صغيرة تتنبأ بالتخطيط المكاني الناجم عن الضوضاء وتحسّنه أثناء عملية إزالة الضوضاء، وتوجه عملية تحديد الأماكن التي ينبغي أن يظهر فيها كل جسم من المراحل الأولى لتوليد الصور. يسمح ذلك بإنشاء صور مفصلة للغاية بها أجسام محددة متعددة، مما يضمن حدود واضحة وتركيبات طبيعية بينها.

فعالية KDD 2025 -- تورونتو، أونتاريو، كندا من 3 أغسطس إلى 7 أغسطس

مكتبة مكتبة GiGL: الشبكات العصبية الرسومية الكبيرة في سناب شات

مكتبة GiGL هي مكتبة مفتوحة المصدر لتدريب وتشغيل الشبكات العصبية الرسومية (GNNs) على الرسوم البيانية واسعة النطاق، وتدعم مئات الملايين من العقد والمليارات من الحواف. تُستخدم مكتبة GIGL في سناب في أهم تطبيقات التعلم الآلي، بما فيها زيادة أعداد المستخدمين وتصنيف المحتوى والإعلان.

عن دور انحلال الوزن في الفلاتر التعاونية: منظور الشعبية

تستعرض هذه الورقة استراتيجية التهيئة الواعية بالشعبية لتضمين الأحجام (PRISM). استراتيجية PRISM تلغي استخدام تضمين انحلال الوزن، وهو تقنية شائعة ولكنها مكلفة في تدريب نماذج التوصية، وتستبدلها بعملية حوسبة خفيفة واحدة في بداية التدريب. استراتيجية PRISM سريعة وسهلة التطبيق، مما يؤدي إلى أنظمة توصية أكثر كفاءة.

إعادة النظر في الانتباه الذاتي من أجل توصية متتابعة عابرة للنطاقات

يستعرض هذا العمل نموذج AutoCDSR، وهو عبارة عن طريقة لتحسين كيفية تنبؤ هذه الأنظمة بسلوكيات المستخدم في مختلف مجالات التفاعل، من خلال تعزيز المشاركة الفعالة للمعرفة، مع تخفيف إشارات الضوضاء أو الإشارات غير المهمة. تعمل تقنية AutoCDSR على تحسين دقة وقوة التخصيص في إطار نماذج التوصية.

نموذج SnapGen: تحسين نماذج تحويل النص إلى صورة عالية الدقة للأجهزة المحمولة بمعماريات فعالة وتدريب فعال نموذج T2I من Snap AI لأجهزة الهواتف المحمولة

SnapGen هو نموذج بحثي لتحويل النص إلى صورة عالي الأداء مصمم للتشغيل مباشرة على الأجهزة المحمولة، مما ينتج صورًا عالية الجودة في أقل من ثانيتين. كما أنه لديه القدرة على تقليل الحوسبة والذاكرة المطلوبة لإنشاء الصور على الجهاز بشكل كبير.

نموذج SnapGen-V: إنشاء فيديو مدته خمس ثوانٍ خلال خمس ثوانٍ على الهاتف المحمول

يعمل SnapGen-V على توسيع نموذج SnapGen لدينا لإنشاء فيديوهات مدتها خمس ثوانٍ على الأجهزة المحمولة مباشرة في خمس ثوانٍ فقط. كما أنه يعمل على إنشاء فيديو سريع على الجهاز، بالاستفادة من التطورات التي أحرزها في نمذجة تحويل النص إلى صورة.

نموذج 4Real-Video: تعلم الانتشار بالفيديوهات رباعية الأبعاد ذات الصور الواقعية القابلة للتعميم

يعمل نموذج البحث 4Real-Video على إنشاء فيديوهات واقعية رباعية الأبعاد تحتوي على تفاصيل غنية وحركة طبيعية، ويمكن مشاهدتها من زوايا متعددة. لدى هذه التكنولوجيا تطبيقات محتملة في الواقع الافتراضي الغامر وتجارب سرد القصص من الجيل القادم.

نموذج التدفق الثابت: طبقات حيوية لتعديل الصور بدون تدريب

يتيح نموذج البحث "التدفق الثابت" لدينا تحرير الصور القوي، مثل إضافة أشياء أو إزالتها من دون الحاجة إلى تدريب معقد أو أجهزة متطورة. يسمح هذا النهج لأي شخص بتحرير الصور بسهولة، من دون الحاجة إلى خبرة تقنية.

نموذج Omni-ID: تمثيل الهوية الشمولي المصمم للمهام التوليدية

يعمل نموذج البحث Omni-ID لدينا على إنشاء تمثيل شامل لوجه الشخص عبر زوايا وتعبيرات مختلفة، ما يتيح إنشاء أجيال أكثر واقعية وتخصيصًا من الذكاء الاصطناعي والواقع المعزَز.

نموذج PreEditor3D: تعديل الأشكال ثلاثية الأبعاد بسرعة ودقة

PrEditor3D هي أداة طورتها فرق البحث لدينا تسمح بتحرير النماذج ثلاثية الأبعاد بسرعة ودقة باستخدام الحد الأدنى من المدخلات، ما يعمل على تبسيط عملية إنشاء المحتوى ثلاثي الأبعاد من خلال تبسيط كيفية التلاعب بالأشكال ثلاثية الأبعاد وتعديلها. لدى PrEditor3D داخل التطبيق القدرة على التسهيل على على صُنّاع المحتوى المتحرك وعدسة Lens إبراز رؤوهم بفعالية، ما يؤدي إلى الحصول على تجارب الواقع المعزز أكثر ثراءً وأكثر غمًا.

فسيفساء النماذج: معيار شامل لتعلم الرسوم البيانية متعدد الوسائط

يقدم MM-Graph أول معيار لتعلم الرسوم البيانية متعددة الوسائط، حيث يدمج البيانات المرئية والنصية لسد الفجوة الكبيرة في المعلومات المرئية في المعايير الحالية. يسمح ذلك بتقييم النموذج بصورة أكثر شمولًا ويقود الابتكار في أنظمة تعلم الرسوم البيانية التي يمكنها فهم المدخلات الواقعية بشكل أكبر.

خيميائي الفيديوهات

بفضل مطالبة نصية ومجموعة من الصور المرجعية، يتيح Video Alchemist القدرة على إنشاء فيديوهات من من دون ضبط أو تحسين مكثف. سيعمل ذلك داخل التطبيق على تبسيط تخصيص الفيديو بأشكال وخلفيات مخصصة، ما يوفر الوقت مع تعزيز الإبداع.

برنامج Mind the Time: توليد فيديوهات مضبوطة زمنيًا ومتعددة الأحداث

يقدم برنامج Mind the Time تحكمًا زمنيًا دقيق في الفيديوهات التي تم إنشاؤها بواسطة الذكاء الاصطناعي. كما أنه يسمح لصُنّاع المحتوى بإملاء تسلسل الأحداث وتوقيتها. ويتيح كذلك سرد القصص بدرجة أكبر من التنظيم وتماسكًا في إنشاء الفيديو.

نقل حركة الفيديو باستخدام أجهزة تحويل الانتشار

نقل حركة الفيديو هو طريقة لنقل الحركة الواقعية من فيديو إلى آخر باستخدام نموذج بحث الانتشار. يمكن لهذا النموذج داخل التطبيق إنشاء فيديوهات بحركة واقعية بسهولة من خلال نقل الحركة من الفيديوهات المرجعية، من دون الحاجة إلى إعدادات معقدة.

نموذج Wonderland: عمل مشاهد ثلاثية الأبعاد من صورة واحدة

يعمل Wonderland على إنشاء مشاهد ثلاثية الأبعاد مفصلة من صورة واحدة فقط، ما يبسط إنشاء مشاهد ثلاثية الأبعاد، ويسمح بتصميم أسرع وأكثر كفاءة من دون الحاجة إلى زوايا متعددة أو موارد مكثفة.

نموذج AC3D: تحليل وتحسين التحكم ثلاثي الأبعاد في الكاميرا في أجهزة تحويل انتشار الفيديو

يعمل AC3D على تحسين التحكم في الكاميرا داخل نماذج إنشاء الفيديو، ما يتيح حركة أكثر سلاسة وواقعية. يمنح صُنّاع المحتوى المزيد من المرونة في تحركات الكاميرا في الفيديوهات، ويحسن جودة المشاهد التي تم إنشاؤها وواقعيتها.

*جميع النماذج والعمل الموضح هنا لأغراض البحث فقط.

سيستمر تحديث هذا المنشور باستمرار.

العودة إلى الأخبار

تواصل معنا

للاستفسارات الصحافية، يُرجى إرسال بريد إلكتروني إلى press@snap.com.
لجميع الاستفسارات الأخرى، يُرجى زيارة موقع الدعم.