11 يونيو 2025
11 يونيو 2025

Snap في CVPR

كيف تعمل أبحاث سناب على تشكيل مستقبل التكنولوجيا الرقمية الإبداعية

سنشارك هذا العام 12 ورقة بحثية في CVPR 2025، وهو المؤتمر الرئيسي في مجال ابتكار الذكاء الاصطناعي والرؤية الحاسوبية في ناشفيل بولاية تينيسي - بدءًا من اليوم وحتى 15 يونيو.

تم قبول 77% من طلبات البحث التي أجرتها سناب - بما يتجاوز متوسط الصناعة البالغ 22% - ما يمثل دليلاً على العمل المبتكر الذي يقوم به فريقنا. 

ستعرض سناب مجموعة من المواضيع، بما في ذلك ورقتين من أوراقنا -SnapGen و4Real-Video - وقد سلطت CVPR الضوء عليهما كمن بين أفضل 3% من الطلبات.

انظر أدناه للحصول على ملخص وجدول زمني كاملين.



1. SnapGen: تحسين نماذج تحويل النص إلى صورة عالية الدقة للأجهزة المحمولة ببنيات وتدريب فعال

تستخدم سناب نموذج T2I المعزز بالذكاء الاصطناعي للأجهزة المحمولة

SnapGen هو نموذج بحثي لتحويل النص إلى صورة عالي الأداء مصمم للتشغيل مباشرة على الأجهزة المحمولة، مما ينتج صورًا عالية الجودة في أقل من ثانيتين. كما أنه لديه القدرة على تقليل الحوسبة والذاكرة المطلوبة لإنشاء الصور على الجهاز بشكل كبير.

2. SnapGen-V: إنشاء فيديو مدته خمس ثوانٍ على الجهاز المحمول

يعمل SnapGen-V على توسيع نموذج SnapGen لدينا لإنشاء فيديوهات مدتها خمس ثوانٍ على الأجهزة المحمولة مباشرة في خمس ثوانٍ فقط. كما أنه يعمل على إنشاء فيديو سريع على الجهاز، بالاستفادة من التطورات التي أحرزها في نمذجة تحويل النص إلى صورة.

3. 4Real-Video: تعلم نشر الفيديو رباعي الأبعاد بالصور الواقعية 

يعمل نموذج البحث 4Real-Video على إنشاء فيديوهات واقعية رباعية الأبعاد تحتوي على تفاصيل غنية وحركة طبيعية، ويمكن مشاهدتها من زوايا متعددة. لدى هذه التكنولوجيا تطبيقات محتملة في الواقع الافتراضي الغامر وتجارب سرد القصص من الجيل القادم.

4. التدفق الثابت: الطبقات الحيوية لتحرير الصور من دون تدريب

يتيح نموذج البحث "التدفق الثابت" لدينا تحرير الصور القوي، مثل إضافة أشياء أو إزالتها من دون الحاجة إلى تدريب معقد أو أجهزة متطورة. يسمح هذا النهج لأي شخص بتحرير الصور بسهولة، من دون الحاجة إلى خبرة تقنية.

5. Omni-ID: تمثيل الهوية الشمولية المصمم للمهام التوليدية

يعمل نموذج البحث Omni-ID لدينا على إنشاء تمثيل شامل لوجه الشخص عبر زوايا وتعبيرات مختلفة، ما يتيح إنشاء أجيال أكثر واقعية وتخصيصًا من الذكاء الاصطناعي والواقع المعزَز.

6. PrEditor3D: تحرير الأشكال ثلاثية الأبعاد بسرعة ودقة

PrEditor3D هي أداة طورتها فرق البحث لدينا تسمح بتحرير النماذج ثلاثية الأبعاد بسرعة ودقة باستخدام الحد الأدنى من المدخلات، ما يعمل على تبسيط عملية إنشاء المحتوى ثلاثي الأبعاد من خلال تبسيط كيفية التلاعب بالأشكال ثلاثية الأبعاد وتعديلها. لدى PrEditor3D داخل التطبيق القدرة على التسهيل على على صُنّاع المحتوى المتحرك وعدسة Lens إبراز رؤوهم بفعالية، ما يؤدي إلى الحصول على تجارب الواقع المعزز أكثر ثراءً وأكثر غمًا.

7. فسيفساء الطرائق: معيار شامل لتعلم الرسوم البيانية متعددة الوسائط 

يقدم MM-Graph أول معيار لتعلم الرسوم البيانية متعددة الوسائط، حيث يدمج البيانات المرئية والنصية لسد الفجوة الكبيرة في المعلومات المرئية في المعايير الحالية. يسمح ذلك بتقييم النموذج بصورة أكثر شمولًا ويقود الابتكار في أنظمة تعلم الرسوم البيانية التي يمكنها فهم المدخلات الواقعية بشكل أكبر.

8. Video Alchemist

بفضل مطالبة نصية ومجموعة من الصور المرجعية، يتيح Video Alchemist القدرة على إنشاء فيديوهات من من دون ضبط أو تحسين مكثف. سيعمل ذلك داخل التطبيق على تبسيط تخصيص الفيديو بأشكال وخلفيات مخصصة، ما يوفر الوقت مع تعزيز الإبداع.

9. ضع في حسبانك عامل الوقت: إنشاء فيديو متعدد الأحداث بالتحكم مؤقتًا

يقدم برنامج Mind the Time تحكمًا زمنيًا دقيق في الفيديوهات التي تم إنشاؤها بواسطة الذكاء الاصطناعي. كما أنه يسمح لصُنّاع المحتوى بإملاء تسلسل الأحداث وتوقيتها. ويتيح كذلك سرد القصص بدرجة أكبر من التنظيم وتماسكًا في إنشاء الفيديو.

10. نقل حركة الفيديو باستخدام أجهزة تحويل الانتشار

نقل حركة الفيديو هو طريقة لنقل الحركة الواقعية من فيديو إلى آخر باستخدام نموذج بحث الانتشار. يمكن لهذا النموذج داخل التطبيق إنشاء فيديوهات بحركة واقعية بسهولة من خلال نقل الحركة من الفيديوهات المرجعية، من دون الحاجة إلى إعدادات معقدة.

11. Wonderland: التنقل في المشاهد ثلاثية الأبعاد من صورة واحدة

يعمل Wonderland على إنشاء مشاهد ثلاثية الأبعاد مفصلة من صورة واحدة فقط، ما يبسط إنشاء مشاهد ثلاثية الأبعاد، ويسمح بتصميم أسرع وأكثر كفاءة من دون الحاجة إلى زوايا متعددة أو موارد مكثفة.

12. AC3D: تحليل التحكم في الكاميرا ثلاثية الأبعاد وتحسينها في أجهزة تحويل انتشار الفيديو

يعمل AC3D على تحسين التحكم في الكاميرا داخل نماذج إنشاء الفيديو، ما يتيح حركة أكثر سلاسة وواقعية. يمنح صُنّاع المحتوى المزيد من المرونة في تحركات الكاميرا في الفيديوهات، ويحسن جودة المشاهد التي تم إنشاؤها وواقعيتها.

تعال وستجدنا في CVPR! 

*جميع النماذج والعمل الموضح هنا لأغراض البحث فقط. 

العودة إلى الأخبار

تواصل معنا

لطلبات الصحافة، يرجى إرسال بريد إلكتروني إلى press@snap.com.
لجميع الاستفسارات الأخرى، يرجى زيارة موقع الدعم.