
Snap CVPR'de
Snap Araştırma Ekibi, Yaratıcı Dijital Teknolojinin Geleceğini Şekillendirmeye Nasıl Hazırlanıyor?
Bu yıl, Nashville, Tennessee'de bugün başlayıp 15 Haziran'a dek sürecek olan yapay zeka ve bilgisayarlı görme alanındaki yeniliklerin öncü konferansı CVPR 2025'te 12 makale paylaşacağız.
Snap Araştırma Ekibinin gönderileri, %22 olan endüstri ortalamasının üzerine çıkarak %77'lik bir oranda kabul edildi. Bu da, ekibimiz tarafından yapılan yenilikçi çalışmaların bir kanıtıdır.
Snap, CVPR'nin gönderimlerin ilk %3'lük diliminde yer aldığını vurguladığı iki makalemiz de (SnapGen ve 4Real-Video) dahil olmak üzere, bir dizi konuda sunum yapacak.
Tam bir özet ve program için aşağıya bakın.
1. SnapGen: Verimli Mimariler ve Eğitim ile Mobil Cihazlar İçin Yüksek Çözünürlüklü Metinden Görüntüye Modelleri Kullanıma Uygun Hale Getirme
Mobil Cihazlar için Snap Yapay Zeka T2I Modeli
SnapGen, doğrudan mobil cihazlarda çalışmak üzere tasarlanmış ve iki saniyeden kısa bir sürede yüksek kaliteli görüntüler oluşturan yüksek performanslı bir metinden görüntüye araştırma modelidir. Cihaz üzerinde görüntü oluşturmak için gereken bilgi işlem ve belleği önemli ölçüde azaltma potansiyeline sahiptir.

2. SnapGen-V: Bir Mobil Cihazda Beş Saniyede Beş Saniyelik Bir Video Oluşturma
SnapGen-V, SnapGen modelimizi yalnızca beş saniyede doğrudan mobil cihazlarda beş saniyelik videolar oluşturacak şekilde genişletiyor. Metinden görüntüye modellemedeki ilerlemelerimizi temel alarak cihaz üzerinde, hızlı video oluşturmayı erişilebilir hale getiriyor.

3. 4Real-Video: Genelleştirilebilir Foto-Gerçekçi 4 Boyutlu Video Difüzyonu Öğrenimi
4Real-Video araştırma modeli, zengin ayrıntılar ve doğal hareketler ile gerçekçi 4 boyutlu videolar oluşturuyor. Bu teknoloji, sürükleyici sanal gerçeklik ve yeni nesil hikaye anlatımı deneyimlerinde potansiyel uygulamalara sahiptir.

4. Stable Flow: Eğitim Olmadan Görüntü Düzenleme için Hayati Katmanlar
Stable Flow araştırma modelimiz, karmaşık bir eğitim veya yüksek kaliteli donanım gerektirmeden nesneler eklemek veya kaldırmak gibi güçlü görüntü düzenlemelerine olanak tanıyor. Bu yaklaşım, herkesin herhangi bir teknik bir uzmanlığı olmasa da fotoğrafları kolayca düzenleyebilmesini sağlıyor.

5. Omni-ID: Üretken Görevler için Tasarlanmış Bütünsel Kimlik Temsilleri
Omni-ID araştırma modelimiz, bir kişinin yüzünün çeşitli açılar ve ifadeler üzerinden kapsamlı bir temsilini oluşturarak daha gerçekçi ve kişiselleştirilmiş yapay zeka ile artırılmış gerçeklik nesilleri oluşturulmasına olanak tanıyor.

6. PrEditor3D: Hızlı ve Hassas 3 Boyutlu Şekil Düzenlemesi
PrEditor3D, araştırma ekiplerimiz tarafından geliştirilmiş, 3 boyutlu modelleri minimum girişle hızlı ve hassas bir şekilde düzenlemeye olanak tanıyan ve 3 boyutlu şekillerin manipüle edilme ve ayarlanma sürecini basitleştirerek 3 boyutlu içerik oluşturma sürecini kolaylaştıran bir araçtır. PrEditor3D, uygulamada animasyoncuların ve Lens oluşturucuların vizyonlarını verimli bir şekilde hayata geçirmelerini kolaylaştırma ve daha zengin ve daha sürükleyici artırılmış gerçeklik deneyimleri elde etmelerini sağlama potansiyeline sahiptir.

7. Modaliteler Mozaiği: Çok Modlu Grafik Öğrenimi için Kapsamlı Bir Karşılaştırma Ölçütü
MM-Graph, mevcut karşılaştırma değerlendirmelerinde görsel bilgiler arasındaki önemli boşluğu gidermek için hem görsel hem de metinsel verileri bir araya getiren ilk karşılaştırma ölçütünü kullanıma sunuyor. Bu, daha kapsamlı bir model değerlendirmesi yapılmasına olanak tanıyor ve daha zengin, gerçek dünya girdilerini anlayabilen grafik öğrenme sistemlerinde yenilikleri teşvik ediyor.

Video Alchemist, bir metin istemi ve bir dizi referans görüntü ile kapsamlı bir ayarlama veya optimizasyon olmadan videolar oluşturma olanağı sunuyor. Uygulamada bu, özel görünümler ve arka planlarla video kişiselleştirmesini kolaylaştırıp yaratıcılığı artırırken zamandan tasarruf sağlayacak.

9. Mind the Time: Zamanlamaya Duyarlı Çoklu Olaylı Video Oluşturma
Mind the Time, yapay zeka tarafından oluşturulan videolarda hassas zaman kontrolü özelliğini getiriyor. Bu, oluşturucuların olayların sırasını ve zamanlamasını belirlemesine olanak tanıyacak. Video oluştururken daha yapılandırılmış ve tutarlı bir hikaye anlatımı sağlıyor.

10. Difüzyon Dönüştürücülerle Video Hareketi Aktarımı
Video Hareket Aktarımı, bir difüzyon araştırma modeli kullanarak bir videodan diğerine gerçekçi hareket aktarımı için kullanılan bir yöntemdir. Bu model, uygulamada karmaşık kurulumlara gerek kalmadan referans videolardan hareket aktarımı yaparak gerçekçi hareketli videolar oluşturabiliyor.

11. Wonderland: Tek Bir Görüntüden 3 Boyutlu Sahnelere Yolculuk
Wonderland, yalnızca bir fotoğraftan ayrıntılı 3 boyutlu sahneler oluşturup 3 boyutlu sahnelerin oluşturulmasını basitleştirerek, birden fazla açıya veya kapsamlı kaynaklara ihtiyaç duymadan daha hızlı ve daha verimli bir tasarım yapılmasına olanak tanıyor.

12. AC3D: Video Difüzyon Dönüştürücülerinde 3 Boyutlu Kamera Kontrolü Analizi ve Geliştirilmesi
AC3D, video oluşturma modelleri içinde kamera kontrolünü iyileştirerek, daha yumuşak ve daha gerçekçi hareketlere olanak tanıyor. Bu, oluşturuculara videolardaki kamera hareketleri konusunda daha fazla esneklik sağlıyor ve oluşturulan sahnelerin kalitesini ve gerçekçiliğini artırıyor.

Bizi CVPR'de bulun!
*Burada belirtilen tüm modeller ve çalışmalar yalnızca araştırma amaçlıdır.
İletişime Geçin
press@snap.com adresine e-posta gönderin.
Diğer tüm sorularınız için lütfen Destek sitemizi ziyaret edin.