10 Ağustos 2025

Snap Research 2025

Konferanslar ve Etkinlikler

Snap Araştırma ekibi, AR ve üretken yapay zeka, öneri sistemleri ve kişiselleştirilmiş yaratıcı araçlardaki yeniliklere öncülük ediyor.

2025 yılında, sektörümüzün önde gelen birkaç konferans ve etkinliğinde çalışmalarımızı sergiliyoruz.

Geçmiş Etkinlikler:

SIGGRAPH 2025 -- Vancouver, Kanada, 10 Ağustos - 14 Ağustos

Nested Attention: Kavram Kişiselleştirme için Semantik Farkındalığa Sahip Dikkat Değerleri

Nested Attention, görüntü üretim modellerinde kimlik korumayı geliştirmeye yardımcı olan yeni bir yöntemdir; belirli konulara ait görselleri farklı tarz ve sahnelerde daha tutarlı ve doğru bir şekilde üretir. Semantik farkındalığa sahip bir dikkat yapısı sunan model, kimliği çeşitli stiller ve sahneler genelinde daha iyi korur. Bu, bir insan ve evcil hayvanı gibi farklı konuları tek bir fotoğrafta birleştirmeyi bile başaran kişiselleştirilmiş görüntüler oluşturmayı mümkün kılar.

InstantRestore: Paylaşılan Görsel Dikkati ile Tek Adımda Kişiselleştirilmiş Yüz Restorasyonu

Bu makale, bir difüzyon modeli yoluyla tek bir ileri geçiş kullanarak bozulmuş yüz görüntülerini restore etmek için kullanılan bir yöntem olan InstantRestore'u tanıtmaktadır. Portre fotoğrafını geliştirmek için kimlik farkındalığına sahip restorasyonu destekleyerek kimliğe özgü özellikleri korumayı amaçlar.

Tekil videolardan dinamik kavram kişiselleştirmesi

Set-and-Sequence, video üretim modelleri için geliştirilmiş yeni bir çerçevedir; yalnızca görünümleriyle değil, zaman içinde sergiledikleri benzersiz hareket örüntüleriyle tanımlanan "dinamik kavramlar" (örneğin okyanus dalgaları veya titreşen kamp ateşi) içeren videolar üretmenin zorluklarına çözüm getirir. Set-and-Sequence, dinamik konuların zaman içindeki davranışlarını öğrenerek tutarlı hareket, sahne kompozisyonu ve sahneler arası geçiş sağlamak yoluyla gerçekçi video kişiselleştirmesini mümkün kılar.

DuetGen: Hiyerarşik Maskeli Modelleme Yoluyla Müzik Tabanlı İki Kişilik Dans Üretimi

DuetGen, doğrudan müziğe dayalı olarak, iki kişilik senkronize dans hareketleri üreten bir çerçevedir. Dans partnerleri arasındaki koordine hareket ve fiziksel etkileşimler gibi interaktif koreografi modellemesinin zorluklarına çözüm getirir. Sistem animasyon, sanal avatarlar ve dijital performans alanındaki uygulamalar için gerçekçi ikili dans üretimine olanak sağlar.

Be Decisive: Çoklu Konulara Yönelik Üretim için Parazit Tabanlı Düzenler

Be Decisive çalışmamız, görsel yanlışlıklar veya istenmeyen karışımlar olmadan karmaşık görüntülerde birden fazla farklı konuyu doğru bir şekilde oluşturma zorluğunu giderir. Be Decisive, parazit giderme sırasında parazit kaynaklı uzamsal düzeni tahmin edip iyileştiren ve görüntü oluşturmanın ilk aşamalarından itibaren her bir konunun nerede olması gerektiğini gösteren küçük bir nöral ağ sunar. Bu, birden fazla belirli konu ile son derece ayrıntılı görüntüler oluşturularak bunlar arasında net sınırlar ve doğal kompozisyonlar oluşturulmasına olanak tanır.

KDD 2025 -- Toronto, Ontario, Kanada, 3 Ağustos - 7 Ağustos

GiGL: Snapchat'te Büyük-Ölçekli Nöral Grafik Ağları

GiGL, yüz milyonlarca düğüm ve milyarlarca kenarı destekleyen büyük ölçekli grafikler üzerinde Nöral Grafik Ağları (GNN) eğitmek ve çalıştırmak için geliştirilmiş açık kaynaklı bir kütüphanedir. Snap'te GIGL, kullanıcı sayısını artırma, içerik sıralaması ve reklam gibi önemli makine öğrenimi uygulamalarında kullanılır.

İş Birliğine Dayalı Filtrelemede Ağırlık Azaltmanın Rolü: Popülerlik Odaklı Bir Yaklaşım

Bu makale, PRISM'i (Gömme Büyüklükleri için Popülerlik Duyarlılığına Sahip Başlatma Stratejisi) tanıtmaktadır. PRISM, öneri modeli eğitiminde kullanılan yaygın ancak pahalı bir teknik olan gömme ağırlığı azaltma tekniğinin kullanımını ortadan kaldırır ve bu yöntemi eğitimin başlangıcındaki tek bir hafif hesaplama ile değiştirir. PRISM'in hızlı ve kolay uygulanabilmesi, öneri sistemlerinin daha verimli hale getirilmesini sağlar.

Alanlar Arası Sıralı Öneri Sistemlerinde Öz Dikkate Yeniden Bakış

Bu çalışma, etkili bilgi paylaşımını teşvik ederken yanıltıcı veya ilgisiz sinyalleri azaltarak, bu tür sistemlerin farklı etkileşim alanlarındaki kullanıcı davranışlarını tahmin etme biçimlerini iyileştiren bir yöntem olan AutoCDSR’yi tanıtır. AutoCDSR, öneri ayarlarında kişiselleştirmenin doğruluğunu ve sağlamlığını artırır.

SnapGen: Verimli Mimarilerle Yüksek Çözünürlüklü Metinden-Görüntüye Modelleri Mobil Cihazlara Uygun Hale Getirme ve Snap AI T2I Modelini Mobil Cihazlar için Eğitme

SnapGen, doğrudan mobil cihazlarda çalışmak üzere tasarlanmış ve iki saniyeden kısa bir sürede yüksek kaliteli görüntüler oluşturan yüksek performanslı bir metinden görüntüye araştırma modelidir. Cihaz üzerinde görüntü oluşturmak için gereken bilgi işlem ve belleği önemli ölçüde azaltma potansiyeline sahiptir.

SnapGen-V: Bir Mobil Cihazda Beş Saniyede Beş Saniyelik Bir Video Oluşturma

SnapGen-V, SnapGen modelimizi yalnızca beş saniyede doğrudan mobil cihazlarda beş saniyelik videolar oluşturacak şekilde genişletiyor. Metinden görüntüye modellemedeki ilerlemelerimizi temel alarak cihaz üzerinde, hızlı video oluşturmayı erişilebilir hale getiriyor.

4Real-Video: Genelleştirilebilir Foto-Gerçekçi 4 Boyutlu Video Difüzyonu Öğrenimi

4Real-Video araştırma modeli, zengin ayrıntılar ve doğal hareketler ile gerçekçi 4 boyutlu videolar oluşturuyor. Bu teknoloji, sürükleyici sanal gerçeklik ve yeni nesil hikaye anlatımı deneyimlerinde potansiyel uygulamalara sahiptir.

Stable Flow: Eğitim Olmadan Görüntü Düzenleme için Hayati Katmanlar

Stable Flow araştırma modelimiz, karmaşık bir eğitim veya yüksek kaliteli donanım gerektirmeden nesneler eklemek veya kaldırmak gibi güçlü görüntü düzenlemelerine olanak tanıyor. Bu yaklaşım, herkesin herhangi bir teknik bir uzmanlığı olmasa da fotoğrafları kolayca düzenleyebilmesini sağlıyor.

Omni-ID: Üretken Görevler için Tasarlanmış Bütünsel Kimlik Temsilleri

Omni-ID araştırma modelimiz, bir kişinin yüzünün çeşitli açılar ve ifadeler üzerinden kapsamlı bir temsilini oluşturarak daha gerçekçi ve kişiselleştirilmiş yapay zeka ile artırılmış gerçeklik nesilleri oluşturulmasına olanak tanıyor.

PrEditor3D: Hızlı ve Hassas 3 Boyutlu Şekil Düzenlemesi

PrEditor3D, araştırma ekiplerimiz tarafından geliştirilmiş, 3 boyutlu modelleri minimum girişle hızlı ve hassas bir şekilde düzenlemeye olanak tanıyan ve 3 boyutlu şekillerin manipüle edilme ve ayarlanma sürecini basitleştirerek 3 boyutlu içerik oluşturma sürecini kolaylaştıran bir araçtır. PrEditor3D, uygulamada animasyoncuların ve Lens oluşturucuların vizyonlarını verimli bir şekilde hayata geçirmelerini kolaylaştırma ve daha zengin ve daha sürükleyici artırılmış gerçeklik deneyimleri elde etmelerini sağlama potansiyeline sahiptir.

Modaliteler Mozaiği: Çok Modlu Grafik Öğrenimi için Kapsamlı Bir Karşılaştırma Ölçütü

MM-Graph, mevcut karşılaştırma değerlendirmelerinde görsel bilgiler arasındaki önemli boşluğu gidermek için hem görsel hem de metinsel verileri bir araya getiren ilk karşılaştırma ölçütünü kullanıma sunuyor. Bu, daha kapsamlı bir model değerlendirmesi yapılmasına olanak tanıyor ve daha zengin, gerçek dünya girdilerini anlayabilen grafik öğrenme sistemlerinde yenilikleri teşvik ediyor.

Video Alchemist

Video Alchemist, bir metin istemi ve bir dizi referans görüntü ile kapsamlı bir ayarlama veya optimizasyon olmadan videolar oluşturma olanağı sunuyor. Uygulamada bu, özel görünümler ve arka planlarla video kişiselleştirmesini kolaylaştırıp yaratıcılığı artırırken zamandan tasarruf sağlayacak.

Mind the Time: Zamanlamaya Duyarlı Çoklu Olaylı Video Oluşturma

Mind the Time, yapay zeka tarafından oluşturulan videolarda hassas zaman kontrolü özelliğini getiriyor. Bu, oluşturucuların olayların sırasını ve zamanlamasını belirlemesine olanak tanıyacak. Video oluştururken daha yapılandırılmış ve tutarlı bir hikaye anlatımı sağlıyor.

Difüzyon Dönüştürücülerle Video Hareketi Aktarımı

Video Hareket Aktarımı, bir difüzyon araştırma modeli kullanarak bir videodan diğerine gerçekçi hareket aktarımı için kullanılan bir yöntemdir. Bu model, uygulamada karmaşık kurulumlara gerek kalmadan referans videolardan hareket aktarımı yaparak gerçekçi hareketli videolar oluşturabiliyor.

Wonderland: Tek Bir Görüntüden 3 Boyutlu Sahnelere Yolculuk

Wonderland, yalnızca bir fotoğraftan ayrıntılı 3 boyutlu sahneler oluşturup 3 boyutlu sahnelerin oluşturulmasını basitleştirerek, birden fazla açıya veya kapsamlı kaynaklara ihtiyaç duymadan daha hızlı ve daha verimli bir tasarım yapılmasına olanak tanıyor.

AC3D: Video Difüzyon Dönüştürücülerinde 3 Boyutlu Kamera Kontrolü Analizi ve Geliştirilmesi

AC3D, video oluşturma modelleri içinde kamera kontrolünü iyileştirerek, daha yumuşak ve daha gerçekçi hareketlere olanak tanıyor. Bu, oluşturuculara videolardaki kamera hareketleri konusunda daha fazla esneklik sağlıyor ve oluşturulan sahnelerin kalitesini ve gerçekçiliğini artırıyor.

*Burada belirtilen tüm modeller ve çalışmalar yalnızca araştırma amaçlıdır.

Bu gönderi güncellenmeye devam edecek.

Haberlere geri dön

Bize Ulaşın

Basın talepleriniz için lütfen press@snap.com adresine e-posta gönderin.
Diğer tüm sorularınız için lütfen Destek Sitemizi ziyaret edin.