10 sierpnia 2025

Snap Research 2025

Konferencje i wydarzenia

Zespół Snap Research jest liderem innowacji w dziedzinie AR i generatywnej sztucznej inteligencji, systemów rekomendacji i spersonalizowanych narzędzi kreatywnych.

W 2025 roku zaprezentujemy nasze prace na kilku wiodących konferencjach i wydarzeniach branżowych.

Poprzednie wydarzenia:

SIGGRAPH 2025 -- Vancouver, Kanada, od 10 do 14 sierpnia

Nested Attention: semantycznie świadome wartości uwagi dla personalizacji koncepcji

Nested Attention to nowa metoda, która pomaga poprawić zachowanie tożsamości w modelach generowania obrazów, tworząc bardziej spójne i dokładne obrazy określonych obiektów w różnych stylach i scenach. Dzięki wprowadzeniu semantycznie świadomej struktury uwagi model lepiej zachowuje tożsamość w różnych stylach i scenach. Umożliwia to tworzenie spersonalizowanych obrazów, nawet łącząc różne obiekty – takie jak osoba i jej zwierzę – w jednym obrazie.

InstantRestore: jednoetapowa spersonalizowana renowacja twarzy z uwagą na udostępniony obraz

W tym artykule przedstawiono InstantRestore, metodę przywracania zdegradowanych obrazów twarzy za pomocą jednego przejścia w przód przez model dyfuzyjny. Ma ona na celu zachowanie cech specyficznych dla tożsamości, wspierając wydajną, świadomą tożsamości renowację w celu ulepszenia zdjęć portretowych.

Personalizacja dynamicznych koncepcji z pojedynczych filmów

Set-and-Sequence to nowa platforma dla modeli generowania wideo, która odpowiada na wyzwanie generowania filmów z „dynamicznymi koncepcjami” – bytami zdefiniowanymi nie tylko przez ich wygląd, ale także przez ich unikalne wzorce ruchu w czasie, takie jak fale oceanu lub migoczące ognisko. Set-and-Sequence umożliwia realistyczną personalizację wideo poprzez uczenie się, jak dynamiczne obiekty zachowują się w czasie, co pozwala na spójny ruch, kompozycję sceny i mieszanie między scenami.

DuetGen: generowanie tańca dla dwóch osób sterowane muzyką za pomocą hierarchicznego modelowania maskowanego

DuetGen to platforma do generowania zsynchronizowanych ruchów tanecznych dla dwóch osób bezpośrednio z muzyki. Odpowiada na wyzwanie modelowania interaktywnej choreografii, takiej jak skoordynowany ruch i fizyczne interakcje między partnerami tanecznymi. System umożliwia realistyczne generowanie tańca w duecie do zastosowań w animacji, wirtualnych awatarach i występach cyfrowych.

Be Decisive: układy wywołane szumem do generowania wielu obiektów

Nasza praca Be Decisive podejmuje wyzwanie dokładnego generowania wielu odrębnych obiektów w złożonych obrazach bez niedokładności wizualnych lub niezamierzonego mieszania. Be Decisive wprowadza małą sieć neuronową, która przewiduje i udoskonala wywołany szumem układ przestrzenny podczas odszumiania, wskazując, gdzie każdy obiekt powinien pojawić się od najwcześniejszych etapów generowania obrazu. Pozwala to na tworzenie bardzo szczegółowych obrazów z wieloma określonymi obiektami, zapewniając wyraźne granice i naturalne kompozycje między nimi.

KDD 2025 -- Toronto, Ontario, Kanada, od 3 do 7 sierpnia

GiGL: sieci neuronowe grafów na dużą skalę w Snapchacie

GiGL to biblioteka open-source do trenowania i uruchamiania grafowych sieci neuronowych (GNN) na grafach na dużą skalę, obsługująca setki milionów węzłów i miliardy krawędzi. GIGL jest używany w Snap w kluczowych aplikacjach uczenia maszynowego, w tym we wzroście liczby użytkowników, rankingu treści i reklamie.

O roli zaniku wagi w filtrowaniu kolaboratywnym: perspektywa popularności

W tym artykule przedstawiono PRISM (Popularity-awaRe Initialization Strategy for embedding Magnitudes). PRISM eliminuje stosowanie zaniku wagi osadzania, powszechnej, ale kosztownej techniki w trenowaniu modeli rekomendacji, i zamiast tego zastępuje ją pojedynczym lekkim obliczeniem na początku trenowania. PRISM jest szybki, prosty w zastosowaniu, co prowadzi do bardziej wydajnych systemów rekomendacji.

Ponowne spojrzenie na samo-uwagę w sekwencyjnej rekomendacji między domenami

W tej pracy przedstawiono AutoCDSR, metodę poprawy sposobu, w jaki takie systemy przewidują zachowania użytkowników w różnych domenach interakcji, poprzez promowanie skutecznego dzielenia się wiedzą przy jednoczesnym łagodzeniu szumów lub nieistotnych sygnałów. AutoCDSR poprawia dokładność i solidność personalizacji w ustawieniach rekomendacji.

SnapGen: okiełznanie modeli tekst-obraz o wysokiej rozdzielczości dla urządzeń mobilnych z wydajnymi architekturami i szkoleniem Model Snap AI T2I dla urządzeń mobilnych

SnapGen to wysokowydajny model badawczy tekst-obraz, zaprojektowany do działania bezpośrednio na urządzeniach mobilnych, generujący wysokiej jakości obrazy w czasie poniżej dwóch sekund. Ma potencjał, aby drastycznie zmniejszyć moc obliczeniową i pamięć wymaganą do generowania obrazów na urządzeniu.

SnapGen-V: generowanie pięciosekundowego wideo w ciągu pięciu sekund na urządzeniu mobilnym

SnapGen-V rozszerza nasz model SnapGen o możliwość generowania pięciosekundowych filmów bezpośrednio na urządzeniach mobilnych w zaledwie pięć sekund. Umożliwia szybkie generowanie wideo na urządzeniu, opierając się na naszych postępach w modelowaniu tekst-obraz.

4Real-Video: nauka uogólnialnej fotorealistycznej dyfuzji wideo 4D

Model badawczy 4Real-Video generuje realistyczne filmy 4D z bogatymi szczegółami i naturalnym ruchem, które można oglądać pod różnymi kątami. Technologia ta ma potencjalne zastosowania w immersyjnym VR i doświadczeniach narracyjnych nowej generacji.

Stable Flow: kluczowe warstwy do edycji obrazów bez szkolenia

Nasz model badawczy Stable Flow umożliwia zaawansowaną edycję obrazów, taką jak dodawanie lub usuwanie obiektów, bez konieczności skomplikowanego szkolenia lub zaawansowanego sprzętu. Takie podejście pozwala każdemu z łatwością edytować zdjęcia, bez potrzeby posiadania wiedzy technicznej.

Omni-ID: holistyczna reprezentacja tożsamości zaprojektowana do zadań generatywnych

Nasz model badawczy Omni-ID tworzy kompleksową reprezentację twarzy osoby pod różnymi kątami i z różnymi wyrazami, umożliwiając bardziej realistyczne i spersonalizowane generacje AI i AR.

PrEditor3D: szybka i precyzyjna edycja kształtów 3D

PrEditor3D to narzędzie opracowane przez nasze zespoły badawcze, które pozwala na szybką i precyzyjną edycję modeli 3D przy minimalnym wkładzie, usprawniając proces tworzenia treści 3D poprzez uproszczenie sposobu manipulowania i dostosowywania kształtów 3D. W zastosowaniu PrEditor3D ma potencjał, aby ułatwić animatorom i twórcom nakładek efektywne urzeczywistnianie ich wizji, co prowadzi do bogatszych i bardziej immersyjnych doświadczeń AR.

Mozaika modalności: kompleksowy benchmark dla multimodalnego uczenia grafów

MM-Graph wprowadza pierwszy benchmark dla multimodalnego uczenia grafów, uwzględniając zarówno dane wizualne, jak i tekstowe, aby zaradzić znaczącej luce informacji wizualnych w obecnych benchmarkach. Pozwala to na bardziej kompleksową ocenę modeli i napędza innowacje w systemach uczenia grafów, które potrafią rozumieć bogatsze, rzeczywiste dane wejściowe.

Video Alchemist

Za pomocą podpowiedzi tekstowej i zestawu obrazów referencyjnych Video Alchemist umożliwia generowanie filmów bez obszernego dostrajania lub optymalizacji. W zastosowaniu usprawni to personalizację wideo z niestandardowym wyglądem i tłem, oszczędzając czas i zwiększając kreatywność.

Mind the Time: czasowo kontrolowane generowanie wideo z wieloma zdarzeniami

Mind the Time wprowadza precyzyjną kontrolę czasową do filmów generowanych przez AI. Pozwoliłoby to twórcom dyktować sekwencję i czas zdarzeń. Umożliwia bardziej ustrukturyzowane, spójne opowiadanie historii w generowaniu wideo.

Przenoszenie ruchu wideo za pomocą transformatorów dyfuzyjnych

Video Motion Transfer to metoda przenoszenia realistycznego ruchu z jednego wideo na drugie za pomocą modelu badawczego dyfuzji. W zastosowaniu model ten mógłby łatwo tworzyć filmy z realistycznym ruchem, przenosząc ruch z filmów referencyjnych, bez potrzeby skomplikowanych konfiguracji.

Wonderland: nawigacja po scenach 3D z jednego obrazu

Wonderland tworzy szczegółowe sceny 3D z jednego zdjęcia, upraszczając tworzenie scen 3D i pozwalając na szybsze i bardziej wydajne projektowanie bez potrzeby posiadania wielu ujęć lub rozległych zasobów.

AC3D: analiza i ulepszanie kontroli kamery 3D w transformatorach dyfuzji wideo

AC3D poprawia kontrolę kamery w modelach generowania wideo, umożliwiając płynniejszy, bardziej realistyczny ruch. Daje to twórcom większą elastyczność w zakresie ruchów kamery w filmach oraz poprawia jakość i realizm generowanych scen.

Wszystkie przedstawione tutaj modele i prace służą wyłącznie celom badawczym.

Ten post będzie nadal aktualizowany.

Powrót do Aktualności

Skontaktuj się z nami

W sprawach prasowych prosimy o kontakt e-mailowy press@snap.com.
W przypadku wszystkich innych zapytań odwiedź naszą stronę pomocy.