10. August 2025

Snap Research 2025

Konferenzen & Events

Das Forschungsteam von Snap ist führend in den Bereichen AR und generative KI, Empfehlungssysteme und personalisierte Kreativtools.

Im Jahr 2025 werden wir unsere Arbeit auf mehreren der führenden branchenbezogenen Konferenzen und Veranstaltungen präsentieren.

Vergangene Events:

SIGGRAPH 2025 -- Vancouver, Kanada, vom 10. bis 14. August

Nested Attention: Semantisch bewusste Aufmerksamkeitswerte für die Personalisierung von Konzepten

Nested Attention ist eine neue Methode zur Bewahrung der Identität in Bilderzeugungsmodellen, um konsistentere und genauere Bilder von bestimmten Themen in verschiedenen Stilen und Szenen zu erstellen. Durch die Einführung einer semantisch bewussten Aufmerksamkeitsstruktur kann das Modell besser die Identität in verschiedenen Stilen und Szenen bewahren. Auf diese Weise lassen sich personalisierte Bilder erstellen, in denen auch verschiedene Motive – wie eine Person und ihr Haustier – in einem Bild zusammengeführt werden können.

InstantRestore: Personalisierte Gesichtswiederherstellung in einem Schritt Shared-Image Attention

In diesem Artikel wird InstantRestore vorgestellt, eine Methode zur Wiederherstellung degradierter Gesichtsbilder mittels eines Diffusionsmodell, das mit einem einzigen Durchgang arbeitet. Damit sollen identitätsspezifische Merkmale beibehalten und eine effiziente identitätsbewusste Wiederherstellung zur Verbesserung von Porträtfotos unterstützt werden.

Dynamische Personalisierung von Konzepten von einzelnen Videos ausgehend

Set-and-Sequence ist ein neues Framework für Modelle zur Generierung von Videos, bei dem es darum geht, Videos mit „dynamischen Konzepten“ zu generieren – Entitäten, die nicht nur durch ihr Aussehen, sondern auch durch ihre einzigartigen Bewegungsmuster im Laufe der Zeit definiert sind, wie z. B. Ozeanwellen oder ein flackerndes Lagerfeuer. Mit Set-and-Sequence lassen sich Videos auf realistische Weise personalisieren, da es lernt, wie sich dynamische Motive im Laufe der Zeit verhalten. Dadurch werden konstante Bewegungen, Szenenkomposition und szenenübergreifende Mischungen möglich.

DuetGen: Musikbasierte Generierung von Paartänzen mithilfe eines hierarchischen maskierten Models

DuetGen ist ein Framework zur Generierung synchronisierter, an der Musik augerichtetetn Tanzbewegungen für zwei Personen. Dabei geht es um die schwierige Modellierung interaktiver Choreografien wie koordinierte Bewegungen und körperliche Interaktionen zwischen Tanzpartnern. Mithilfe dieses Systems lassen sich realistische Paartänze für Animationen, virtuelle Avatare und digitale Tanzdarbietungen generieren.

Be Decisive: Geräuschinduzierte Layouts für die Generierung mehrerer Themen

Bei unserer Arbeit Be Decisive geht es um die Generierung mehrerer verschiedener Motive in komplexen Bildern ohne visuelle Ungenauigkeiten oder unbeabsichtigte Vermischungen. Bei Be Decisive handelt es sich um ein kleines neuronales Netzwerk, das während der Denoisierung ein geräuschinduziertes räumliches Layout vorhersagt und verfeinert, um ab den frühesten Phasen der Bilderzeugung zu bestimmen, wo die einzelnen Motive erscheinen sollten. Auf diese Weise lassen sich sehr detaillierte Bilder mit mehreren spezifischen Motiven erstellen, bei denen klare Grenzen zwischen ihnen und natürliche Kompositionen gewährleistet sind.

KDD 2025 -- Toronto, Ontario, Kanada, vom 3. bis 7. August

GiGL: Große grafische neuronale Netzwerke bei Snapchat

GiGL ist eine Open-Source-Bibliothek zum Trainieren und Ausführen von Graph Neural Networks (GNNs) in großen Graphen, die Hunderte von Millionen Knoten und Milliarden von Kanten unterstützen. GIGL wird bei Snap in wichtigen Anwendungen für maschinelles Lernen eingesetzt, darunter Nutzerwachstum, Content-Ranking und Werbung.

Zur Rolle des Gewichtszerfalls beim kollaborativen Filtern: Aus Perspektive des Bekanntheitsgrads

In diesem Artikel wird PRISM (Popularity-awaRe Initialization Strategy for embedding Magnitudes) vorgestellt. Bei PRISM wird auf die Einbettung des Gewichtszerfalls verzichtet, eine gängige, aber teure Methode beim Training von Empfehlungsmodellen. Stattdessen wird zu Beginn des Trainings eine einzige einfache Berechnung durchgeführt. PRISM ist schnell und einfach anwendbar und führt zu effizienteren Empfehlungssystemen.

Überarbeitung von Self-Attention für domainübergreifende sequenzielle Empfehlungen

In dieser Arbeit wird AutoCDSR vorgestellt, eine Methode, damit Systeme das Verhalten von Nutzern in verschiedenen Interaktionsbereichen besser vorhersagen können, wodurch ein effektiver Wissenstransfer gefördert und gleichzeitig störende oder irrelevante Signale reduziert werden. AutoCDSR verbessert die Genauigkeit und Robustheit der Personalisierung in Empfehlungseinstellungen.

SnapGen: Hochauflösende Text-zu-Bild-Modelle für Mobilgeräte mit effizienten Architekturen und Schulungen Snap AI T2I-Modell für Mobilgeräte

SnapGen ist ein leistungsstarkes Text-zu-Bild-Forschungsmodell, das direkt auf Mobilgeräten ausgeführt wird und in weniger als zwei Sekunden hochwertige Bilder generiert. Es hat das Potenzial, die für die Geräte-Bildgenerierung erforderliche Rechenleistung und den erforderlichen Arbeitsspeicher drastisch zu reduzieren.

SnapGen-V: Generierung eines Fünf-Sekunden-Videos auf einem Mobilgerät innerhalb von fünf Sekunden

SnapGen-V erweitert unser SnapGen-Modell, um in nur fünf Sekunden Fünf-Sekunden-Videos direkt auf Mobilgeräten zu generieren. Es ermöglicht eine schnelle Videoerstellung auf dem Gerät und baut auf unseren Fortschritten bei der Text-zu-Bild-Modellierung auf.

4Real-Video: Erlernen verallgemeinbarer fotorealistischer 4D-Videoübertragungen

Das 4Real-Video-Forschungsmodell generiert realistische 4D-Videos mit hohem Detaireichtum und natürlichen Bewegungen, die aus verschiedenen Bliclwinkeln betrachtet werden können. Diese Technologie hat potenzielle Anwendungen in immersiven VR- und Next-Gen-Storytelling-Erlebnissen.

Stable Flow: Wichtige Ebenen für die trainingsfreie Bildbearbeitung

Unser Stable Flow-Forschungsmodell ermöglicht eine leistungsstarke Bildbearbeitung, wie das Hinzufügen oder Entfernen von Objekten, ohne komplexe Schulungen oder High-End-Hardware zu benötigen. Auf diese Weise kann jeder Fotos einfach bearbeiten, ohne dass technisches Fachwissen erforderlich ist.

Omni-ID: Ganzheitliche Identitätsrepräsentation für generative Aufgaben

Unser Omni-ID-Forschungsmodell erstellt eine umfassende Darstellung des Gesichts einer Person aus verschiedenen Blickwinkeln und mit unterschiedlichen Gesichtsausdrücken, um realistischere und personalisierte KI- und AR-Generationen zu ermöglichen.

PrEditor3D: Schnelle und präzise 3D-Formenbearbeitung

PrEditor3D ist ein von unseren Forschungsteams entwickeltes Tool, das eine schnelle und präzise Bearbeitung von 3D-Modellen mit minimale Eingaben ermöglicht und den Prozess der Erstellung von 3D-Inhalten durch die Vereinfachung der Manipulation und Anpassung von 3D-Formen optimiert. In der Anwendung hat PrEditor3D das Potenzial, es Animatoren und Lens Creators zu erleichtern, ihre Visionen effizient zum Leben zu erwecken, was zu umfangreicheren und immersiveren AR-Erlebnissen führt.

Mosaic of Modalities: Ein umfassender Benchmark für das multimodale Graph-Lernen

MM-Graph stellt den ersten Meilenstein für das multimodale Graph-Lernen vor, der sowohl visuelle als auch textliche Daten enthält, um die erhebliche Lücke an visuellen Informationen in aktuellen Benchmarks zu schließen. Dies ermöglicht eine umfassendere Modellbewertung und fördert die Innovation bei Graph-Lernsystemen, die umfangreichere, reale Eingaben verstehen können.

Video Alchemist

Mit einer Textaufforderung und einer Reihe von Referenzbildern ermöglicht Video Alchemist die Generierung von Videos ohne umfangreiche Einstellungen oder Optimierungen. In der Anwendung wird dadurch die Video-Personalisierung mit benutzerdefinierten Auftritten und Hintergründen optimiert, um Zeit zu sparen und gleichzeitig die Kreativität zu steigern.

Mind the Time: Zeitlich kontrollierte Generierung von Multi-Event-Videos

Mind the Time führt eine präzise zeitliche Steuerung in KI-generierten Videos ein. Auf diese Weise können Kreatoren die Reihenfolge und das Timing der Ereignisse vorgeben. Es ermöglicht ein strukturierteres, kohärenteres Storytelling bei der Videogenerierung.

Video Motion Transfer mit Diffusion Transformern

Video Motion Transfer ist eine Methode zur Übertragung realistischer Bewegungen von einem Video auf ein anderes mit einem Diffusionsforschungsmodell. In der Anwendung könnte dieses Modell auf einfache Weise Videos mit realistischen Bewegungen erstellen, indem es Bewegungen von Referenzvideos überträgt, ohne komplexe Setups zu benötigen.

Wonderland: Navigieren von 3D-Szenen aus einem einzigen Bild heraus

Wonderland erstellt detaillierte 3D-Szenen aus nur einem Foto, um die Erstellung von 3D-Szenen zu vereinfachen und ein schnelleres und effizienteres Design zu ermöglichen, ohne mehrere Blickwinkel oder umfangreiche Ressourcen zu benötigen.

AC3D: Analyse und Verbesserung der 3D-Kamerasteuerung in Video Diffusion Transformern

AC3D verbessert die Kamerasteuerung in Videogenerierungsmodellen und ermöglicht reibungslosere, realistischere Bewegungen. Dies gibt Kreatoren mehr Flexibilität bei den Kamerabewegungen in Videos und verbessert die Qualität und den Realismus der generierten

*Alle hier beschriebenen Modelle und Arbeiten dienen nur zu Forschungszwecken.

Dieser Beitrag wird weiterhin aktualisiert.

Zurück zu den News

Melde dich bei uns

Medienanfragen bitte per E-Mail an press@snap.com.
Die Kontaktangaben für alle sonstigen Anfragen findest du auf unserer Support-Website.