11 juni 2025
11 juni 2025

Snap op CVPR

Waarom Snap-onderzoek op het punt staat om de toekomst van creatieve digitale technologie vorm te geven

Dit jaar delen we 12 presentaties op CVPR 2025, de belangrijkste conferentie voor innovatie op gebied van AI en computer vision, die vanaf vandaag tot 15 juni plaatsvindt in Nashville, Tennessee.

77% van de inzendingen voor Snap-onderzoek werd geaccepteerd. Dat is meer dan het gemiddelde van 22% in de sector, een bewijs van het innovatieve werk van ons team. 

Snap presenteert verschillende onderwerpen, waaronder twee van onze presentaties, SnapGen en 4Real-Video, die door CVPR werden genoemd in de top 3% van de inzendingen.

Zie hieronder voor een volledige samenvatting en planning.



1. SnapGen: maak tekst-naar-afbeeldingmodellen met hoge resolutie voor mobiele apparaten met efficiënte architectuur en training

Snap AI T2I-model voor mobiele apparaten

SnapGen is een krachtig tekst-naar-afbeelding onderzoeksmodel, dat rechtstreeks op mobiele apparaten werkt en in minder dan twee seconden afbeeldingen van hoge kwaliteit genereert. Het heeft de potentie om de rekenkracht en het geheugen die nodig zijn om afbeeldingen op het apparaat te genereren drastisch te verminderen.

2. SnapGen-V: Genereert binnen vijf seconden een video van vijf seconden op een mobiel apparaat

SnapGen-V breidt ons SnapGen-model uit en genereert in slechts vijf seconden video's van vijf seconden rechtstreeks op mobiele apparaten. Video's kunnen zo snel en makkelijk op het apparaat worden gegenereerd en bouwt voort op onze ontwikkelingen in het modelleren van tekst-naar-afbeelding.

3. 4Real-Video: generaliseerbare fotorealistische 4D-video-diffusie leren 

Het 4Real-Video onderzoeksmodel genereert realistische 4D-video's met rijke details en natuurlijke beweging die vanuit meerdere hoeken kunnen worden bekeken. Deze technologie heeft mogelijke applicaties in meeslepende VR en next-gen storytelling.

4. Stable Flow: cruciale lagen voor het bewerken van afbeeldingen zonder trainen

Ons Stable Flow onderzoeksmodel maakt krachtige afbeeldingen mogelijk, zoals het toevoegen of verwijderen van objecten zonder dat complexe training of high-end hardware nodig is. Met deze aanpak kan iedereen eenvoudig foto's bewerken, zonder technische expertise.

5. Omni-ID: holistische identiteitsvoorstelling ontworpen voor generatieve taken

Ons Omni-ID onderzoeksmodel maakt een uitgebreide voorstelling van het gezicht van een persoon uit verschillende hoeken en met verschillende uitdrukkingen, waardoor realistischere en gepersonaliseerde AI- en AR-generaties mogelijk worden.

6. PrEditor3D: snel en nauwkeurig 3D-vormen bewerken

PrEditor3D is een tool die is ontwikkeld door onze onderzoeksteams waarmee je met minimale input snel en nauwkeurig 3D-modellen kunt bewerken. Dit stroomlijnt het proces van het maken van 3D-content, want het vereenvoudigt de manier waarop 3D-vormen worden bewerkt en aangepast. In toepassing kan PrEditor3D het makkelijker maken voor animators en Lensmakers om hun ideeën efficiënt tot leven te brengen, wat leidt tot rijkere en boeiende AR-ervaringen.

7. Mosaic of Modalities: een uitgebreide benchmark voor het leren van multimodale grafieken 

MM-Graph is de eerste benchmark voor het leren van multimodale grafieken en bevat zowel visuele als tekstuele gegevens. Daarmee wordt het aanzienlijke tekort aan visuele informatie in de huidige benchmarks aangevuld. Dit maakt een uitgebreidere modelevaluatie mogelijk en stimuleert innovatie in grafiekleersystemen die rijkere, praktijkinvoer kunnen begrijpen.

8. Video Alchemist

Video Alchemist kan met een tekstprompt en een set referentie-afbeeldingen video's genereren zonder uitgebreide afstemming of optimalisatie. In toepassing wordt hierdoor personalisatie van video's gestroomlijnd met eigen verschijningen en achtergronden, waardoor tijd wordt bespaard en creativiteit wordt verbeterd.

9. Mind the Time: tijdgeregelde videogeneratie met meerdere gebeurtenissen

Mind the Time maakt nauwkeurige tijdregeling mogelijk voor AI-gegenereerde video's. Hiermee kunnen makers de volgorde en timing van gebeurtenissen bepalen. Het maakt meer gestructureerd, samenhangend storytelling mogelijk bij het genereren van video's.

10. Video Motion Transfer met diffusietransformatoren

Video Motion Transfer is een methode voor het overbrengen van realistische beweging van de ene video naar de andere met behulp van een diffusie-onderzoeksmodel. In toepassing kun je met dit model eenvoudig video's maken met realistische bewegingen door beweging van referentievideo's over te dragen, zonder dat complexe instellingen nodig zijn.

11. Wonderland: door 3D-scènes navigeren vanuit één afbeelding

Wonderland maakt gedetailleerde 3D-scènes van slechts één foto, waardoor het aanmaken van 3D-scènes wordt vereenvoudigd. Het maakt sneller en efficiënter ontwerp mogelijk zonder dat meerdere hoeken of uitgebreide informatiebronnen nodig zijn.

12. AC3D: analyseren en verbeteren van de 3D-camerabediening in videodiffusietransformatoren

AC3D verbetert de camerabediening binnen modellen voor videogeneratie, waardoor soepelere, realistischere bewegingen mogelijk worden. Dit geeft makers meer flexibiliteit ten aanzien van camerabewegingen in video's en het verbetert de kwaliteit en het realisme van gegenereerde scènes.

Bezoek ons op CVPR! 

*Alle modellen en werk die hier worden beschreven, zijn uitsluitend voor onderzoeksdoeleinden. 

Terug naar Nieuws