
Snap Research 2025
Konferenssit ja tapahtumat
Snap Research -tiimi johtaa innovaatiota AR:n ja generatiivisen tekoälyn, suositusjärjestelmien ja personoitujen luovien työkalujen parissa.
Vuonna 2025 esittelemme työtämme useissa alan johtavissa konferensseissa ja tapahtumissa.
Menneet tapahtumat:

SIGGRAPH 2025 -- Vancouver, Kanada, 10.–14. elokuuta
Nested Attention: semanttisesti tietoisten huomioarvojen käyttö käsitteiden personoinnissa
Nested Attention on uusi menetelmä, joka auttaa parantamaan identiteetin säilymistä kuvien luontimalleissa ja luo yhdenmukaisempia ja tarkempia kuvia tietyistä kohteista eri tyyleissä ja kohtauksissa. Ottamalla käyttöön semanttisesti tietoisen huomiorakenteen malli säilyttää identiteetin paremmin eri tyyleissä ja kohtauksissa. Tämä mahdollistaa henkilökohtaisten kuvien luomisen ja jopa eri kohteiden, kuten henkilön ja hänen lemmikkinsä, yhdistämisen yhteen kuvaan.
InstantRestore: yhden vaiheen personoitu kasvojen palautus jaetun kuvan huomiolla
Tässä artikkelissa esitellään InstantRestore, menetelmä heikentyneiden kasvokuvien palauttamiseen yhdellä diffuusiomallin läpikäynnillä. Sen tavoitteena on säilyttää identiteettikohtaiset piirteet, mikä tukee tehokasta identiteettitietoista palautusta muotokuvien parantamiseksi.
Dynaamisten käsitteiden personointi yksittäisistä videoista
Set-and-Sequence on uusi kehys videonluontimalleille, joka vastaa haasteeseen luoda videoita, joissa on ”dynaamisia käsitteitä” – entiteettejä, jotka määritellään paitsi ulkonäkönsä myös ainutlaatuisten liikekuvioidensa perusteella ajan mittaan, kuten meren aallot tai välkkyvä nuotio. Set-and-Sequence mahdollistaa realistisen videon personoinnin oppimalla, miten dynaamiset kohteet käyttäytyvät ajan mittaan, mikä mahdollistaa johdonmukaisen liikkeen, kohtauksen sommittelun ja kohtausten välisen sekoituksen.
DuetGen: musiikkiohjattu kahden henkilön tanssin luonti hierarkkisen peitetyn mallinnuksen avulla
DuetGen on kehys, jolla luodaan synkronoituja kahden henkilön tanssiliikkeitä suoraan musiikista. Se vastaa interaktiivisen koreografian mallintamisen haasteeseen, kuten koordinoituun liikkeeseen ja tanssiparien väliseen fyysiseen vuorovaikutukseen. Järjestelmä mahdollistaa realistisen duettotanssin luomisen animaatio-, virtuaaliavatari- ja digitaalisen esityksen sovelluksiin.
Be Decisive: kohinan aiheuttamat asettelut usean kohteen luomiseen
Työmme Be Decisive vastaa haasteeseen luoda tarkasti useita erillisiä kohteita monimutkaisissa kuvissa ilman visuaalisia epätarkkuuksia tai tahatonta sekoittumista. Be Decisive esittelee pienen neuroverkon, joka ennustaa ja tarkentaa kohinan aiheuttamaa spatiaalista asettelua kohinanpoiston aikana ja ohjaa, mihin kunkin kohteen tulisi ilmestyä kuvan luomisen varhaisimmista vaiheista lähtien. Tämä mahdollistaa erittäin yksityiskohtaisten kuvien luomisen useilla tietyillä kohteilla, mikä takaa selkeät rajat ja luonnolliset sommittelut niiden välillä.

KDD 2025 -- Toronto, Ontario, Kanada, 3.–7. elokuuta
GiGL: laajamittaiset graafineuroverkot Snapchatissa
GiGL on avoimen lähdekoodin kirjasto graafineuroverkkojen (GNN) kouluttamiseen ja käyttämiseen laajamittaisissa graafeissa, jotka tukevat satoja miljoonia solmuja ja miljardeja reunoja. GIGL:ää käytetään Snapissa tärkeimmissä koneoppimissovelluksissa, kuten käyttäjien kasvussa, sisällön sijoituksessa ja mainonnassa.
Painon heikkenemisen roolista yhteistoiminnallisessa suodatuksessa: suosion näkökulma
Tässä artikkelissa esitellään PRISM (Popularity-awaRe Initialization Strategy for embedding Magnitudes). PRISM poistaa upotuspainon heikkenemisen käytön, joka on yleinen mutta kallis tekniikka suositusmallien koulutuksessa, ja korvaa sen sen sijaan yhdellä kevyellä laskutoimituksella koulutuksen alussa. PRISM on nopea, helppokäyttöinen ja johtaa tehokkaampiin suositusjärjestelmiin.
Itsehuomion uudelleentarkastelu toimialueiden välisessä peräkkäisessä suosituksessa
Tämä työ esittelee AutoCDSR:n, menetelmän, jolla parannetaan sitä, miten tällaiset järjestelmät ennustavat käyttäjien käyttäytymistä eri vuorovaikutusalueilla edistämällä tehokasta tiedon jakamista ja lieventämällä samalla kohinaisia tai epäolennaisia signaaleja. AutoCDSR parantaa personoinnin tarkkuutta ja kestävyyttä suositusasetuksissa.

SnapGen: korkearesoluutioisten tekstistä kuvaksi -mallien kesyttäminen mobiililaitteille tehokkailla arkkitehtuureilla ja koulutuksella Snapin tekoälyn T2I-malli mobiililaitteille
SnapGen on tehokas tekstistä kuvaksi -tutkimusmalli, joka on suunniteltu toimimaan suoraan mobiililaitteilla ja luomaan korkealaatuisia kuvia alle kahdessa sekunnissa. Sillä on potentiaalia vähentää merkittävästi laitteessa tapahtuvaan kuvien luomiseen tarvittavaa laskentaa ja muistia.
SnapGen-V: viiden sekunnin videon luominen viidessä sekunnissa mobiililaitteella
SnapGen-V laajentaa SnapGen-malliamme luomaan viiden sekunnin videoita suoraan mobiililaitteilla vain viidessä sekunnissa. Se tuo nopean, laitteessa tapahtuvan videon luomisen ulottuville ja perustuu edistysaskeliimme tekstistä kuvaksi -mallinnuksessa.
4Real-Video: yleistettävän, valokuvarealistisen 4D-videodiffuusion oppiminen
4Real-Video-tutkimusmalli luo realistisia 4D-videoita, joissa on runsaasti yksityiskohtia ja luonnollista liikettä ja joita voi katsella useista kulmista. Tällä teknologialla on potentiaalisia sovelluksia immersiivisessä VR:ssä ja seuraavan sukupolven tarinankerrontakokemuksissa.
Stable Flow: elintärkeät kerrokset koulutusvapaaseen kuvankäsittelyyn
Stable Flow -tutkimusmallimme mahdollistaa tehokkaan kuvankäsittelyn, kuten kohteiden lisäämisen tai poistamisen ilman monimutkaista koulutusta tai huippuluokan laitteistoa. Tämä lähestymistapa antaa kenelle tahansa mahdollisuuden muokata valokuvia helposti ilman teknistä asiantuntemusta.
Omni-ID: kokonaisvaltainen identiteetin esitys, joka on suunniteltu generatiivisiin tehtäviin
Omni-ID-tutkimusmallimme rakentaa kattavan esityksen henkilön kasvoista eri kuvakulmista ja ilmeistä, mikä mahdollistaa realistisempia ja personoidumpia tekoäly- ja AR-sukupolvia.
PrEditor3D: nopea ja tarkka 3D-muotojen muokkaus
PrEditor3D on tutkimusryhmiemme kehittämä työkalu, joka mahdollistaa 3D-mallien nopean ja tarkan muokkaamisen minimaalisella syötteellä, mikä tehostaa 3D-sisällön luontiprosessia yksinkertaistamalla 3D-muotojen käsittelyä ja säätämistä. Sovelluksessa PrEditor3D:llä on potentiaalia helpottaa animaattoreiden ja tehosteiden luojien visioidensa toteuttamista tehokkaasti, mikä johtaa rikkaampiin ja immersiivisempiin AR-kokemuksiin.
Modaliteettien mosaiikki: kattava vertailuarvo multimodaaliselle graafioppimiselle
MM-Graph esittelee ensimmäisen vertailuarvon multimodaaliselle graafioppimiselle, joka sisältää sekä visuaalista että tekstuaalista dataa ja vastaa nykyisten vertailuarvojen merkittävään visuaalisen tiedon puutteeseen. Tämä mahdollistaa kattavamman mallin arvioinnin ja edistää innovaatiota graafioppimisjärjestelmissä, jotka voivat ymmärtää rikkaampia, todellisen maailman syötteitä.
Tekstikehotteen ja viitekuvien avulla Video Alchemist mahdollistaa videoiden luomisen ilman laajaa viritystä tai optimointia. Sovelluksessa tämä tehostaa videon personointia mukautetuilla ulkoasuilla ja taustoilla, säästää aikaa ja parantaa luovuutta.
Mind the Time: ajallisesti ohjattu usean tapahtuman videon luonti
Mind the Time tuo tarkan ajallisen hallinnan tekoälyn luomiin videoihin. Sen avulla sisällöntuottajat voivat sanella tapahtumien järjestyksen ja ajoituksen. Se mahdollistaa jäsennellymmän ja yhtenäisemmän tarinankerronnan videon luomisessa.
Videon liikkeensiirto diffuusiotransformereilla
Videon liikkeensiirto on menetelmä realistisen liikkeen siirtämiseksi videosta toiseen diffuusiotutkimusmallin avulla. Sovelluksessa tämä malli voisi helposti luoda videoita, joissa on realistista liikettä, siirtämällä liikettä viitevideoista ilman monimutkaisia asetuksia.
Wonderland: 3D-kohtausten navigointi yhdestä kuvasta
Wonderland luo yksityiskohtaisia 3D-kohtauksia vain yhdestä valokuvasta, mikä yksinkertaistaa 3D-kohtausten luomista ja mahdollistaa nopeamman ja tehokkaamman suunnittelun ilman useita kuvakulmia tai laajoja resursseja.
AC3D: 3D-kameran ohjauksen analysointi ja parantaminen videodiffuusiotransformereissa
AC3D parantaa kameran hallintaa videonluontimalleissa, mikä mahdollistaa sulavamman ja realistisemman liikkeen. Tämä antaa sisällöntuottajille enemmän joustavuutta kameran liikkeisiin videoissa ja parantaa luotujen kohtausten laatua ja realismia.
*Kaikki tässä esitetyt mallit ja työt on tarkoitettu vain tutkimustarkoituksiin.
Tätä julkaisua päivitetään jatkossakin.
Ota yhteyttä
Lehdistötiedustelut sähköpostitse press@snap.com.
Kaikissa muissa tiedusteluissa, käy tukisivustollamme.