10. elokuuta 2025
10. elokuuta 2025

Snap Research 2025

Konferenssit ja tapahtumat

Snap Research -tiimi johtaa innovaatiota AR:n ja generatiivisen tekoälyn, suositusjärjestelmien ja personoitujen luovien työkalujen parissa.

Vuonna 2025 esittelemme työtämme useissa alan johtavissa konferensseissa ja tapahtumissa.


Menneet tapahtumat:

SIGGRAPH 2025 -- Vancouver, Kanada, 10.–14. elokuuta

Nested Attention: semanttisesti tietoisten huomioarvojen käyttö käsitteiden personoinnissa

Nested Attention on uusi menetelmä, joka auttaa parantamaan identiteetin säilymistä kuvien luontimalleissa ja luo yhdenmukaisempia ja tarkempia kuvia tietyistä kohteista eri tyyleissä ja kohtauksissa. Ottamalla käyttöön semanttisesti tietoisen huomiorakenteen malli säilyttää identiteetin paremmin eri tyyleissä ja kohtauksissa. Tämä mahdollistaa henkilökohtaisten kuvien luomisen ja jopa eri kohteiden, kuten henkilön ja hänen lemmikkinsä, yhdistämisen yhteen kuvaan.

InstantRestore: yhden vaiheen personoitu kasvojen palautus jaetun kuvan huomiolla

Tässä artikkelissa esitellään InstantRestore, menetelmä heikentyneiden kasvokuvien palauttamiseen yhdellä diffuusiomallin läpikäynnillä. Sen tavoitteena on säilyttää identiteettikohtaiset piirteet, mikä tukee tehokasta identiteettitietoista palautusta muotokuvien parantamiseksi.

Dynaamisten käsitteiden personointi yksittäisistä videoista

Set-and-Sequence on uusi kehys videonluontimalleille, joka vastaa haasteeseen luoda videoita, joissa on ”dynaamisia käsitteitä” – entiteettejä, jotka määritellään paitsi ulkonäkönsä myös ainutlaatuisten liikekuvioidensa perusteella ajan mittaan, kuten meren aallot tai välkkyvä nuotio. Set-and-Sequence mahdollistaa realistisen videon personoinnin oppimalla, miten dynaamiset kohteet käyttäytyvät ajan mittaan, mikä mahdollistaa johdonmukaisen liikkeen, kohtauksen sommittelun ja kohtausten välisen sekoituksen.

DuetGen: musiikkiohjattu kahden henkilön tanssin luonti hierarkkisen peitetyn mallinnuksen avulla

DuetGen on kehys, jolla luodaan synkronoituja kahden henkilön tanssiliikkeitä suoraan musiikista. Se vastaa interaktiivisen koreografian mallintamisen haasteeseen, kuten koordinoituun liikkeeseen ja tanssiparien väliseen fyysiseen vuorovaikutukseen. Järjestelmä mahdollistaa realistisen duettotanssin luomisen animaatio-, virtuaaliavatari- ja digitaalisen esityksen sovelluksiin.

Be Decisive: kohinan aiheuttamat asettelut usean kohteen luomiseen

Työmme Be Decisive vastaa haasteeseen luoda tarkasti useita erillisiä kohteita monimutkaisissa kuvissa ilman visuaalisia epätarkkuuksia tai tahatonta sekoittumista. Be Decisive esittelee pienen neuroverkon, joka ennustaa ja tarkentaa kohinan aiheuttamaa spatiaalista asettelua kohinanpoiston aikana ja ohjaa, mihin kunkin kohteen tulisi ilmestyä kuvan luomisen varhaisimmista vaiheista lähtien. Tämä mahdollistaa erittäin yksityiskohtaisten kuvien luomisen useilla tietyillä kohteilla, mikä takaa selkeät rajat ja luonnolliset sommittelut niiden välillä.

KDD 2025 -- Toronto, Ontario, Kanada, 3.–7. elokuuta

GiGL: laajamittaiset graafineuroverkot Snapchatissa

GiGL on avoimen lähdekoodin kirjasto graafineuroverkkojen (GNN) kouluttamiseen ja käyttämiseen laajamittaisissa graafeissa, jotka tukevat satoja miljoonia solmuja ja miljardeja reunoja. GIGL:ää käytetään Snapissa tärkeimmissä koneoppimissovelluksissa, kuten käyttäjien kasvussa, sisällön sijoituksessa ja mainonnassa.

Painon heikkenemisen roolista yhteistoiminnallisessa suodatuksessa: suosion näkökulma

Tässä artikkelissa esitellään PRISM (Popularity-awaRe Initialization Strategy for embedding Magnitudes). PRISM poistaa upotuspainon heikkenemisen käytön, joka on yleinen mutta kallis tekniikka suositusmallien koulutuksessa, ja korvaa sen sen sijaan yhdellä kevyellä laskutoimituksella koulutuksen alussa. PRISM on nopea, helppokäyttöinen ja johtaa tehokkaampiin suositusjärjestelmiin.

Itsehuomion uudelleentarkastelu toimialueiden välisessä peräkkäisessä suosituksessa

Tämä työ esittelee AutoCDSR:n, menetelmän, jolla parannetaan sitä, miten tällaiset järjestelmät ennustavat käyttäjien käyttäytymistä eri vuorovaikutusalueilla edistämällä tehokasta tiedon jakamista ja lieventämällä samalla kohinaisia tai epäolennaisia signaaleja. AutoCDSR parantaa personoinnin tarkkuutta ja kestävyyttä suositusasetuksissa.

SnapGen: korkearesoluutioisten tekstistä kuvaksi -mallien kesyttäminen mobiililaitteille tehokkailla arkkitehtuureilla ja koulutuksella Snapin tekoälyn T2I-malli mobiililaitteille

SnapGen on tehokas tekstistä kuvaksi -tutkimusmalli, joka on suunniteltu toimimaan suoraan mobiililaitteilla ja luomaan korkealaatuisia kuvia alle kahdessa sekunnissa. Sillä on potentiaalia vähentää merkittävästi laitteessa tapahtuvaan kuvien luomiseen tarvittavaa laskentaa ja muistia.

SnapGen-V: viiden sekunnin videon luominen viidessä sekunnissa mobiililaitteella

SnapGen-V laajentaa SnapGen-malliamme luomaan viiden sekunnin videoita suoraan mobiililaitteilla vain viidessä sekunnissa. Se tuo nopean, laitteessa tapahtuvan videon luomisen ulottuville ja perustuu edistysaskeliimme tekstistä kuvaksi -mallinnuksessa.

4Real-Video: yleistettävän, valokuvarealistisen 4D-videodiffuusion oppiminen

4Real-Video-tutkimusmalli luo realistisia 4D-videoita, joissa on runsaasti yksityiskohtia ja luonnollista liikettä ja joita voi katsella useista kulmista. Tällä teknologialla on potentiaalisia sovelluksia immersiivisessä VR:ssä ja seuraavan sukupolven tarinankerrontakokemuksissa.

Stable Flow: elintärkeät kerrokset koulutusvapaaseen kuvankäsittelyyn

Stable Flow -tutkimusmallimme mahdollistaa tehokkaan kuvankäsittelyn, kuten kohteiden lisäämisen tai poistamisen ilman monimutkaista koulutusta tai huippuluokan laitteistoa. Tämä lähestymistapa antaa kenelle tahansa mahdollisuuden muokata valokuvia helposti ilman teknistä asiantuntemusta.

Omni-ID: kokonaisvaltainen identiteetin esitys, joka on suunniteltu generatiivisiin tehtäviin

Omni-ID-tutkimusmallimme rakentaa kattavan esityksen henkilön kasvoista eri kuvakulmista ja ilmeistä, mikä mahdollistaa realistisempia ja personoidumpia tekoäly- ja AR-sukupolvia.

PrEditor3D: nopea ja tarkka 3D-muotojen muokkaus

PrEditor3D on tutkimusryhmiemme kehittämä työkalu, joka mahdollistaa 3D-mallien nopean ja tarkan muokkaamisen minimaalisella syötteellä, mikä tehostaa 3D-sisällön luontiprosessia yksinkertaistamalla 3D-muotojen käsittelyä ja säätämistä. Sovelluksessa PrEditor3D:llä on potentiaalia helpottaa animaattoreiden ja tehosteiden luojien visioidensa toteuttamista tehokkaasti, mikä johtaa rikkaampiin ja immersiivisempiin AR-kokemuksiin.

Modaliteettien mosaiikki: kattava vertailuarvo multimodaaliselle graafioppimiselle 

MM-Graph esittelee ensimmäisen vertailuarvon multimodaaliselle graafioppimiselle, joka sisältää sekä visuaalista että tekstuaalista dataa ja vastaa nykyisten vertailuarvojen merkittävään visuaalisen tiedon puutteeseen. Tämä mahdollistaa kattavamman mallin arvioinnin ja edistää innovaatiota graafioppimisjärjestelmissä, jotka voivat ymmärtää rikkaampia, todellisen maailman syötteitä.

Video Alchemist

Tekstikehotteen ja viitekuvien avulla Video Alchemist mahdollistaa videoiden luomisen ilman laajaa viritystä tai optimointia. Sovelluksessa tämä tehostaa videon personointia mukautetuilla ulkoasuilla ja taustoilla, säästää aikaa ja parantaa luovuutta.

Mind the Time: ajallisesti ohjattu usean tapahtuman videon luonti

Mind the Time tuo tarkan ajallisen hallinnan tekoälyn luomiin videoihin. Sen avulla sisällöntuottajat voivat sanella tapahtumien järjestyksen ja ajoituksen. Se mahdollistaa jäsennellymmän ja yhtenäisemmän tarinankerronnan videon luomisessa.

Videon liikkeensiirto diffuusiotransformereilla

Videon liikkeensiirto on menetelmä realistisen liikkeen siirtämiseksi videosta toiseen diffuusiotutkimusmallin avulla. Sovelluksessa tämä malli voisi helposti luoda videoita, joissa on realistista liikettä, siirtämällä liikettä viitevideoista ilman monimutkaisia asetuksia.

Wonderland: 3D-kohtausten navigointi yhdestä kuvasta

Wonderland luo yksityiskohtaisia 3D-kohtauksia vain yhdestä valokuvasta, mikä yksinkertaistaa 3D-kohtausten luomista ja mahdollistaa nopeamman ja tehokkaamman suunnittelun ilman useita kuvakulmia tai laajoja resursseja.

AC3D: 3D-kameran ohjauksen analysointi ja parantaminen videodiffuusiotransformereissa

AC3D parantaa kameran hallintaa videonluontimalleissa, mikä mahdollistaa sulavamman ja realistisemman liikkeen. Tämä antaa sisällöntuottajille enemmän joustavuutta kameran liikkeisiin videoissa ja parantaa luotujen kohtausten laatua ja realismia.

*Kaikki tässä esitetyt mallit ja työt on tarkoitettu vain tutkimustarkoituksiin. 

Tätä julkaisua päivitetään jatkossakin.

Takaisin uutisiin