10 Αυγούστου 2025
10 Αυγούστου 2025

Snap Research 2025

Συνέδρια και εκδηλώσεις

Η ομάδα του Snap Research πρωτοπορεί στην καινοτομία στην ΕΠ και τη δημιουργική ΤΝ, στα συστήματα προτάσεων και στα εξατομικευμένα δημιουργικά εργαλεία.

Το 2025, θα παρουσιάσουμε τη δουλειά μας σε πολλά από τα κορυφαία συνέδρια και εκδηλώσεις του κλάδου.


Προηγούμενες εκδηλώσεις:

SIGGRAPH 2025-- Βανκούβερ, Καναδάς από 10 Αυγούστου - 14 Αυγούστου

Nested Attention: Τιμές προσοχής με επίγνωση της σημασίας για εξατομίκευση εννοιών

Το Nested Attention είναι μια νέα μέθοδος που βοηθά στην ενίσχυση της διατήρησης της ταυτότητας σε μοντέλα δημιουργίας εικόνων, δημιουργώντας πιο συνεπείς και ακριβείς εικόνες συγκεκριμένων θεμάτων σε διαφορετικά στυλ και σκηνές. Με την εισαγωγή μιας δομής προσοχής με επίγνωση της σημασίας, το μοντέλο διατηρεί καλύτερα την ταυτότητα σε ποικίλα στυλ και σκηνές. Αυτό καθιστά δυνατή τη δημιουργία εξατομικευμένων εικόνων, συνδυάζοντας ακόμη και διαφορετικά θέματα - όπως ένα άτομο και το κατοικίδιό του - σε μία εικόνα.

InstantRestore: Εξατομικευμένη αποκατάσταση προσώπου σε ένα βήμα με προσοχή κοινής εικόνας

Αυτή η εργασία παρουσιάζει το InstantRestore, μια μέθοδο για την αποκατάσταση αλλοιωμένων εικόνων προσώπου χρησιμοποιώντας ένα μόνο πέρασμα προς τα εμπρός μέσω ενός μοντέλου διάχυσης. Στόχος του είναι να διατηρήσει χαρακτηριστικά που αφορούν συγκεκριμένα την ταυτότητα, υποστηρίζοντας την αποτελεσματική αποκατάσταση με επίγνωση της ταυτότητας για τη βελτίωση των φωτογραφιών πορτρέτου.

Εξατομίκευση δυναμικών εννοιών από μεμονωμένα βίντεο

Το Set-and-Sequence είναι ένα νέο πλαίσιο για μοντέλα δημιουργίας βίντεο που αντιμετωπίζει την πρόκληση της δημιουργίας βίντεο με «δυναμικές έννοιες» - οντότητες που ορίζονται όχι μόνο από την εμφάνισή τους αλλά και από τα μοναδικά μοτίβα κίνησής τους στο χρόνο, όπως τα κύματα του ωκεανού ή μια φωτιά που τρεμοπαίζει. Το Set-and-Sequence επιτρέπει τη ρεαλιστική εξατομίκευση βίντεο μαθαίνοντας πώς συμπεριφέρονται τα δυναμικά θέματα με την πάροδο του χρόνου, επιτρέποντας συνεπή κίνηση, σύνθεση σκηνής και ανάμειξη μεταξύ σκηνών.

DuetGen: Δημιουργία χορού δύο ατόμων με γνώμονα τη μουσική μέσω ιεραρχικής καλυμμένης μοντελοποίησης

Το DuetGen είναι ένα πλαίσιο για τη δημιουργία συγχρονισμένων χορευτικών κινήσεων δύο ατόμων απευθείας από τη μουσική. Αντιμετωπίζει την πρόκληση της μοντελοποίησης της διαδραστικής χορογραφίας, όπως η συντονισμένη κίνηση και οι φυσικές αλληλεπιδράσεις μεταξύ των παρτενέρ. Το σύστημα επιτρέπει τη ρεαλιστική δημιουργία χορού ντουέτου για εφαρμογές σε κινούμενα σχέδια, εικονικά άβαταρ και ψηφιακές παραστάσεις.

Be Decisive: Διατάξεις που προκαλούνται από θόρυβο για δημιουργία πολλαπλών θεμάτων

Η δουλειά μας Be Decisive αντιμετωπίζει την πρόκληση της ακριβούς δημιουργίας πολλαπλών διακριτών θεμάτων σε σύνθετες εικόνες χωρίς οπτικές ανακρίβειες ή ακούσια ανάμειξη. Το Be Decisive εισάγει ένα μικρό νευρωνικό δίκτυο που προβλέπει και βελτιώνει μια χωρική διάταξη που προκαλείται από θόρυβο κατά την αποθορυβοποίηση, καθοδηγώντας πού πρέπει να εμφανίζεται κάθε θέμα από τα πρώτα στάδια της δημιουργίας εικόνας. Αυτό επιτρέπει τη δημιουργία εικόνων υψηλής λεπτομέρειας με πολλαπλά συγκεκριμένα θέματα, εξασφαλίζοντας σαφή όρια και φυσικές συνθέσεις μεταξύ τους.

KDD 2025-- Τορόντο, Οντάριο, Καναδάς από 3 Αυγούστου - 7 Αυγούστου

GiGL: Νευρωνικά δίκτυα γραφημάτων μεγάλης κλίμακας στο Snapchat

Το GiGL είναι μια βιβλιοθήκη ανοιχτού κώδικα για την εκπαίδευση και την εκτέλεση Νευρωνικών Δικτύων Γραφημάτων (GNN) σε γραφήματα μεγάλης κλίμακας, που υποστηρίζει εκατοντάδες εκατομμύρια κόμβους και δισεκατομμύρια ακμές. Το GIGL χρησιμοποιείται στο Snap σε βασικές εφαρμογές μηχανικής μάθησης, συμπεριλαμβανομένης της αύξησης των χρηστών, της κατάταξης περιεχομένου και της διαφήμισης.

Σχετικά με τον ρόλο της εξασθένησης βάρους στο συνεργατικό φιλτράρισμα: Μια προοπτική δημοτικότητας

Αυτή η εργασία παρουσιάζει το PRISM (Στρατηγική αρχικοποίησης με επίγνωση της δημοτικότητας για την ενσωμάτωση μεγεθών). Το PRISM εξαλείφει τη χρήση της εξασθένησης βάρους ενσωμάτωσης, μια κοινή αλλά δαπανηρή τεχνική στην εκπαίδευση μοντέλων προτάσεων, και αντ' αυτού την αντικαθιστά με έναν μόνο ελαφρύ υπολογισμό κατά την έναρξη της εκπαίδευσης. Το PRISM είναι γρήγορο, απλό στην εφαρμογή, οδηγώντας σε πιο αποτελεσματικά συστήματα προτάσεων.

Επανεξέταση της αυτοπροσοχής για διαδοχική πρόταση μεταξύ τομέων

Αυτή η εργασία παρουσιάζει το AutoCDSR, μια μέθοδο για τη βελτίωση του τρόπου με τον οποίο τέτοια συστήματα προβλέπουν τις συμπεριφορές των χρηστών σε διαφορετικούς τομείς αλληλεπίδρασης, προωθώντας την αποτελεσματική ανταλλαγή γνώσεων, μετριάζοντας παράλληλα τα θορυβώδη ή άσχετα σήματα. Το AutoCDSR βελτιώνει την ακρίβεια και την ευρωστία της εξατομίκευσης στις ρυθμίσεις προτάσεων.

SnapGen: Δαμάζοντας μοντέλα κειμένου σε εικόνα υψηλής ανάλυσης για κινητές συσκευές με αποτελεσματικές αρχιτεκτονικές και εκπαίδευση Μοντέλο Snap AI T2I για κινητές συσκευές

Το SnapGen είναι ένα ερευνητικό μοντέλο κειμένου σε εικόνα υψηλής απόδοσης που έχει σχεδιαστεί για να εκτελείται απευθείας σε κινητές συσκευές, δημιουργώντας εικόνες υψηλής ποιότητας σε λιγότερο από δύο δευτερόλεπτα. Έχει τη δυνατότητα να μειώσει δραστικά τον υπολογισμό και τη μνήμη που απαιτούνται για τη δημιουργία εικόνων στη συσκευή.

SnapGen-V: Δημιουργία βίντεο πέντε δευτερολέπτων μέσα σε πέντε δευτερόλεπτα σε κινητή συσκευή

Το SnapGen-V επεκτείνει το μοντέλο SnapGen για τη δημιουργία βίντεο πέντε δευτερολέπτων απευθείας σε κινητές συσκευές σε μόλις πέντε δευτερόλεπτα. Καθιστά εφικτή τη γρήγορη δημιουργία βίντεο στη συσκευή, βασιζόμενο στις προόδους μας στη μοντελοποίηση κειμένου σε εικόνα.

4Real-Video: Εκμάθηση γενικεύσιμης φωτορεαλιστικής διάχυσης βίντεο 4D

Το ερευνητικό μοντέλο 4Real-Video δημιουργεί ρεαλιστικά βίντεο 4D με πλούσια λεπτομέρεια και φυσική κίνηση, τα οποία μπορούν να προβληθούν από πολλαπλές γωνίες. Αυτή η τεχνολογία έχει πιθανές εφαρμογές σε καθηλωτικές εμπειρίες VR και αφήγησης επόμενης γενιάς.

Stable Flow: Ζωτικά επίπεδα για επεξεργασία εικόνας χωρίς εκπαίδευση

Το ερευνητικό μας μοντέλο Stable Flow επιτρέπει την ισχυρή επεξεργασία εικόνας, όπως η προσθήκη ή η αφαίρεση αντικειμένων χωρίς να απαιτείται πολύπλοκη εκπαίδευση ή υλικό υψηλής τεχνολογίας. Αυτή η προσέγγιση επιτρέπει σε οποιονδήποτε να επεξεργάζεται φωτογραφίες με ευκολία, χωρίς να απαιτείται τεχνική εξειδίκευση.

Omni-ID: Ολιστική αναπαράσταση ταυτότητας σχεδιασμένη για δημιουργικές εργασίες

Το ερευνητικό μας μοντέλο Omni-ID δημιουργεί μια ολοκληρωμένη αναπαράσταση του προσώπου ενός ατόμου σε διάφορες γωνίες και εκφράσεις, επιτρέποντας πιο ρεαλιστικές και εξατομικευμένες δημιουργίες ΤΝ και ΕΠ.

PrEditor3D: Γρήγορη και ακριβής επεξεργασία τρισδιάστατων σχημάτων

Το PrEditor3D είναι ένα εργαλείο που αναπτύχθηκε από τις ερευνητικές μας ομάδες και επιτρέπει τη γρήγορη και ακριβή επεξεργασία τρισδιάστατων μοντέλων με ελάχιστη εισαγωγή, εκσυγχρονίζοντας τη διαδικασία δημιουργίας τρισδιάστατου περιεχομένου απλοποιώντας τον τρόπο με τον οποίο χειρίζονται και προσαρμόζονται τα τρισδιάστατα σχήματα. Στην εφαρμογή, το PrEditor3D έχει τη δυνατότητα να διευκολύνει τους εμψυχωτές και τους δημιουργούς Φακών να ζωντανέψουν τα οράματά τους αποτελεσματικά, οδηγώντας σε πιο πλούσιες και πιο καθηλωτικές εμπειρίες ΕΠ.

Μωσαϊκό Τροπικοτήτων: Ένα ολοκληρωμένο σημείο αναφοράς για την πολυτροπική εκμάθηση γραφημάτων 

Το MM-Graph εισάγει το πρώτο σημείο αναφοράς για την πολυτροπική εκμάθηση γραφημάτων, ενσωματώνοντας τόσο οπτικά όσο και κειμενικά δεδομένα για την αντιμετώπιση του σημαντικού κενού οπτικών πληροφοριών στα τρέχοντα σημεία αναφοράς. Αυτό επιτρέπει την πιο ολοκληρωμένη αξιολόγηση του μοντέλου και οδηγεί την καινοτομία στα συστήματα εκμάθησης γραφημάτων που μπορούν να κατανοήσουν πιο πλούσιες, πραγματικές εισόδους.

Video Alchemist

Με μια προτροπή κειμένου και ένα σύνολο εικόνων αναφοράς, το Video Alchemist επιτρέπει τη δυνατότητα δημιουργίας βίντεο χωρίς εκτεταμένη ρύθμιση ή βελτιστοποίηση. Στην εφαρμογή, αυτό θα εκσυγχρονίσει την εξατομίκευση βίντεο με προσαρμοσμένες εμφανίσεις και φόντο, εξοικονομώντας χρόνο και ενισχύοντας τη δημιουργικότητα.

Mind the Time: Χρονικά ελεγχόμενη δημιουργία βίντεο πολλαπλών γεγονότων

Το Mind the Time εισάγει ακριβή χρονικό έλεγχο σε βίντεο που δημιουργούνται από ΤΝ. Θα επέτρεπε στους δημιουργούς να υπαγορεύουν την ακολουθία και το χρονοδιάγραμμα των γεγονότων. Επιτρέπει πιο δομημένη, συνεκτική αφήγηση στη δημιουργία βίντεο.

Μεταφορά κίνησης βίντεο με μετασχηματιστές διάχυσης

Η μεταφορά κίνησης βίντεο είναι μια μέθοδος για τη μεταφορά ρεαλιστικής κίνησης από το ένα βίντεο στο άλλο χρησιμοποιώντας ένα ερευνητικό μοντέλο διάχυσης. Στην εφαρμογή, αυτό το μοντέλο θα μπορούσε εύκολα να δημιουργήσει βίντεο με ρεαλιστική κίνηση μεταφέροντας κίνηση από βίντεο αναφοράς, χωρίς να χρειάζονται πολύπλοκες ρυθμίσεις.

Wonderland: Πλοήγηση σε τρισδιάστατες σκηνές από μία μόνο εικόνα

Το Wonderland δημιουργεί λεπτομερείς τρισδιάστατες σκηνές από μία μόνο φωτογραφία, απλοποιώντας τη δημιουργία τρισδιάστατων σκηνών και επιτρέποντας ταχύτερο και πιο αποτελεσματικό σχεδιασμό χωρίς να χρειάζονται πολλαπλές γωνίες ή εκτεταμένους πόρους.

AC3D: Ανάλυση και βελτίωση του ελέγχου της τρισδιάστατης κάμερας σε μετασχηματιστές διάχυσης βίντεο

Το AC3D βελτιώνει τον έλεγχο της κάμερας στα μοντέλα δημιουργίας βίντεο, επιτρέποντας πιο ομαλή, πιο ρεαλιστική κίνηση. Αυτό δίνει στους δημιουργούς μεγαλύτερη ευελιξία στις κινήσεις της κάμερας στα βίντεο και βελτιώνει την ποιότητα και τον ρεαλισμό των παραγόμενων σκηνών.

*Όλα τα μοντέλα και οι εργασίες που περιγράφονται εδώ είναι μόνο για ερευνητικούς σκοπούς. 

Αυτή η δημοσίευση θα συνεχίσει να ενημερώνεται.

Επιστροφή στις Ειδήσεις