19 czerwca 2023

Snap Research przedstawia nowy model dyfuzji tekstu na obraz dla generatywnej sztucznej inteligencji

W swoim nowym artykule Snap Research przedstawia metodę na najszybszy z dostępnych model generowania obrazów w czasie krótszym niż dwie sekundy, wbudowanych w urządzenie.

Firma Snap stale inspiruje się nowymi funkcjami i produktami, których celem jest pobudzanie kreatywności oraz urzeczywistnianie zrodzonych w wyobraźni pomysłów, za pomocą generatywnej sztucznej inteligencji. Cieszą się one ogromnym zainteresowaniem, jednak aby funkcjonowały poprawnie (szczególnie na urządzeniach mobilnych), wymagają mnóstwa czasu, zasobów oraz mocy obliczeniowej. To wszystko ze względu na ich złożoną strukturę techniczną.

Z tym większą radością przekazujemy wiadomość, że zespół Snap Research opracował nowy model. Nazywa się on SnapFusion i dzięki niemu czas potrzebny do wygenerowania obrazu na urządzeniu mobilnym od chwili wprowadzenia tekstu, wynosi mniej niż dwie sekundy. To obecnie najkrótszy wynik zarejestrowany przez społeczność akademicką.

Przełom ten udało się osiągnąć poprzez optymalizację struktury sieci oraz procedurę odszumiania. Osiągnięty rezultat jest niezwykle wydajny i nie ma negatywnego wpływu na jakość obrazu. Wygenerowanie wyrazistych obrazów za pomocą komend tekstowych na urządzeniu mobilnym jest teraz możliwe w ciągu zaledwie kilku sekund. To istotna różnica w porównaniu z wynikami innych badań, według których czas ten rozciąga się od kilku minut, do nawet kilku godzin.

Oczywiście ten model dopiero raczkuje, lecz ma on potencjał do istotnego wzmocnienia przyszłych efektów funkcjonowania wysokiej jakości generatywnej sztucznej inteligencji na urządzeniach mobilnych. Więcej na temat tego przełomowego odkrycia można przeczytać w bardziej szczegółowym artykule, który znajduje się tutaj.

Powrót do Aktualności