10 августа 2025 г.

Snap Research 2025

Конференции и мероприятия

Исследовательская команда Snap является лидером в области инноваций в сфере AR и генеративного ИИ, систем рекомендаций и персонализированных творческих инструментов.

В 2025 году мы будем демонстрировать свою работу на нескольких ведущих отраслевых конференциях и мероприятиях.

Прошлые события:

SIGGRAPH 2025 -- Ванкувер, Канада с 10 августа по 14 августа

Вложенное внимание (Nested Attention) — семантически значимые значения внимания для персонализации концепции

Вложенное внимание — это новый метод, помогающий улучшить сохранение идентичности в моделях генерирования изображений, создавая более последовательные и точные изображения конкретных объектов в различных стилях и сценах. Благодаря внедрению семантически ориентированной структуры внимания модель лучше сохраняет идентичность в различных стилях и сценах. Это позволяет создавать персонализированные изображения и даже объединять в одной картинке различные объекты, например, человека и его питомца.

InstantRestore: одношаговое персонализированное восстановление лица с вниманием к общему образу

В данном документе представлен InstantRestore — метод восстановления поврежденных изображений лиц с помощью одного пропуска через диффузионную модель. Он направлен на сохранение специфических для идентичности черт, поддерживая эффективное с учетом идентичности для улучшения портретных фотографий.

Персонализация динамических концепций из отдельных видео

Set-and-Sequence — это новая структура для моделей генерации видео, которая решает задачу создания видео с «динамическими концепциями» — объектами, определяемыми не только по внешнему виду, но и по уникальным моделям движения во времени, таким как океанские волны или мерцающий костер. Set-and-Sequence обеспечивает реалистичную персонализацию видео, изучая поведение динамических объектов во времени, что позволяет обеспечить согласованность движения, композиции сцены и перехода между сценами.

DuetGen: создание танца для двух человек на основе музыки с помощью иерархического маскированного моделирования

DuetGen — это основа для генерирования синхронизированных танцевальных движений для двух человек прямо из музыки. Это решает задачу моделирования интерактивной хореографии, такой как скоординированные движения и физическое взаимодействие между партнерами. Система позволяет генерировать реалистичные дуэтные танцы для анимации, виртуальных аватаров и цифровых представлений.

Be Decisive: шумовые макеты для генерации нескольких объектов

Наша работа «Be Decisive» решает задачу точного создания нескольких отдельных объектов на сложных изображениях без визуальных неточностей или непреднамеренного смешивания. Be Decisive — это небольшая нейронная сеть, которая предсказывает и уточняет пространственную компоновку, вызванную шумом, во время удаления шума, определяя, где должен появиться каждый объект, на самых ранних этапах генерации изображения. Это позволяет создавать высоко детализированные изображения с несколькими конкретными объектами, обеспечивая четкие границы и естественные композиции между ними.

KDD 2025 — Торонто, Онтарио, Канада с 3 августа по 7 августа

GiGL: крупномасштабные графовые нейронные сети в Snapchat

GiGL — это библиотека с открытым исходным кодом для обучения и запуска графовых нейронных сетей (GNN) на крупномасштабных графах, поддерживающая сотни миллионов узлов и миллиарды граней. GIGL используется в Snap в ключевых приложениях машинного обучения, включая рост числа пользователей, ранжирование контента и рекламу.

О роли снижения веса в совместной фильтрации: перспектива популярности

В данном документе представлено PRISM (стратегия инициализации популярности для встраивания значений популярности). PRISM исключает использование вложения затухания веса, распространенного, но дорогостоящего метода в обучении моделей рекомендаций, и заменяет ее одним легким вычислением в начале обучения. PRISM является быстрым и простым в применении, что ведет к более эффективным системам рекомендаций.

Пересмотр самоанализа для последовательных рекомендаций между доменами

В данной работе представлен AutoCDSR — метод, позволяющий улучшить прогнозирование поведения пользователей в различных областях взаимодействия за счет содействия эффективному обмену знаниями и одновременного снижения шуму или нерелевантных сигналов. AutoCDSR повышает точность и надежность персонализации в настройках рекомендаций.

SnapGen: приручение моделей преобразования текста в изображение с высоким расширением для мобильных устройств с помощью эффективных архитектур и обучения модели Snap AI T2I для мобильных устройств

SnapGen — это высокопроизводительная исследовательская модель преобразования текста в изображения, предназначенная для работы непосредственно на мобильных устройствах, которая генерирует высококачественные изображения менее чем за две секунды. Она способна значительно сократить объём вычислений и памяти, необходимых для создания изображений на устройстве.

SnapGen-V: создание пятисекундного видео за пять секунд на мобильном устройстве

SnapGen-V расширяет нашу модель SnapGen для создания пятисекундных видео прямо на мобильных устройствах всего за пять секунд. Эта технология позволяет быстро создавать видео на устройствах, опираясь на наши достижения в области преобразования текста в изображения.

4Real-Video: применение обобщаемой фотореалистичной диффузии 4D-видео

Исследовательская модель 4Real-Video генерирует реалистичные 4D-видео с высокой детализацией и естественными движениями, которые можно просматривать с разных ракурсов. Эта технология может найти применение в сфере иммерсивной виртуальной реальности и создания историй следующего поколения.

Stable Flow: важные слои для редактирования изображений без обучения

Наша исследовательская модель Stable Flow позволяет эффективно редактировать изображения, например добавлять или удалять объекты, не требуя сложного обучения или профессионального оборудования. Такой подход позволяет с лёгкостью редактировать фотографии любому, кто не обладает техническими знаниями.

Omni-ID: целостное представление идентичности, разработанное для генеративных задач

Наша исследовательская модель Omni-ID создаёт комплексные изображения лиц людей с разных ракурсов на основе различных выражений, что позволяет получать более реалистичные и персонализированные материалы для ИИ и AR.

PrEditor3D: быстрое и точное редактирование 3D-фигур

PrEditor3D — это инструмент, разработанный нашими исследовательскими группами, который позволяет быстро и точно редактировать 3D-модели с минимальными усилиями, упрощая процесс создания 3D-контента за счёт оптимизации манипуляций и корректировки 3D-фигур. На практике PrEditor3D может помочь художникам-мультипликаторам и авторам линз эффективно воплощать свои идеи в жизнь, что приведёт к появлению более впечатляющих и иммерсивных AR-возможностей.

Мозаика модальностей: комплексный эталонный тест для мультимодального обучения на основе графов

MM-Graph представляет собой первый эталонный тест для мультимодального обучения на основе графов, включающий как визуальные, так и текстовые данные, чтобы устранить значительный недостаток визуальной информации в текущих эталонных тестах. Это позволяет проводить более комплексную оценку моделей и способствует внедрению инноваций в системы обучения на основе графов, способные анализировать реальные входные данные большего объёма.

Video Alchemist

С помощью текстовых запросов и набора эталонных изображений Video Alchemist позволяет создавать видео, не требуя обширной настройки или оптимизации. На практике это позволит упростить персонализацию видео с помощью пользовательских эффектов и фонов, что сэкономит время и расширит творческие возможности.

Mind the Time: генерация видео с несколькими событиями на основе контроля времени

Mind The Time обеспечивает точный контроль времени в видео, сгенерированным ИИ. Этот инструмент даст авторам возможность определять последовательность и время событий. Он позволяет создавать более структурированные и последовательные истории при генерации видео.

Перенос движений в видео с помощью диффузионных средств трансформации

Перенос движений в видео — это способ переноса реалистичных движений из одного видео в другое с помощью исследовательской диффузионной модели. Применяя эту модель, можно легко создавать видео с реалистичными движениями путём переноса движений из эталонных видео, не требуя сложной настройки.

Wonderland: создание 3D-сцен на основе одного изображения

Wonderland создаёт детальные 3D-сцены на основе всего одной фотографии. Это упрощает создание 3D-сцен и позволяет быстрее и эффективнее проектировать их без потребности в нескольких ракурсах или значительных ресурсах.

AC3D: анализ и улучшение управления 3D-камерой в диффузионных средствах преобразования видео

AC3D улучшает управление камерой в моделях генерации видео, обеспечивая более плавное и реалистичное движение. Это позволяет авторам более гибко управлять движением камеры в видео, а также повышает качество и реалистичность генерируемых сцен.

* Все указанные здесь модели и работы предназначены только для исследовательских целей.

Эта публикация будет обновляться.

Назад к новостям

Связаться с нами

Запросы для прессы отправляйте на адрес press@snap.com.
По всем остальным вопросам обращайтесь на наш сайт поддержки.