2025년 8월 10일

Snap Research 2025

컨퍼런스 및 이벤트

Snap Research 팀은 AR 및 생성형 AI, 추천 시스템, 개인화된 크리에이티브 도구 전반에 걸쳐 혁신을 주도하고 있습니다.

2025년에는 여러 주요 업계 컨퍼런스 및 이벤트에서 저희의 연구 성과를 선보일 예정입니다.

지난 이벤트:

SIGGRAPH 2025 -- 8월 10일~8월 14일, 캐나다 밴쿠버

Nested Attention: 개념 개인화를 위한 시맨틱 인식 어텐션 값

Nested Attention은 이미지 생성 모델에서 정체성 보존을 강화하여 다양한 스타일과 장면에서 특정 피사체에 대해 더 일관되고 정확한 사진을 만드는 데 도움이 되는 새로운 방법입니다. 시맨틱 인식 어텐션 구조를 도입함으로써 모델은 다양한 스타일과 장면에서 정체성을 더 잘 보존합니다. 이를 통해 사람과 반려동물 같은 다양한 피사체를 하나의 사진으로 결합하는 등 개인화된 이미지를 만들 수 있습니다.

InstantRestore: 공유 이미지 어텐션을 사용한 단일 단계 개인화 얼굴 복원

이 논문은 확산 모델을 통한 단일 순방향 패스를 사용하여 손상된 얼굴 이미지를 복원하는 방법인 InstantRestore를 소개합니다. 이 방법은 정체성별 특징을 유지하여 인물 사진 향상을 위한 효율적인 정체성 인식 복원을 지원하는 것을 목표로 합니다.

단일 동영상으로 동적 개념 개인화

Set-and-Sequence는 파도나 깜박이는 모닥불처럼 외형뿐만 아니라 시간에 따른 고유한 움직임 패턴으로 정의되는 '동적 개념'을 가진 동영상 생성 문제를 해결하는 동영상 생성 모델을 위한 새로운 프레임워크입니다. Set-and-Sequence는 동적 피사체가 시간이 지남에 따라 어떻게 움직이는지 학습하여 사실적인 동영상 개인화를 가능하게 하며, 일관된 움직임, 장면 구성 및 장면 간 블렌딩을 허용합니다.

DuetGen: 계층적 마스크 모델링을 통한 음악 기반 2인 댄스 생성

DuetGen은 음악에서 직접 동기화된 2인 댄스 동작을 생성하기 위한 프레임워크입니다. 댄스 파트너 간의 조화로운 움직임 및 신체적 상호 작용과 같은 상호 작용 안무 모델링의 과제를 해결합니다. 이 시스템은 애니메이션, 가상 아바타 및 디지털 공연 분야의 애플리케이션을 위한 사실적인 듀엣 댄스 생성을 가능하게 합니다.

Be Decisive: 다중 피사체 생성을 위한 노이즈 유도 레이아웃

저희의 연구인 Be Decisive는 시각적 부정확성이나 의도하지 않은 혼합 없이 복잡한 이미지에서 여러 개의 서로 다른 피사체를 정확하게 생성하는 문제를 해결합니다. Be Decisive는 노이즈 제거 중에 노이즈로 유도된 공간 레이아웃을 예측하고 구체화하는 작은 신경망을 도입하여 이미지 생성의 가장 초기 단계부터 각 피사체가 나타나야 할 위치를 안내합니다. 이를 통해 여러 특정 피사체가 포함된 매우 상세한 이미지를 생성할 수 있으며, 피사체 간의 명확한 경계와 자연스러운 구성을 보장합니다.

KDD 2025 -- 8월 3일~8월 7일, 캐나다 온타리오주 토론토

GiGL: Snapchat의 대규모 그래프 신경망

GiGL은 수억 개의 노드와 수십억 개의 엣지를 지원하는 대규모 그래프에서 그래프 신경망(GNN)을 훈련하고 실행하기 위한 오픈 소스 라이브러리입니다. GIGL은 사용자 증가, 콘텐츠 순위, 광고 등 Snap의 주요 머신러닝 애플리케이션 전반에 사용됩니다.

협업 필터링에서 가중치 감쇠의 역할에 대하여: 인기도 관점

이 논문은 PRISM(임베딩 크기를 위한 인기도 인식 초기화 전략)을 소개합니다. PRISM은 추천 모델 훈련에서 일반적이지만 비용이 많이 드는 기술인 임베딩 가중치 감쇠의 사용을 없애고, 대신 훈련 시작 시 단일 경량 계산으로 대체합니다. PRISM은 빠르고 적용하기 간단하여 더 효율적인 추천 시스템을 구현할 수 있습니다.

교차 도메인 순차 추천을 위한 셀프 어텐션 재검토

이 연구는 노이즈가 많거나 관련 없는 신호를 완화하면서 효과적인 지식 공유를 촉진함으로써 이러한 시스템이 다양한 상호 작용 도메인에서 사용자 행동을 예측하는 방법을 개선하는 방법인 AutoCDSR을 소개합니다. AutoCDSR은 추천 설정에서 개인화의 정확성과 견고성을 향상시킵니다.

SnapGen: 모바일 기기를 위한 고해상도 텍스트-이미지 모델 길들이기 효율적인 아키텍처 및 훈련 모바일 기기용 Snap AI T2I 모델

SnapGen은 모바일 기기에서 직접 실행되도록 설계된 고성능 텍스트-이미지 연구 모델로, 2초 이내에 고품질 이미지를 생성합니다. 온디바이스 이미지 생성에 필요한 컴퓨팅 및 메모리를 획기적으로 줄일 수 있는 잠재력을 가지고 있습니다.

SnapGen-V: 모바일 기기에서 5초 안에 5초짜리 동영상 생성

SnapGen-V는 SnapGen 모델을 확장하여 모바일 기기에서 단 5초 만에 5초짜리 동영상을 직접 생성합니다. 텍스트-이미지 모델링의 발전을 바탕으로 빠른 온디바이스 동영상 생성을 실현합니다.

4Real-Video: 일반화 가능한 사실적 4D 동영상 확산 학습

4Real-Video 연구 모델은 풍부한 디테일과 자연스러운 움직임을 가진 사실적인 4D 동영상을 생성하며, 여러 각도에서 볼 수 있습니다. 이 기술은 몰입형 VR 및 차세대 스토리텔링 경험에 적용될 수 있는 잠재력을 가지고 있습니다.

Stable Flow: 훈련 없는 이미지 편집을 위한 필수 레이어

저희의 Stable Flow 연구 모델은 복잡한 훈련이나 고사양 하드웨어 없이도 객체를 추가하거나 제거하는 등 강력한 이미지 편집을 가능하게 합니다. 이 접근 방식을 통해 기술 전문 지식이 없는 사람도 누구나 쉽게 사진을 편집할 수 있습니다.

Omni-ID: 생성 작업을 위해 설계된 전체론적 정체성 표현

저희의 Omni-ID 연구 모델은 다양한 각도와 표정에 걸쳐 사람의 얼굴에 대한 포괄적인 표현을 구축하여 보다 사실적이고 개인화된 AI 및 AR 생성을 가능하게 합니다.

PrEditor3D: 빠르고 정밀한 3D 모양 편집

PrEditor3D는 저희 연구팀이 개발한 도구로, 최소한의 입력으로 3D 모델을 빠르고 정밀하게 편집할 수 있게 하여 3D 모양을 조작하고 조정하는 방법을 단순화함으로써 3D 콘텐츠 제작 과정을 간소화합니다. 실제로 PrEditor3D는 애니메이터와 렌즈 크리에이터가 자신의 비전을 효율적으로 실현할 수 있도록 하여 더 풍부하고 몰입감 있는 AR 경험을 제공할 수 있는 잠재력을 가지고 있습니다.

양식의 모자이크: 다중 모드 그래프 학습을 위한 포괄적인 벤치마크

MM-Graph는 시각 및 텍스트 데이터를 모두 통합하여 현재 벤치마크에서 시각 정보의 상당한 격차를 해소하는 다중 모드 그래프 학습을 위한 최초의 벤치마크를 소개합니다. 이를 통해 보다 포괄적인 모델 평가가 가능하고, 더 풍부한 실제 입력을 이해할 수 있는 그래프 학습 시스템의 혁신을 주도합니다.

Video Alchemist

텍스트 프롬프트와 참조 이미지 세트를 사용하여 Video Alchemist는 광범위한 조정이나 최적화 없이 동영상을 생성할 수 있는 기능을 제공합니다. 실제로 이는 맞춤형 외형과 배경으로 동영상 개인화를 간소화하여 시간을 절약하고 창의성을 향상시킬 것입니다.

Mind the Time: 시간적으로 제어되는 다중 이벤트 동영상 생성

Mind the Time은 AI 생성 동영상에 정밀한 시간 제어를 도입합니다. 이를 통해 크리에이터는 이벤트의 순서와 타이밍을 지정할 수 있습니다. 동영상 생성에서 보다 구조적이고 일관된 스토리텔링을 가능하게 합니다.

확산 트랜스포머를 사용한 동영상 모션 전송

동영상 모션 전송은 확산 연구 모델을 사용하여 한 동영상에서 다른 동영상으로 사실적인 움직임을 전송하는 방법입니다. 실제로 이 모델은 복잡한 설정 없이 참조 동영상에서 움직임을 전송하여 사실적인 움직임이 있는 동영상을 쉽게 만들 수 있습니다.

Wonderland: 단일 이미지에서 3D 장면 탐색하기

Wonderland는 단 한 장의 사진으로 상세한 3D 장면을 만들어 3D 장면 생성을 단순화하고, 여러 각도나 방대한 리소스 없이도 더 빠르고 효율적인 디자인을 가능하게 합니다.

AC3D: 동영상 확산 트랜스포머에서 3D 카메라 제어 분석 및 개선

AC3D는 동영상 생성 모델 내에서 카메라 제어를 개선하여 더 부드럽고 사실적인 움직임을 가능하게 합니다. 이를 통해 크리에이터는 동영상에서 카메라 움직임에 대한 유연성을 높이고 생성된 장면의 품질과 사실성을 향상시킬 수 있습니다.

*여기에 설명된 모든 모델과 작업은 연구 목적으로만 사용됩니다.

이 게시물은 계속 업데이트될 예정입니다.

뉴스로 돌아가기

문의하기

언론 관련 문의는 이메일 press@snap.com으로 보내주세요.
기타 모든 문의는 지원 사이트를 방문해 주세요.