
Snap Research 2025
カンファレンス&イベント
Snapリサーチチームは、ARと生成AI、おすすめシステム、パーソナライズされたクリエイティブツールのイノベーションをリードしています。
2025年には、主要な業界カンファレンスやイベントで当社の成果を紹介します。
過去のイベント:

SIGGRAPH 2025 -- カナダのバンクーバー、8月10日~8月14日
Nested Attention:概念パーソナライズのための意味認識アテンション値
Nested Attentionは、画像生成モデルでIDの保持を強化する新しい方法で、さまざまなスタイルやシーンで特定の被写体のより一貫した正確な写真を作成します。意味認識型アテンション構造を導入することで、モデルはさまざまなスタイルやシーンでIDをより上手く保持します。これにより、パーソナライズされた画像を作成できるようになり、人とペットなどさまざまな被写体を1つの写真に組み合わせることも可能です。
InstantRestore:共有画像アテンションによる単一ステップのパーソナライズされた顔復元
この論文では、拡散モデルで単一のフォワードパスを使用して、劣化した顔画像を復元する方法であるInstantRestoreを紹介します。これは、ID固有の機能を維持し、肖像写真の補正のために効率的なID認識型の復元をサポートすることを目指しています。
Set-and-Sequenceは、「動的概念」で動画を生成する課題に対処する動画生成モデルの新しいフレームワークです。「動的概念」とは、外観だけでなく、海の波や揺れる火など、時間の経過に伴う固有の運動パターンによって定義される実体です。Set-and-Sequenceは、動的な被写体の時間とともに変化する動作を学習することで、リアルな動画のパーソナライズを実現し、一貫した動き、シーン構成、シーン間の融合を可能にします。
DuetGen:階層的なマスクモデリングによる音楽主導の2人用ダンス生成
DuetGenは、音楽から直接同期した2人組のダンス動作を生成するためのフレームワークです。これは、ダンスパートナーとの協調した動きや身体的なやり取りなど、インタラクティブな振り付けをモデリングする際に直面する課題に対処します。このシステムは、アニメーション、バーチャルアバター、デジタルパフォーマンスなどのアプリケーション向けに、リアルなデュエットダンスを生成することができます。
Be Decisive:マルチサブジェクト生成のためのノイズによるレイアウト
当社の作品「Be Decisive」は、視覚的な不正確さや意図しない融合なしで、複雑な画像で複数の異なる被写体を正確に生成するという課題に取り組んでいます。Be Decisiveは、ノイズ除去中にノイズによる空間レイアウトを予測および精緻化する小型ニューラルネットワークを導入し、画像生成の最も早い段階から各被写体がどこに現れるべきかをガイドします。これにより、複数の特定の被写体を含む非常に詳細な画像を作成でき、明確な境界と自然な構成が確保されます。

KDD 2025 -- カナダのオンタリオ州トロント、8月3日~8月7日
GiGL:Snapchatの大規模グラフニューラルネットワーク
GiGLは、大規模なグラフでグラフニューラルネットワーク(GNN)をトレーニングおよび実行するためのオープンソースライブラリであり、数億のノードと数十億のエッジをサポートしています。GIGLはSnapにおいて、ユーザーの増加、コンテンツランキング、広告などの主要な機械学習アプリケーション全体で使用されています。
コラボレーションフィルターにおける重み減衰の役割について:人気という視点
この論文では、PRISM(Popularity-awaRe Initialization Strategy for embedding Magnitudes)について紹介します。PRISMは、おすすめモデルのトレーニングで一般的だが高価な手法である埋め込み重み減衰の使用を排除し、代わりにトレーニングの開始時に単一の軽い計算に置き換えます。PRISMは迅速かつ簡単に適用でき、より効率的なおすすめシステムにつながります。
クロスドメインのSequential Recommendationにおける自己アテンションの再検討
ここでは、ノイズの多い信号や無関係な信号を軽減しながら、効果的な知識共有を促進することで、さまざまなインタラクションドメインにわたってユーザーの行動の予測精度を向上させる手法である「AutoCDSR」を導入します。AutoCDSRは、おすすめ設定でのパーソナライゼーションの精度と堅牢性を向上させます。

SnapGen:効率的なアーキテクチャとモバイルデバイス向けSnap AI T2Iモデルのトレーニングによる、モバイルデバイス向けの高解像度なText-to-Imageモデルの管理
SnapGenは、モバイルデバイスで直接実行するように設計された高性能のText-to-Imageリサーチモデルであり、2秒以内に高品質の画像を生成します。オンデバイスでの画像生成に必要なコンピューティングとメモリを大幅に削減できる可能性があります。
SnapGen-V:モバイルデバイスで5秒以内に5秒間の動画を生成
SnapGen-Vは、SnapGenモデルを拡張し、5秒以内にモバイルデバイスで5秒間の動画を直接生成します。Text-to-Imageモデリングの進歩を基に、デバイス上の高速動画生成を実現します。
4Real-Video:一般化可能なフォトリアリスティック4D動画生成の学習
4Real-Videoリサーチモデルは、豊かなディテールと自然な動きでリアルな4D動画を生成し、複数の角度から視聴することができます。この技術は、没入型VRや次世代ストーリーテリング体験に応用できる可能性があります。
Stable Flow:トレーニング不要の画像編集に不可欠なレイヤー
当社のStable Flowリサーチモデルは、複雑なトレーニングやハイエンドのハードウェアを必要とせずに、オブジェクトの追加や削除など、強力な画像編集を可能にします。この方法であれば、技術的な専門知識がなくても、誰でも簡単に写真を編集できます。
当社のOmni-IDリサーチモデルは、さまざまな角度や表現にわたって人の顔の包括的な表現を構築し、よりリアルでパーソナライズされたAIおよびAR世代を可能にします。
PrEditor3Dは、当社のリサーチチームによって開発されたツールであり、最小限の入力で3Dモデルを迅速かつ正確に編集することができ、3D形状の操作や調整を簡素化することで、3Dコンテンツ作成のプロセスを合理化します。PrEditor3Dは、アニメーターやレンズクリエイターがビジョンを効率的に実現できるようにし、より豊かで没入感のあるAR体験を創り出す可能性を秘めています。
Mosaic of Modalities:マルチモーダルグラフ学習の包括的なベンチマーク
MM-Graphは、現在のベンチマークにおける視覚情報の大きなギャップを解消するために、視覚データとテキストデータの両方を組み込んだ、マルチモーダルグラフ学習のための最初のベンチマークを導入しています。これにより、より包括的なモデル評価が可能になり、豊かな現実世界のインプットを理解できるグラフ学習システムの革新を促進します。
テキストプロンプトと参照画像により、Video Alchemistは、大規模なチューニングや最適化なしで動画を生成することが可能です。アプリケーションでは、カスタム外観と背景で動画のパーソナライズを合理化し、創造性を高めながら時間を節約します。
Mind the Time:一時的に制御されたマルチイベント動画生成
Mind the Timeは、AIが生成した動画に正確な時間制御を導入します。これにより、クリエイターはイベントの順序とタイミングを指定できるようになります。また、動画生成において、より構造化された一貫したストーリーテリングが可能になります。
動画モーション転送は、拡散リサーチモデルを使用して、ある動画から別の動画にリアルな動きを転送する方法です。アプリケーションでは、このモデルは、複雑なセットアップを必要とせず、参照動画から動きを転送することで、リアルな動きの動画を簡単に作成できます。
Wonderlandは、1枚の写真から詳細な3Dシーンを作成し、3Dシーンの作成を簡素化し、複数の角度や大規模なリソースを必要とせずに、より迅速で効率的な設計を可能にします。
AC3D:動画拡散トランスフォーマーにおける3Dカメラコントロールの分析と改善
AC3Dは、動画生成モデル内のカメラコントロールを改善し、よりスムーズでリアルな動きを可能にします。これにより、クリエイターは動画内のカメラの動きに対してより柔軟になり、生成されるシーンの品質やリアルさが向上します。
*ここで概説されているすべてのモデルと作業は、リサーチ目的のみのものです。
この投稿は引き続き更新されます。
お問い合わせ
報道関係のお問い合わせは、press@snap.comまでメールでご連絡ください。
その他のお問い合わせについては、Support サイトをご覧ください。