
CVPRでのSnap
Snap Researchがクリエイティブなデジタル技術の未来を形作る方法
今年、テネシー州ナッシュビルで本日から6月15日まで開催されるAIとコンピュータビジョンのイノベーションに関する最高峰の会議であるCVPR 2025で、12の論文を共発表します。
Snap Researchに提出されたもののうち77%が受理され、業界平均の22%を上回っており、当社のチームが革新的な仕事を行っていることを証明しています。
Snapは、CVPRが提出されたものの上位3%にランクインしたSnapGenと4Real-Videoの2つの論文を含む、さまざまなトピックについて発表します。
詳しい概要とスケジュールについては、以下をご覧ください。
1. SnapGen:効率的なアーキテクチャとトレーニングで、モバイルデバイス向けの高解像度なText-to-Imageモデルを管理
SnapGenは、モバイルデバイスで直接実行するように設計された高性能のText-to-Imageリサーチモデルであり、2秒以内に高品質の画像を生成します。オンデバイスでの画像生成に必要なコンピューティングとメモリを大幅に削減できる可能性があります。

2. SnapGen-V:モバイルデバイスで5秒以内に5秒間の動画を生成
SnapGen-Vは、SnapGenモデルを拡張し、5秒以内にモバイルデバイスで5秒間の動画を直接生成します。Text-to-Imageモデリングの進歩を基に、デバイス上の高速動画生成を実現します。

3. 4Real-Video:一般化可能なフォトリアリスティック4D動画生成の学習
4Real-Videoリサーチモデルは、豊かなディテールと自然な動きでリアルな4D動画を生成し、複数の角度から視聴することができます。この技術は、没入型VRや次世代ストーリーテリング体験に応用できる可能性があります。

4. Stable Flow:トレーニング不要の画像編集に不可欠なレイヤー
当社のStable Flowリサーチモデルは、複雑なトレーニングやハイエンドのハードウェアを必要とせずに、オブジェクトの追加や削除など、強力な画像編集を可能にします。この方法であれば、技術的な専門知識がなくても、誰でも簡単に写真を編集できます。

5. Omni-ID:生成タスクのために設計されたホリスティックなアイデンティティ表現
当社のOmni-IDリサーチモデルは、さまざまな角度や表現にわたって人の顔の包括的な表現を構築し、よりリアルでパーソナライズされたAIおよびAR世代を可能にします。

PrEditor3Dは、当社のリサーチチームによって開発されたツールであり、最小限の入力で3Dモデルを迅速かつ正確に編集することができ、3D形状の操作や調整を簡素化することで、3Dコンテンツ作成のプロセスを合理化します。PrEditor3Dは、アニメーターやレンズクリエイターがビジョンを効率的に実現できるようにし、より豊かで没入感のあるAR体験を創り出す可能性を秘めています。

7. Mosaic of Modalities:マルチモーダルグラフ学習の包括的なベンチマーク
MM-Graphは、現在のベンチマークにおける視覚情報の大きなギャップを解消するために、視覚データとテキストデータの両方を組み込んだ、マルチモーダルグラフ学習のための最初のベンチマークを導入しています。これにより、より包括的なモデル評価が可能になり、豊かな現実世界のインプットを理解できるグラフ学習システムの革新を促進します。

テキストプロンプトと参照画像により、Video Alchemistは、大規模なチューニングや最適化なしで動画を生成することが可能です。アプリケーションでは、カスタム外観と背景で動画のパーソナライズを合理化し、創造性を高めながら時間を節約します。

9. Mind the Time:一時的に制御されたマルチイベント動画生成
Mind the Timeは、AIが生成した動画に正確な時間制御を導入します。これにより、クリエイターはイベントの順序とタイミングを指定できるようになります。また、動画生成において、より構造化された一貫したストーリーテリングが可能になります。

動画モーション転送は、拡散リサーチモデルを使用して、ある動画から別の動画にリアルな動きを転送する方法です。アプリケーションでは、このモデルは、複雑なセットアップを必要とせず、参照動画から動きを転送することで、リアルな動きの動画を簡単に作成できます。

11. Wonderland:単一の画像から3Dシーンをナビゲート
Wonderlandは、1枚の写真から詳細な3Dシーンを作成し、3Dシーンの作成を簡素化し、複数の角度や大規模なリソースを必要とせずに、より迅速で効率的な設計を可能にします。

12. AC3D:動画拡散トランスフォーマーにおける3Dカメラコントロールの分析と改善
AC3Dは、動画生成モデル内のカメラコントロールを改善し、よりスムーズでリアルな動きを可能にします。これにより、クリエイターは動画内のカメラの動きに対してより柔軟になり、生成されるシーンの品質やリアルさが向上します。

CVPRでお会いしましょう!
*ここで概説されているすべてのモデルと作業は、リサーチ目的のみのものです。
お問い合わせ
報道関係のリクエストは、press@snap.comにメールで送信してください。
その他のお問い合わせについては、サポートサイトをご覧ください。