2025年6月11日
2025年6月11日

Snap 現身 CVPR

Snap Research 如何引領創意數位科技的未來發展

今年,我們將在 AI 與電腦視覺創新領域的頂級會議——CVPR 2025(於田納西州納許維爾舉行)分享 12 篇論文。會議自今天起至 6 月 15 日舉行。

Snap Research 的投稿有 77% 獲得錄取,遠高於業界平均的 22%,足以證明我們團隊在創新研究上的卓越表現。

Snap 將發表多項主題,包含兩篇論文——SnapGen 與 4Real-Video——這兩篇論文獲得 CVPR 評選為前 3% 的頂尖投稿之一。

請見下方完整摘要與時程表。



1.SnapGen:透過高效架構與訓練方法,使高解析度文字轉圖像模型可於行動裝置上執行

專為行動裝置打造的 Snap AI T2I 模型

SnapGen 是一款高效能的文字轉圖像研究模型,設計上可直接於行動裝置上運作,在兩秒內產生高品質的圖像。此技術有望大幅降低裝置端圖像生成所需的運算與記憶體資源。

2. SnapGen-V:於行動裝置上五秒內生成五秒影片

SnapGen-V 是 SnapGen 模型的延伸,可於行動裝置上在五秒內直接生成五秒長的影片。此技術建立於我們在文字轉圖像模型上的創新,使快速、裝置端影片生成成為可能。

3. 4Real-Video:學習具泛化能力的寫實 4D 影片擴散模型

4Real-Video 研究模型可生成細節豐富、動作自然的寫實 4D 影片,並支援多角度觀看。此技術在沉浸式虛擬實境與次世代敘事體驗中,具備潛在的應用價值。

4. Stable Flow:無需訓練的圖像編輯關鍵技術

Stable Flow 研究模型支援強大圖像編輯功能,如新增或移除物體,無需複雜訓練或高階硬體。此方法讓任何人都能輕鬆編輯照片,無需技術背景。

5. Omni-ID:為生成任務設計的整體身分辨識模型

Omni-ID 研究模型可跨角度與表情建立人物面孔的完整表徵,讓 AI 與 AR 生成結果更擬真且個人化。

6. PrEditor3D:快速且精準的 3D 形狀編輯工具

PrEditor3D 是我們研究團隊開發的工具,可透過最小輸入快速且精確地編輯 3D 模型。此技術簡化了 3D 內容製作的流程,使 3D 形狀的操作與調整更為直覺化。在實際應用中,PrEditor3D 可協助動畫師與 Snap 特效鏡頭創作者更有效率地實現創意,提升創作速度,進而打造更豐富且沉浸式的 AR 體驗。

7. Mosaic of Modalities:多模態圖學習的全面基準

MM-Graph 為首個多模態圖學習基準,結合視覺與文本數據,填補現有基準中視覺資訊的重大缺口。此基準支援更全面的模型評估,推動可理解真實世界輸入的圖學習系統創新。

8. Video Alchemist

透過文字提示與參考圖像,Video Alchemist 可生成影片,無需大量調校與最佳化。應用上能簡化影片個人化流程,自訂外觀與背景,節省時間並提升創作力。

Mind the Time:多事件影片生成的時間控制

Mind the Time 能為 AI 影片生成引入精確的時間控制。創作者可掌握事件順序與時序,實現更結構化且連貫的影片敘事生成結果。

10. Video Motion Transfer with Diffusion Transformers

Video Motion Transfer 是一種將一段影片中的真實動作轉移至另一段影片的方法,採用擴散式研究模型實現。此技術可無需複雜設定即重建擬真的運動動態,應用上包括快速製作風格一致、動作自然的影片,或是增強生成式內容中的動態一致性與真實感。

11. Wonderland:從單張圖片生成 3D 場景

Wonderland 可從一張照片生成細節豐富的 3D 場景,簡化 3D 場景建立流程,無需多角度輸入或大量資源,便可加快設計速度及提升設計效率。

12. AC3D:分析與改善影片擴散轉換器中的 3D 鏡頭控制

AC3D 改進影片生成模型中的鏡頭控制功能,使運鏡更為平滑且自然。此技術方便創作者在影片生成過程中,對鏡頭移動擁有更高的控制度,提升生成場景的影像品質和真實性。

歡迎來 CVPR 找我們聊聊! 

* 上述所有模型與研究成果僅供研究用途。

返回最新消息