2025年8月10日
2025年8月10日

Snap 研究 2025

會議與活動

Snap 研究團隊正引領著創新勢頭,無論是 AR 與生成式 AI、推薦系統,還是個人化創作工具。 

2025 年,我們將在各種產業大會和活動中展示我們的成果。


過去的活動:

SIGGRAPH 2025  -- 加拿大溫哥華,8 月 10 日 - 8 月 14 日

Nested Attention:概念個性化的語意感知注意力值

Nested Attention 是一種全新方法,有助於增強圖像生成模型中的身份保存,在不同風格和場景中建立更一致且準確的特定主題圖片。透過引入語意感知注意力結構,模型可在各種風格與場景中更好地保存身份。 這使得創作個人化圖像成為可能,甚至可以將不同的主題 – 例如人和寵物 – 組合成一張圖片。

InstantRestore:基於共享影像注意力機制的單步驟個人化臉部修復

本文介紹了 InstantRestore,這是一種透過擴散模型,利用單次向前傳播來恢復損壞人臉影像的方法。旨在保留特定身份的功能,支援高效的身份感知還原功能,以增強肖像照片。

透過單一影片實現動態概念個性化設定

Set-and-Sequence 是適用視訊生成模型的新框架,解決了具「動態概念」生成影片的挑戰 – 實體不僅由其外觀定義,也由其隨時間變化的獨特運動模式定義,例如海浪或閃爍的篝火。Set-and-Sequence 能夠透過學習動態物件隨時間變化的行為,實現逼真的影片個人化,達到一致連貫的動作、場景構圖,以及跨場景混合。

DuetGen:音樂驅動的雙人舞蹈世代,透過分層遮罩建模

DuetGen 是一款直接從音樂生成同步的雙人舞蹈動作框架。解決了互動編舞建模的挑戰,例如協調動作與舞伴之間的肢體互動。這個系統能為動畫、虛擬化身與數位表演中的應用程式生成逼真的雙人舞蹈。

Be Decisive:多主題生成的噪音誘導佈局

我們的 Be Decisive 解決了在複雜影像中準確生成多個不同主題的挑戰,避免了視覺上的不準確或意外的混合之處。Be Decisive 介紹了一個小型神經網路,可在去噪時預測並提煉由噪聲所引起的空間佈局,從影像生成的早期階段開始,引導各主題應出現的位置。如此便可以創作出具多個特定主題的精細圖像,確保彼此之間的界限清晰,構圖自然。

KDD 2025 -- 加拿大安大略省多倫多,8 月 3 日 - 8 月 7 日

GiGL:Snapchat 上的大型圖形神經網路

GiGL 是一款開源資料庫,用於在大規模繪圖上訓練和運行 大規模圖神經網路 (GNN),支援數億個節點和數十億個邊緣。GIGL 在 Snap 用於關鍵機器學習應用程式,包括使用者成長、內容排名,以及廣告。

權重衰減在協同過濾中的作用:從流行度觀點

本文介紹了 PRISM(嵌入規模的流行度感知初始化策略)。PRISM 消除了嵌入式權重衰減的使用,這是一種推薦模型訓練中常見但昂貴的技術,在訓練開始時以單一輕量運算。PRISM 快速、好應用,可實現更高效的推薦系統。

重新檢視跨域序列推薦的自注意力機制

介紹了 AutoCDSR,這是一種改善系統在不同互動領域預測使用者行為的方法,透過促進有效的知識分享,同時減少噪音或不相關的訊號。AutoCDSR 改善了推薦設定中個性化的準確性與穩健性。

SnapGen: 打造適用於行動裝置的高解析度文字轉圖片模型 ,透過高效率的架構和訓練 用於行動裝置的 Snap AI T2I 模型

SnapGen 是一款高效能的文字轉圖像研究模型,設計上可直接於行動裝置上運作,在兩秒內產生高品質的圖像。此技術有望大幅降低裝置端圖像生成所需的運算與記憶體資源。

SnapGen-V:於行動裝置上五秒內生成五秒影片

SnapGen-V 是 SnapGen 模型的延伸,可於行動裝置上在五秒內直接生成五秒長的影片。此技術建立於我們在文字轉圖像模型上的創新,使快速、裝置端影片生成成為可能。

4Real-Video:學習具泛化能力的寫實 4D 影片擴散模型

4Real-Video 研究模型可生成細節豐富、動作自然的寫實 4D 影片,並支援多角度觀看。此技術在沉浸式虛擬實境與次世代敘事體驗中,具備潛在的應用價值。

Stable Flow:無需訓練的圖像編輯關鍵層

Stable Flow 研究模型支援強大圖像編輯功能,如新增或移除物體,無需複雜訓練或高階硬體。此方法讓任何人都能輕鬆編輯照片,無需技術背景。

Omni-ID:用於生成任務設計的整體身份陳述

Omni-ID 研究模型可跨角度與表情建立人物面孔的完整表徵,讓 AI 與 AR 生成結果更擬真且個人化。

PrEditor3D:快速且精準的 3D 形狀編輯工具

PrEditor3D 是我們研究團隊開發的工具,可透過最小輸入快速且精確地編輯 3D 模型。此技術簡化了 3D 內容製作的流程,使 3D 形狀的操作與調整更為直覺化。在實際應用中,PrEditor3D 可協助動畫師與 Snap 特效鏡頭創作者更有效率地實現創意,提升創作速度,進而打造更豐富且沉浸式的 AR 體驗。

Mosaic of Modalities:多模態圖學習的全面基準 

MM-Graph 為首個多模態圖學習基準,結合視覺與文本數據,填補現有基準中視覺資訊的重大缺口。此基準支援更全面的模型評估,推動可理解真實世界輸入的圖學習系統創新。

Video Alchemist

透過文字提示與參考圖像,Video Alchemist 可生成影片,無需大量調校與最佳化。應用上能簡化影片個人化流程,自訂外觀與背景,節省時間並提升創作力。

Mind the Time:多事件影片生成的時間控制

Mind the Time 能為 AI 影片生成引入精確的時間控制。創作者可掌握事件順序與時序,實現更結構化且連貫的影片敘事生成結果。

利用擴散變換器進行視訊動作傳輸

Video Motion Transfer 是一種將一段影片中的真實動作轉移至另一段影片的方法,採用擴散式研究模型實現。此技術可無需複雜設定即重建擬真的運動動態,應用上包括快速製作風格一致、動作自然的影片,或是增強生成式內容中的動態一致性與真實感。

Wonderland:從單張圖片生成 3D 場景

Wonderland 可從一張照片生成細節豐富的 3D 場景,簡化 3D 場景建立流程,無需多角度輸入或大量資源,便可加快設計速度及提升設計效率。

AC3D:分析與改善影片擴散轉換器中的 3D 鏡頭控制

AC3D 改進影片生成模型中的鏡頭控制功能,使運鏡更為平滑且自然。此技術方便創作者在影片生成過程中,對鏡頭移動擁有更高的控制度,提升生成場景的影像品質和真實性。

* 上述所有模型與研究成果僅供研究用途。

本篇貼文將持續更新。

返回最新消息

聯絡我們

新聞媒體聯絡,請將電子郵件傳送至 press@snap.com
如需其他諮詢,請造訪我們的支援網站