
Snap Research 2025
การประชุมและกิจกรรมต่างๆ
ทีม Snap Research เป็นผู้นำด้านนวัตกรรมในด้าน AR และ Generative AI ระบบการแนะนำ และเครื่องมือสร้างสรรค์ส่วนบุคคล
ในปี 2025 เราจะจัดแสดงผลงานของเราในการประชุมและกิจกรรมชั้นนำของอุตสาหกรรมหลายแห่ง
กิจกรรมที่ผ่านมา:

SIGGRAPH 2025 -- แวนคูเวอร์ ประเทศแคนาดา ตั้งแต่วันที่ 10 สิงหาคม - 14 สิงหาคม
Nested Attention: ค่าความสนใจที่รับรู้ความหมายสำหรับการปรับเปลี่ยนแนวคิดให้เป็นส่วนตัว
Nested Attention เป็นวิธีการใหม่ที่ช่วยเพิ่มการรักษาเอกลักษณ์ในโมเดลการสร้างภาพ ทำให้ได้ภาพของวัตถุเฉพาะที่สอดคล้องและแม่นยำยิ่งขึ้นในสไตล์และฉากต่างๆ ด้วยการนำเสนอโครงสร้างความสนใจที่รับรู้ความหมาย โมเดลจะรักษาเอกลักษณ์ได้ดีขึ้นในสไตล์และฉากที่หลากหลาย ทำให้สามารถสร้างภาพส่วนบุคคลได้ แม้กระทั่งการรวมวัตถุที่แตกต่างกัน เช่น คนและสัตว์เลี้ยงของพวกเขาไว้ในภาพเดียว
InstantRestore: การฟื้นฟูใบหน้าส่วนบุคคลในขั้นตอนเดียวด้วย Shared-Image Attention
เอกสารฉบับนี้นำเสนอ InstantRestore ซึ่งเป็นวิธีการฟื้นฟูภาพใบหน้าที่เสื่อมสภาพโดยใช้การส่งต่อเพียงครั้งเดียวผ่านโมเดลการแพร่กระจาย โดยมีจุดมุ่งหมายเพื่อรักษาคุณสมบัติเฉพาะของเอกลักษณ์ ซึ่งสนับสนุนการฟื้นฟูที่รับรู้เอกลักษณ์อย่างมีประสิทธิภาพสำหรับการปรับปรุงภาพถ่ายบุคคล
การปรับเปลี่ยนแนวคิดแบบไดนามิกจากวิดีโอเดียวให้เป็นส่วนตัว
Set-and-Sequence เป็นเฟรมเวิร์กใหม่สำหรับโมเดลการสร้างวิดีโอที่จัดการกับความท้าทายในการสร้างวิดีโอที่มี “แนวคิดแบบไดนามิก” ซึ่งเป็นเอนทิตีที่ไม่ได้กำหนดโดยรูปลักษณ์ภายนอกเท่านั้น แต่ยังรวมถึงรูปแบบการเคลื่อนไหวที่เป็นเอกลักษณ์เมื่อเวลาผ่านไป เช่น คลื่นในมหาสมุทรหรือกองไฟที่ริบหรี่ Set-and-Sequence ช่วยให้สามารถปรับเปลี่ยนวิดีโอให้เป็นส่วนตัวได้อย่างสมจริงโดยการเรียนรู้ว่าวัตถุแบบไดนามิกมีพฤติกรรมอย่างไรเมื่อเวลาผ่านไป ทำให้เกิดการเคลื่อนไหวที่สอดคล้องกัน การจัดองค์ประกอบฉาก และการผสมผสานข้ามฉาก
DuetGen: การสร้างการเต้นรำของคนสองคนโดยใช้ดนตรีผ่านการสร้างโมเดลแบบมาสก์ตามลำดับชั้น
DuetGen เป็นเฟรมเวิร์กสำหรับสร้างการเคลื่อนไหวการเต้นรำของคนสองคนที่ซิงโครไนซ์กันโดยตรงจากเพลง ซึ่งจัดการกับความท้าทายในการสร้างโมเดลท่าเต้นแบบโต้ตอบ เช่น การเคลื่อนไหวที่ประสานกันและการโต้ตอบทางกายภาพระหว่างคู่เต้นรำ ระบบนี้ช่วยให้สามารถสร้างการเต้นรำคู่ที่สมจริงสำหรับการใช้งานในแอนิเมชัน อวตารเสมือนจริง และการแสดงดิจิทัล
Be Decisive: เลย์เอาต์ที่เกิดจากสัญญาณรบกวนสำหรับการสร้างหลายวัตถุ
ผลงานของเรา Be Decisive จัดการกับความท้าทายในการสร้างวัตถุที่แตกต่างกันหลายชิ้นในภาพที่ซับซ้อนได้อย่างแม่นยำ โดยไม่มีความไม่ถูกต้องทางสายตาหรือการผสมผสานโดยไม่ได้ตั้งใจ Be Decisive นำเสนอเครือข่ายประสาทเทียมขนาดเล็กที่คาดการณ์และปรับปรุงเลย์เอาต์เชิงพื้นที่ที่เกิดจากสัญญาณรบกวนในระหว่างการลดสัญญาณรบกวน ซึ่งจะนำทางว่าวัตถุแต่ละชิ้นควรปรากฏที่ใดตั้งแต่ช่วงแรกๆ ของการสร้างภาพ ซึ่งช่วยให้สามารถสร้างภาพที่มีรายละเอียดสูงพร้อมวัตถุเฉพาะหลายชิ้น ทำให้มั่นใจได้ว่ามีขอบเขตที่ชัดเจนและองค์ประกอบที่เป็นธรรมชาติระหว่างวัตถุเหล่านั้น

KDD 2025 -- โทรอนโต รัฐออนแทรีโอ ประเทศแคนาดา ตั้งแต่วันที่ 3 สิงหาคม - 7 สิงหาคม
GiGL: เครือข่ายประสาทเทียมกราฟขนาดใหญ่ที่ Snapchat
GiGL เป็นไลบรารีโอเพนซอร์สสำหรับการฝึกอบรมและใช้งานเครือข่ายประสาทเทียมกราฟ (GNNs) บนกราฟขนาดใหญ่ ซึ่งรองรับโหนดหลายร้อยล้านโหนดและเอดจ์หลายพันล้านเอดจ์ GIGL ถูกใช้ที่ Snap ในแอปพลิเคชันแมชชีนเลิร์นนิงที่สำคัญต่างๆ รวมถึงการเติบโตของผู้ใช้ การจัดอันดับเนื้อหา และการโฆษณา
เกี่ยวกับบทบาทของ Weight Decay ในการกรองร่วมกัน: มุมมองด้านความนิยม
เอกสารฉบับนี้นำเสนอ PRISM (กลยุทธ์การเริ่มต้นที่รับรู้ความนิยมสำหรับขนาดการฝัง) PRISM กำจัดการใช้การลดลงของน้ำหนักการฝัง ซึ่งเป็นเทคนิคที่ใช้กันทั่วไปแต่มีค่าใช้จ่ายสูงในการฝึกอบรมโมเดลการแนะนำ และแทนที่ด้วยการคำนวณเบาๆ เพียงครั้งเดียวเมื่อเริ่มการฝึกอบรม PRISM รวดเร็ว ใช้งานง่าย นำไปสู่ระบบการแนะนำที่มีประสิทธิภาพมากขึ้น
ทบทวน Self-Attention สำหรับการแนะนำตามลำดับข้ามโดเมน
ผลงานนี้นำเสนอ AutoCDSR ซึ่งเป็นวิธีการปรับปรุงวิธีที่ระบบดังกล่าวคาดการณ์พฤติกรรมของผู้ใช้ในโดเมนการโต้ตอบต่างๆ โดยส่งเสริมการแบ่งปันความรู้ที่มีประสิทธิภาพในขณะที่ลดสัญญาณรบกวนหรือสัญญาณที่ไม่เกี่ยวข้อง AutoCDSR ช่วยปรับปรุงความแม่นยำและความทนทานของการปรับเปลี่ยนให้เป็นส่วนตัวในการตั้งค่าการแนะนำ

SnapGen: การควบคุมโมเดล Text-to-Image ความละเอียดสูงสำหรับอุปกรณ์มือถือ ด้วยสถาปัตยกรรมและการฝึกอบรมที่มีประสิทธิภาพ โมเดล Snap AI T2I สำหรับอุปกรณ์มือถือ
SnapGen เป็นโมเดลการวิจัย text-to-image ประสิทธิภาพสูงที่ออกแบบมาเพื่อทำงานบนอุปกรณ์มือถือโดยตรง สร้างภาพคุณภาพสูงในเวลาไม่ถึงสองวินาที มีศักยภาพในการลดการคำนวณและหน่วยความจำที่จำเป็นสำหรับการสร้างภาพบนอุปกรณ์ได้อย่างมาก
SnapGen-V: การสร้างวิดีโอความยาวห้าวินาทีภายในห้าวินาทีบนอุปกรณ์มือถือ
SnapGen-V ขยายโมเดล SnapGen ของเราเพื่อสร้างวิดีโอความยาวห้าวินาทีบนอุปกรณ์มือถือโดยตรงในเวลาเพียงห้าวินาที ทำให้การสร้างวิดีโอบนอุปกรณ์ที่รวดเร็วอยู่ใกล้แค่เอื้อม โดยต่อยอดจากความก้าวหน้าของเราในการสร้างโมเดล text-to-image
4Real-Video: การเรียนรู้การแพร่กระจายวิดีโอ 4D ที่สมจริงและสามารถนำไปใช้ได้ทั่วไป
โมเดลการวิจัย 4Real-Video สร้างวิดีโอ 4D ที่สมจริงพร้อมรายละเอียดที่หลากหลายและการเคลื่อนไหวที่เป็นธรรมชาติ ซึ่งสามารถดูได้จากหลายมุม เทคโนโลยีนี้มีศักยภาพในการนำไปใช้ใน VR ที่สมจริงและประสบการณ์การเล่าเรื่องยุคหน้า
Stable Flow: เลเยอร์ที่สำคัญสำหรับการแก้ไขภาพโดยไม่ต้องฝึกอบรม
โมเดลการวิจัย Stable Flow ของเราช่วยให้สามารถแก้ไขภาพได้อย่างมีประสิทธิภาพ เช่น การเพิ่มหรือลบวัตถุโดยไม่ต้องมีการฝึกอบรมที่ซับซ้อนหรือฮาร์ดแวร์ระดับไฮเอนด์ แนวทางนี้ช่วยให้ทุกคนสามารถแก้ไขรูปภาพได้อย่างง่ายดายโดยไม่จำเป็นต้องมีความเชี่ยวชาญด้านเทคนิค
Omni-ID: การแสดงเอกลักษณ์แบบองค์รวมที่ออกแบบมาสำหรับงานสร้างสรรค์
โมเดลการวิจัย Omni-ID ของเราสร้างการแสดงใบหน้าของบุคคลอย่างครอบคลุมในมุมและท่าทางต่างๆ ทำให้สามารถสร้าง AI และ AR ที่สมจริงและเป็นส่วนตัวมากขึ้น
PrEditor3D: การแก้ไขรูปร่าง 3 มิติที่รวดเร็วและแม่นยำ
PrEditor3D เป็นเครื่องมือที่พัฒนาโดยทีมวิจัยของเรา ซึ่งช่วยให้สามารถแก้ไขโมเดล 3 มิติได้อย่างรวดเร็วและแม่นยำด้วยอินพุตเพียงเล็กน้อย ทำให้กระบวนการสร้างเนื้อหา 3 มิติมีความคล่องตัวขึ้นโดยการทำให้วิธีการจัดการและปรับรูปร่าง 3 มิติทำได้ง่ายขึ้น ในการใช้งาน PrEditor3D มีศักยภาพที่จะทำให้นักสร้างแอนิเมชันและผู้สร้างเลนส์สามารถทำให้วิสัยทัศน์ของพวกเขาเป็นจริงได้อย่างมีประสิทธิภาพ นำไปสู่ประสบการณ์ AR ที่สมบูรณ์และสมจริงยิ่งขึ้น
Mosaic of Modalities: เกณฑ์มาตรฐานที่ครอบคลุมสำหรับการเรียนรู้กราฟหลายรูปแบบ
MM-Graph นำเสนอเกณฑ์มาตรฐานแรกสำหรับการเรียนรู้กราฟหลายรูปแบบ โดยผสมผสานทั้งข้อมูลภาพและข้อความเพื่อแก้ไขช่องว่างที่สำคัญของข้อมูลภาพในเกณฑ์มาตรฐานปัจจุบัน ซึ่งช่วยให้สามารถประเมินโมเดลได้อย่างครอบคลุมมากขึ้นและขับเคลื่อนนวัตกรรมในระบบการเรียนรู้กราฟที่สามารถเข้าใจอินพุตในโลกแห่งความเป็นจริงที่สมบูรณ์ยิ่งขึ้น
ด้วยข้อความแจ้งและชุดรูปภาพอ้างอิง Video Alchemist ช่วยให้สามารถสร้างวิดีโอได้โดยไม่ต้องปรับแต่งหรือเพิ่มประสิทธิภาพอย่างละเอียด ในการใช้งาน สิ่งนี้จะช่วยปรับปรุงการปรับเปลี่ยนวิดีโอให้เป็นส่วนตัวด้วยรูปลักษณ์และพื้นหลังที่กำหนดเอง ช่วยประหยัดเวลาในขณะที่เพิ่มความคิดสร้างสรรค์
Mind the Time: การสร้างวิดีโอหลายเหตุการณ์ที่ควบคุมตามเวลา
Mind the Time นำเสนอการควบคุมเวลาที่แม่นยำในวิดีโอที่สร้างโดย AI ซึ่งจะช่วยให้ผู้สร้างสามารถกำหนดลำดับและช่วงเวลาของเหตุการณ์ได้ ทำให้การเล่าเรื่องในการสร้างวิดีโอมีโครงสร้างและสอดคล้องกันมากขึ้น
การถ่ายโอนการเคลื่อนไหวของวิดีโอด้วย Diffusion Transformers
Video Motion Transfer เป็นวิธีการถ่ายโอนการเคลื่อนไหวที่สมจริงจากวิดีโอหนึ่งไปยังอีกวิดีโอหนึ่งโดยใช้โมเดลการวิจัยการแพร่กระจาย ในการใช้งาน โมเดลนี้สามารถสร้างวิดีโอที่มีการเคลื่อนไหวที่สมจริงได้อย่างง่ายดายโดยการถ่ายโอนการเคลื่อนไหวจากวิดีโออ้างอิง โดยไม่จำเป็นต้องตั้งค่าที่ซับซ้อน
Wonderland: การนำทางฉาก 3 มิติจากภาพเดียว
Wonderland สร้างฉาก 3 มิติที่มีรายละเอียดจากภาพถ่ายเพียงภาพเดียว ทำให้การสร้างฉาก 3 มิติทำได้ง่ายขึ้น และช่วยให้การออกแบบรวดเร็วและมีประสิทธิภาพมากขึ้นโดยไม่จำเป็นต้องใช้หลายมุมหรือทรัพยากรจำนวนมาก
AC3D: การวิเคราะห์และปรับปรุงการควบคุมกล้อง 3 มิติใน Video Diffusion Transformers
AC3D ปรับปรุงการควบคุมกล้องภายในโมเดลการสร้างวิดีโอ ทำให้การเคลื่อนไหวราบรื่นและสมจริงยิ่งขึ้น ซึ่งช่วยให้ผู้สร้างมีความยืดหยุ่นมากขึ้นในการเคลื่อนไหวของกล้องในวิดีโอ และปรับปรุงคุณภาพและความสมจริงของฉากที่สร้างขึ้น
*โมเดลและผลงานทั้งหมดที่ระบุไว้ในที่นี้มีวัตถุประสงค์เพื่อการวิจัยเท่านั้น
โพสต์นี้จะได้รับการอัปเดตอย่างต่อเนื่อง
ติดต่อเรา
สำหรับคำขอจากสื่อมวลชน โปรดส่งอีเมลไปที่ press@snap.com.สำหรับคำถามอื่นๆ ทั้งหมด โปรดไปที่ เว็บไซต์บริการช่วยเหลือ.