10 สิงหาคม 2568
10 สิงหาคม 2568

Snap Research 2025

การประชุมและกิจกรรมต่างๆ

ทีม Snap Research เป็นผู้นำด้านนวัตกรรมในด้าน AR และ Generative AI ระบบการแนะนำ และเครื่องมือสร้างสรรค์ส่วนบุคคล

ในปี 2025 เราจะจัดแสดงผลงานของเราในการประชุมและกิจกรรมชั้นนำของอุตสาหกรรมหลายแห่ง


กิจกรรมที่ผ่านมา:

SIGGRAPH 2025 -- แวนคูเวอร์ ประเทศแคนาดา ตั้งแต่วันที่ 10 สิงหาคม - 14 สิงหาคม

Nested Attention: ค่าความสนใจที่รับรู้ความหมายสำหรับการปรับเปลี่ยนแนวคิดให้เป็นส่วนตัว

Nested Attention เป็นวิธีการใหม่ที่ช่วยเพิ่มการรักษาเอกลักษณ์ในโมเดลการสร้างภาพ ทำให้ได้ภาพของวัตถุเฉพาะที่สอดคล้องและแม่นยำยิ่งขึ้นในสไตล์และฉากต่างๆ ด้วยการนำเสนอโครงสร้างความสนใจที่รับรู้ความหมาย โมเดลจะรักษาเอกลักษณ์ได้ดีขึ้นในสไตล์และฉากที่หลากหลาย ทำให้สามารถสร้างภาพส่วนบุคคลได้ แม้กระทั่งการรวมวัตถุที่แตกต่างกัน เช่น คนและสัตว์เลี้ยงของพวกเขาไว้ในภาพเดียว

InstantRestore: การฟื้นฟูใบหน้าส่วนบุคคลในขั้นตอนเดียวด้วย Shared-Image Attention

เอกสารฉบับนี้นำเสนอ InstantRestore ซึ่งเป็นวิธีการฟื้นฟูภาพใบหน้าที่เสื่อมสภาพโดยใช้การส่งต่อเพียงครั้งเดียวผ่านโมเดลการแพร่กระจาย โดยมีจุดมุ่งหมายเพื่อรักษาคุณสมบัติเฉพาะของเอกลักษณ์ ซึ่งสนับสนุนการฟื้นฟูที่รับรู้เอกลักษณ์อย่างมีประสิทธิภาพสำหรับการปรับปรุงภาพถ่ายบุคคล

การปรับเปลี่ยนแนวคิดแบบไดนามิกจากวิดีโอเดียวให้เป็นส่วนตัว

Set-and-Sequence เป็นเฟรมเวิร์กใหม่สำหรับโมเดลการสร้างวิดีโอที่จัดการกับความท้าทายในการสร้างวิดีโอที่มี “แนวคิดแบบไดนามิก” ซึ่งเป็นเอนทิตีที่ไม่ได้กำหนดโดยรูปลักษณ์ภายนอกเท่านั้น แต่ยังรวมถึงรูปแบบการเคลื่อนไหวที่เป็นเอกลักษณ์เมื่อเวลาผ่านไป เช่น คลื่นในมหาสมุทรหรือกองไฟที่ริบหรี่ Set-and-Sequence ช่วยให้สามารถปรับเปลี่ยนวิดีโอให้เป็นส่วนตัวได้อย่างสมจริงโดยการเรียนรู้ว่าวัตถุแบบไดนามิกมีพฤติกรรมอย่างไรเมื่อเวลาผ่านไป ทำให้เกิดการเคลื่อนไหวที่สอดคล้องกัน การจัดองค์ประกอบฉาก และการผสมผสานข้ามฉาก

DuetGen: การสร้างการเต้นรำของคนสองคนโดยใช้ดนตรีผ่านการสร้างโมเดลแบบมาสก์ตามลำดับชั้น

DuetGen เป็นเฟรมเวิร์กสำหรับสร้างการเคลื่อนไหวการเต้นรำของคนสองคนที่ซิงโครไนซ์กันโดยตรงจากเพลง ซึ่งจัดการกับความท้าทายในการสร้างโมเดลท่าเต้นแบบโต้ตอบ เช่น การเคลื่อนไหวที่ประสานกันและการโต้ตอบทางกายภาพระหว่างคู่เต้นรำ ระบบนี้ช่วยให้สามารถสร้างการเต้นรำคู่ที่สมจริงสำหรับการใช้งานในแอนิเมชัน อวตารเสมือนจริง และการแสดงดิจิทัล

Be Decisive: เลย์เอาต์ที่เกิดจากสัญญาณรบกวนสำหรับการสร้างหลายวัตถุ

ผลงานของเรา Be Decisive จัดการกับความท้าทายในการสร้างวัตถุที่แตกต่างกันหลายชิ้นในภาพที่ซับซ้อนได้อย่างแม่นยำ โดยไม่มีความไม่ถูกต้องทางสายตาหรือการผสมผสานโดยไม่ได้ตั้งใจ Be Decisive นำเสนอเครือข่ายประสาทเทียมขนาดเล็กที่คาดการณ์และปรับปรุงเลย์เอาต์เชิงพื้นที่ที่เกิดจากสัญญาณรบกวนในระหว่างการลดสัญญาณรบกวน ซึ่งจะนำทางว่าวัตถุแต่ละชิ้นควรปรากฏที่ใดตั้งแต่ช่วงแรกๆ ของการสร้างภาพ ซึ่งช่วยให้สามารถสร้างภาพที่มีรายละเอียดสูงพร้อมวัตถุเฉพาะหลายชิ้น ทำให้มั่นใจได้ว่ามีขอบเขตที่ชัดเจนและองค์ประกอบที่เป็นธรรมชาติระหว่างวัตถุเหล่านั้น

KDD 2025 -- โทรอนโต รัฐออนแทรีโอ ประเทศแคนาดา ตั้งแต่วันที่ 3 สิงหาคม - 7 สิงหาคม

GiGL: เครือข่ายประสาทเทียมกราฟขนาดใหญ่ที่ Snapchat

GiGL เป็นไลบรารีโอเพนซอร์สสำหรับการฝึกอบรมและใช้งานเครือข่ายประสาทเทียมกราฟ (GNNs) บนกราฟขนาดใหญ่ ซึ่งรองรับโหนดหลายร้อยล้านโหนดและเอดจ์หลายพันล้านเอดจ์ GIGL ถูกใช้ที่ Snap ในแอปพลิเคชันแมชชีนเลิร์นนิงที่สำคัญต่างๆ รวมถึงการเติบโตของผู้ใช้ การจัดอันดับเนื้อหา และการโฆษณา

เกี่ยวกับบทบาทของ Weight Decay ในการกรองร่วมกัน: มุมมองด้านความนิยม

เอกสารฉบับนี้นำเสนอ PRISM (กลยุทธ์การเริ่มต้นที่รับรู้ความนิยมสำหรับขนาดการฝัง) PRISM กำจัดการใช้การลดลงของน้ำหนักการฝัง ซึ่งเป็นเทคนิคที่ใช้กันทั่วไปแต่มีค่าใช้จ่ายสูงในการฝึกอบรมโมเดลการแนะนำ และแทนที่ด้วยการคำนวณเบาๆ เพียงครั้งเดียวเมื่อเริ่มการฝึกอบรม PRISM รวดเร็ว ใช้งานง่าย นำไปสู่ระบบการแนะนำที่มีประสิทธิภาพมากขึ้น

ทบทวน Self-Attention สำหรับการแนะนำตามลำดับข้ามโดเมน

ผลงานนี้นำเสนอ AutoCDSR ซึ่งเป็นวิธีการปรับปรุงวิธีที่ระบบดังกล่าวคาดการณ์พฤติกรรมของผู้ใช้ในโดเมนการโต้ตอบต่างๆ โดยส่งเสริมการแบ่งปันความรู้ที่มีประสิทธิภาพในขณะที่ลดสัญญาณรบกวนหรือสัญญาณที่ไม่เกี่ยวข้อง AutoCDSR ช่วยปรับปรุงความแม่นยำและความทนทานของการปรับเปลี่ยนให้เป็นส่วนตัวในการตั้งค่าการแนะนำ

SnapGen: การควบคุมโมเดล Text-to-Image ความละเอียดสูงสำหรับอุปกรณ์มือถือ ด้วยสถาปัตยกรรมและการฝึกอบรมที่มีประสิทธิภาพ โมเดล Snap AI T2I สำหรับอุปกรณ์มือถือ

SnapGen เป็นโมเดลการวิจัย text-to-image ประสิทธิภาพสูงที่ออกแบบมาเพื่อทำงานบนอุปกรณ์มือถือโดยตรง สร้างภาพคุณภาพสูงในเวลาไม่ถึงสองวินาที มีศักยภาพในการลดการคำนวณและหน่วยความจำที่จำเป็นสำหรับการสร้างภาพบนอุปกรณ์ได้อย่างมาก

SnapGen-V: การสร้างวิดีโอความยาวห้าวินาทีภายในห้าวินาทีบนอุปกรณ์มือถือ

SnapGen-V ขยายโมเดล SnapGen ของเราเพื่อสร้างวิดีโอความยาวห้าวินาทีบนอุปกรณ์มือถือโดยตรงในเวลาเพียงห้าวินาที ทำให้การสร้างวิดีโอบนอุปกรณ์ที่รวดเร็วอยู่ใกล้แค่เอื้อม โดยต่อยอดจากความก้าวหน้าของเราในการสร้างโมเดล text-to-image

4Real-Video: การเรียนรู้การแพร่กระจายวิดีโอ 4D ที่สมจริงและสามารถนำไปใช้ได้ทั่วไป

โมเดลการวิจัย 4Real-Video สร้างวิดีโอ 4D ที่สมจริงพร้อมรายละเอียดที่หลากหลายและการเคลื่อนไหวที่เป็นธรรมชาติ ซึ่งสามารถดูได้จากหลายมุม เทคโนโลยีนี้มีศักยภาพในการนำไปใช้ใน VR ที่สมจริงและประสบการณ์การเล่าเรื่องยุคหน้า

Stable Flow: เลเยอร์ที่สำคัญสำหรับการแก้ไขภาพโดยไม่ต้องฝึกอบรม

โมเดลการวิจัย Stable Flow ของเราช่วยให้สามารถแก้ไขภาพได้อย่างมีประสิทธิภาพ เช่น การเพิ่มหรือลบวัตถุโดยไม่ต้องมีการฝึกอบรมที่ซับซ้อนหรือฮาร์ดแวร์ระดับไฮเอนด์ แนวทางนี้ช่วยให้ทุกคนสามารถแก้ไขรูปภาพได้อย่างง่ายดายโดยไม่จำเป็นต้องมีความเชี่ยวชาญด้านเทคนิค

Omni-ID: การแสดงเอกลักษณ์แบบองค์รวมที่ออกแบบมาสำหรับงานสร้างสรรค์

โมเดลการวิจัย Omni-ID ของเราสร้างการแสดงใบหน้าของบุคคลอย่างครอบคลุมในมุมและท่าทางต่างๆ ทำให้สามารถสร้าง AI และ AR ที่สมจริงและเป็นส่วนตัวมากขึ้น

PrEditor3D: การแก้ไขรูปร่าง 3 มิติที่รวดเร็วและแม่นยำ

PrEditor3D เป็นเครื่องมือที่พัฒนาโดยทีมวิจัยของเรา ซึ่งช่วยให้สามารถแก้ไขโมเดล 3 มิติได้อย่างรวดเร็วและแม่นยำด้วยอินพุตเพียงเล็กน้อย ทำให้กระบวนการสร้างเนื้อหา 3 มิติมีความคล่องตัวขึ้นโดยการทำให้วิธีการจัดการและปรับรูปร่าง 3 มิติทำได้ง่ายขึ้น ในการใช้งาน PrEditor3D มีศักยภาพที่จะทำให้นักสร้างแอนิเมชันและผู้สร้างเลนส์สามารถทำให้วิสัยทัศน์ของพวกเขาเป็นจริงได้อย่างมีประสิทธิภาพ นำไปสู่ประสบการณ์ AR ที่สมบูรณ์และสมจริงยิ่งขึ้น

Mosaic of Modalities: เกณฑ์มาตรฐานที่ครอบคลุมสำหรับการเรียนรู้กราฟหลายรูปแบบ 

MM-Graph นำเสนอเกณฑ์มาตรฐานแรกสำหรับการเรียนรู้กราฟหลายรูปแบบ โดยผสมผสานทั้งข้อมูลภาพและข้อความเพื่อแก้ไขช่องว่างที่สำคัญของข้อมูลภาพในเกณฑ์มาตรฐานปัจจุบัน ซึ่งช่วยให้สามารถประเมินโมเดลได้อย่างครอบคลุมมากขึ้นและขับเคลื่อนนวัตกรรมในระบบการเรียนรู้กราฟที่สามารถเข้าใจอินพุตในโลกแห่งความเป็นจริงที่สมบูรณ์ยิ่งขึ้น

Video Alchemist

ด้วยข้อความแจ้งและชุดรูปภาพอ้างอิง Video Alchemist ช่วยให้สามารถสร้างวิดีโอได้โดยไม่ต้องปรับแต่งหรือเพิ่มประสิทธิภาพอย่างละเอียด ในการใช้งาน สิ่งนี้จะช่วยปรับปรุงการปรับเปลี่ยนวิดีโอให้เป็นส่วนตัวด้วยรูปลักษณ์และพื้นหลังที่กำหนดเอง ช่วยประหยัดเวลาในขณะที่เพิ่มความคิดสร้างสรรค์

Mind the Time: การสร้างวิดีโอหลายเหตุการณ์ที่ควบคุมตามเวลา

Mind the Time นำเสนอการควบคุมเวลาที่แม่นยำในวิดีโอที่สร้างโดย AI ซึ่งจะช่วยให้ผู้สร้างสามารถกำหนดลำดับและช่วงเวลาของเหตุการณ์ได้ ทำให้การเล่าเรื่องในการสร้างวิดีโอมีโครงสร้างและสอดคล้องกันมากขึ้น

การถ่ายโอนการเคลื่อนไหวของวิดีโอด้วย Diffusion Transformers

Video Motion Transfer เป็นวิธีการถ่ายโอนการเคลื่อนไหวที่สมจริงจากวิดีโอหนึ่งไปยังอีกวิดีโอหนึ่งโดยใช้โมเดลการวิจัยการแพร่กระจาย ในการใช้งาน โมเดลนี้สามารถสร้างวิดีโอที่มีการเคลื่อนไหวที่สมจริงได้อย่างง่ายดายโดยการถ่ายโอนการเคลื่อนไหวจากวิดีโออ้างอิง โดยไม่จำเป็นต้องตั้งค่าที่ซับซ้อน

Wonderland: การนำทางฉาก 3 มิติจากภาพเดียว

Wonderland สร้างฉาก 3 มิติที่มีรายละเอียดจากภาพถ่ายเพียงภาพเดียว ทำให้การสร้างฉาก 3 มิติทำได้ง่ายขึ้น และช่วยให้การออกแบบรวดเร็วและมีประสิทธิภาพมากขึ้นโดยไม่จำเป็นต้องใช้หลายมุมหรือทรัพยากรจำนวนมาก

AC3D: การวิเคราะห์และปรับปรุงการควบคุมกล้อง 3 มิติใน Video Diffusion Transformers

AC3D ปรับปรุงการควบคุมกล้องภายในโมเดลการสร้างวิดีโอ ทำให้การเคลื่อนไหวราบรื่นและสมจริงยิ่งขึ้น ซึ่งช่วยให้ผู้สร้างมีความยืดหยุ่นมากขึ้นในการเคลื่อนไหวของกล้องในวิดีโอ และปรับปรุงคุณภาพและความสมจริงของฉากที่สร้างขึ้น

*โมเดลและผลงานทั้งหมดที่ระบุไว้ในที่นี้มีวัตถุประสงค์เพื่อการวิจัยเท่านั้น 

โพสต์นี้จะได้รับการอัปเดตอย่างต่อเนื่อง

กลับไปยังข่าวสาร