10 tháng 8, 2025

Nghiên cứu Snap 2025

Hội nghị & Sự kiện

Đội ngũ Nghiên cứu Snap đang dẫn đầu sự đổi mới trong lĩnh vực AR & AI tạo sinh, các hệ thống đề xuất và các công cụ sáng tạo được cá nhân hóa.

Vào năm 2025, chúng tôi sẽ giới thiệu công trình của mình tại một số hội nghị và sự kiện hàng đầu trong ngành.

Các sự kiện đã qua:

SIGGRAPH 2025-- Vancouver, Canada từ ngày 10 tháng 8 - ngày 14 tháng 8

Nested Attention: Giá trị chú ý nhận biết ngữ nghĩa để cá nhân hóa khái niệm

Nested Attention là một phương pháp mới giúp tăng cường khả năng bảo toàn danh tính trong các mô hình tạo hình ảnh, tạo ra những hình ảnh nhất quán và chính xác hơn về các chủ thể cụ thể qua các phong cách và bối cảnh khác nhau. Bằng cách giới thiệu một cấu trúc chú ý nhận biết ngữ nghĩa, mô hình bảo toàn danh tính tốt hơn qua các phong cách và bối cảnh đa dạng. Điều này giúp tạo ra các hình ảnh được cá nhân hóa, thậm chí kết hợp các chủ thể khác nhau – như một người và thú cưng của họ – vào cùng một bức ảnh.

InstantRestore: Khôi phục khuôn mặt được cá nhân hóa trong một bước với Chú ý hình ảnh được chia sẻ

Bài báo này giới thiệu InstantRestore, một phương pháp khôi phục hình ảnh khuôn mặt bị suy giảm chất lượng bằng cách sử dụng một lượt truyền xuôi duy nhất thông qua một mô hình khuếch tán. Nó nhằm mục đích giữ lại các đặc điểm nhận dạng cụ thể, hỗ trợ khôi phục nhận biết danh tính hiệu quả để nâng cao chất lượng ảnh chân dung.

Cá nhân hóa các khái niệm động từ các video đơn lẻ

Set-and-Sequence là một khuôn khổ mới cho các mô hình tạo video, giải quyết thách thức tạo ra các video có “khái niệm động” – các thực thể được xác định không chỉ bởi ngoại hình mà còn bởi các mẫu chuyển động độc đáo của chúng theo thời gian, chẳng hạn như sóng biển hoặc lửa trại bập bùng. Set-and-Sequence cho phép cá nhân hóa video thực tế bằng cách tìm hiểu cách các chủ thể động hoạt động theo thời gian, cho phép chuyển động nhất quán, bố cục cảnh và hòa trộn giữa các cảnh.

DuetGen: Tạo điệu nhảy hai người theo nhạc thông qua mô hình hóa mặt nạ phân cấp

DuetGen là một khuôn khổ để tạo ra các chuyển động nhảy đôi đồng bộ trực tiếp từ âm nhạc. Nó giải quyết thách thức của việc mô hình hóa vũ đạo tương tác, chẳng hạn như chuyển động phối hợp và tương tác vật lý giữa các bạn nhảy. Hệ thống này cho phép tạo ra các điệu nhảy đôi thực tế cho các ứng dụng trong hoạt hình, hình đại diện ảo và biểu diễn kỹ thuật số.

Be Decisive: Bố cục do nhiễu gây ra để tạo nhiều chủ thể

Công trình Be Decisive của chúng tôi giải quyết thách thức tạo ra nhiều chủ thể riêng biệt một cách chính xác trong các hình ảnh phức tạp mà không có sự thiếu chính xác về mặt hình ảnh hoặc sự hòa trộn không mong muốn. Be Decisive giới thiệu một mạng nơ-ron nhỏ dự đoán và tinh chỉnh bố cục không gian do nhiễu gây ra trong quá trình khử nhiễu, hướng dẫn vị trí mỗi chủ thể nên xuất hiện từ các giai đoạn sớm nhất của việc tạo hình ảnh. Điều này cho phép tạo ra các hình ảnh có độ chi tiết cao với nhiều chủ thể cụ thể, đảm bảo ranh giới rõ ràng và bố cục tự nhiên giữa chúng.

KDD 2025-- Toronto, Ontario, Canada từ ngày 3 tháng 8 - ngày 7 tháng 8

GiGL: Mạng nơ-ron đồ thị quy mô lớn tại Snapchat

GiGL là một thư viện mã nguồn mở để đào tạo và chạy Mạng nơ-ron đồ thị (GNN) trên các đồ thị quy mô lớn, hỗ trợ hàng trăm triệu nút và hàng tỷ cạnh. GIGL được sử dụng tại Snap trong các ứng dụng học máy quan trọng, bao gồm tăng trưởng người dùng, xếp hạng nội dung và quảng cáo.

Về vai trò của suy giảm trọng số trong lọc cộng tác: Một góc nhìn về mức độ phổ biến

Bài báo này giới thiệu PRISM (Chiến lược khởi tạo nhận biết mức độ phổ biến cho độ lớn nhúng). PRISM loại bỏ việc sử dụng suy giảm trọng số nhúng, một kỹ thuật phổ biến nhưng tốn kém trong đào tạo mô hình đề xuất, và thay vào đó thay thế nó bằng một phép tính nhẹ duy nhất khi bắt đầu đào tạo. PRISM nhanh, đơn giản để áp dụng, dẫn đến các hệ thống đề xuất hiệu quả hơn.

Xem xét lại tự chú ý cho đề xuất tuần tự liên miền

Công trình này giới thiệu AutoCDSR, một phương pháp cải thiện cách các hệ thống như vậy dự đoán hành vi của người dùng trên các miền tương tác khác nhau, bằng cách thúc đẩy chia sẻ kiến thức hiệu quả đồng thời giảm thiểu các tín hiệu nhiễu hoặc không liên quan. AutoCDSR cải thiện độ chính xác và độ mạnh mẽ của việc cá nhân hóa trong các cài đặt đề xuất.

SnapGen: Thuần hóa các mô hình chuyển văn bản thành hình ảnh có độ phân giải cao cho thiết bị di động với kiến trúc và đào tạo hiệu quả Mô hình T2I của Snap AI cho thiết bị di động

SnapGen là một mô hình nghiên cứu chuyển văn bản thành hình ảnh hiệu suất cao được thiết kế để chạy trực tiếp trên các thiết bị di động, tạo ra hình ảnh chất lượng cao trong vòng chưa đầy hai giây. Nó có khả năng giảm đáng kể sức mạnh tính toán và bộ nhớ cần thiết cho việc tạo hình ảnh trên thiết bị.

SnapGen-V: Tạo video năm giây trong vòng năm giây trên thiết bị di động

SnapGen-V mở rộng mô hình SnapGen của chúng tôi để tạo video năm giây trực tiếp trên thiết bị di động chỉ trong năm giây. Nó mang lại khả năng tạo video nhanh chóng trên thiết bị, dựa trên những tiến bộ của chúng tôi trong việc mô hình hóa văn bản thành hình ảnh.

4Real-Video: Học khuếch tán video 4D chân thực có thể tổng quát hóa

Mô hình nghiên cứu 4Real-Video tạo ra các video 4D thực tế với chi tiết phong phú và chuyển động tự nhiên, có thể xem từ nhiều góc độ. Công nghệ này có các ứng dụng tiềm năng trong VR nhập vai và trải nghiệm kể chuyện thế hệ tiếp theo.

Stable Flow: Các lớp quan trọng để chỉnh sửa hình ảnh không cần đào tạo

Mô hình nghiên cứu Stable Flow của chúng tôi cho phép chỉnh sửa hình ảnh mạnh mẽ, chẳng hạn như thêm hoặc xóa các đối tượng mà không cần đào tạo phức tạp hoặc phần cứng cao cấp. Cách tiếp cận này cho phép bất kỳ ai cũng có thể chỉnh sửa ảnh một cách dễ dàng mà không cần chuyên môn kỹ thuật.

Omni-ID: Biểu diễn nhận dạng toàn diện được thiết kế cho các tác vụ tạo sinh

Mô hình nghiên cứu Omni-ID của chúng tôi xây dựng một biểu diễn toàn diện về khuôn mặt của một người qua các góc độ và biểu cảm khác nhau, cho phép tạo ra các thế hệ AI và AR thực tế và được cá nhân hóa hơn.

PrEditor3D: Chỉnh sửa hình dạng 3D nhanh và chính xác

PrEditor3D là một công cụ được phát triển bởi các nhóm nghiên cứu của chúng tôi, cho phép chỉnh sửa nhanh chóng và chính xác các mô hình 3D với đầu vào tối thiểu, hợp lý hóa quy trình tạo nội dung 3D bằng cách đơn giản hóa cách các hình dạng 3D được thao tác và điều chỉnh. Trong ứng dụng, PrEditor3D có khả năng giúp các nhà làm phim hoạt hình và người tạo Ống Kính dễ dàng biến tầm nhìn của họ thành hiện thực một cách hiệu quả, dẫn đến những trải nghiệm AR phong phú và sống động hơn.

Mosaic of Modalities: Một tiêu chuẩn toàn diện cho học đồ thị đa phương thức

MM-Graph giới thiệu tiêu chuẩn đầu tiên cho học đồ thị đa phương thức, kết hợp cả dữ liệu hình ảnh và văn bản để giải quyết khoảng trống đáng kể về thông tin hình ảnh trong các tiêu chuẩn hiện tại. Điều này cho phép đánh giá mô hình toàn diện hơn và thúc đẩy sự đổi mới trong các hệ thống học đồ thị có thể hiểu được các đầu vào phong phú hơn trong thế giới thực.

Video Alchemist

Với một lời nhắc văn bản và một bộ hình ảnh tham chiếu, Video Alchemist cho phép tạo video mà không cần tinh chỉnh hoặc tối ưu hóa nhiều. Trong ứng dụng, điều này sẽ hợp lý hóa việc cá nhân hóa video với các giao diện và hình nền tùy chỉnh, tiết kiệm thời gian đồng thời nâng cao khả năng sáng tạo.

Mind the Time: Tạo video đa sự kiện được kiểm soát theo thời gian

Mind the Time giới thiệu khả năng kiểm soát thời gian chính xác vào các video do AI tạo ra. Nó sẽ cho phép người sáng tạo quyết định trình tự và thời gian của các sự kiện. Nó cho phép kể chuyện có cấu trúc, mạch lạc hơn trong việc tạo video.

Truyền chuyển động video với máy biến áp khuếch tán

Truyền chuyển động video là một phương pháp để truyền chuyển động thực tế từ video này sang video khác bằng cách sử dụng mô hình nghiên cứu khuếch tán. Trong ứng dụng, mô hình này có thể dễ dàng tạo ra các video có chuyển động thực tế bằng cách truyền chuyển động từ các video tham chiếu mà không cần các thiết lập phức tạp.

Wonderland: Điều hướng cảnh 3D từ một hình ảnh duy nhất

Wonderland tạo ra các cảnh 3D chi tiết chỉ từ một bức ảnh, đơn giản hóa việc tạo các cảnh 3D và cho phép thiết kế nhanh hơn và hiệu quả hơn mà không cần nhiều góc độ hoặc tài nguyên lớn.

AC3D: Phân tích và cải thiện điều khiển máy ảnh 3D trong máy biến áp khuếch tán video

AC3D cải thiện khả năng điều khiển máy ảnh trong các mô hình tạo video, cho phép chuyển động mượt mà và thực tế hơn. Điều này mang lại cho người sáng tạo sự linh hoạt hơn trong việc di chuyển máy ảnh trong video, đồng thời cải thiện chất lượng và tính chân thực của các cảnh được tạo ra.

* Tất cả các mô hình và công trình được nêu ở đây chỉ dành cho mục đích nghiên cứu.

Bài đăng này sẽ tiếp tục được cập nhật.

Quay lại Tin tức

Liên hệ

Đối với các yêu yêu cầu từ báo chí, vui lòng gửi email đến press@snap.com.
Đối với tất cả các thắc mắc khác, vui lòng truy cập trang Hỗ trợ của chúng tôi.