HƯỚNG DẪN AI trực quan

Lấy mẫu chưng cất điểm và DreamFusion

DreamFusion tạo các đối tượng 3D từ văn bản bằng cách sử dụng mô hình khuếch tán hình ảnh 2D làm nhà phê bình, không bao giờ đào tạo về bất kỳ dữ liệu 3D nào.

Tổng quan

DreamFusion tạo các đối tượng 3D từ văn bản bằng cách sử dụng mô hình khuếch tán hình ảnh 2D làm nhà phê bình, không bao giờ đào tạo về bất kỳ dữ liệu 3D nào. Phát minh cốt lõi của nó, Lấy mẫu chưng cất điểm, đã trở thành công thức nền tảng cho toàn bộ lĩnh vực chuyển văn bản sang 3D.

DreamFusion và Lấy mẫu chưng cất điểm thuộc về quy trình công việc thị giác máy tính diễn giải hoặc tạo ra phương tiện trực quan để phân tích, vận hành và sáng tạo.

Lặn sâu

DreamFusion, từ Google vào năm 2022, đã hỏi: mô hình chuyển văn bản thành hình ảnh 2D có thể dạy cảnh 3D nhìn đúng từ mọi góc độ không? Nó tối ưu hóa NeRF (Trường bức xạ thần kinh) để kết xuất từ ​​các góc nhìn ngẫu nhiên của máy ảnh, khi bị nhiễu và hiển thị dưới dạng mô hình khuếch tán đông lạnh (Imagen), được coi là hình ảnh hợp lý cho lời nhắc văn bản. Điều quan trọng là nó không sử dụng dữ liệu đào tạo 3D. Bước đột phá là Lấy mẫu chưng cất điểm (SDS): thay vì truyền ngược qua U-Net đắt tiền của mô hình khuếch tán, SDS sử dụng nhiễu dự đoán của mô hình làm tín hiệu chuyển màu trực tiếp trên các pixel được hiển thị. Việc lặp lại điều này qua hàng nghìn góc nhìn sẽ tạo ra một nội dung 3D mạch lạc, hoàn chỉnh với hình học và hình thức phụ thuộc vào chế độ xem, từ một câu duy nhất.

Hiểu biết kỹ thuật

SDS coi mô hình khuếch tán như một hàm tính điểm cố định. Nó kết xuất NeRF, thêm nhiễu, yêu cầu U-Net khuếch tán dự đoán nhiễu đó và tính toán độ dốc khi (nhiễu dự đoán trừ đi nhiễu bổ sung) được đẩy trở lại hình ảnh được hiển thị và do đó trọng số NeRF. Bỏ qua U-Net Jacobian làm cho nó dễ sử dụng hơn. Cần có hướng dẫn không cần phân loại cao (khoảng 100) để có kết quả sắc nét, điều này gây ra 'giao diện DreamFusion' quá bão hòa, đôi khi bị mờ.

Làm chủ DreamFusion và lấy mẫu chưng cất điểm

DreamFusion tạo các đối tượng 3D từ văn bản bằng cách sử dụng mô hình khuếch tán hình ảnh 2D làm nhà phê bình, không bao giờ đào tạo về bất kỳ dữ liệu 3D nào. Phát minh cốt lõi của nó, Lấy mẫu chưng cất điểm, đã trở thành công thức nền tảng cho toàn bộ lĩnh vực chuyển văn bản sang 3D. DreamFusion và Lấy mẫu chưng cất điểm thuộc về quy trình công việc thị giác máy tính diễn giải hoặc tạo ra phương tiện trực quan để phân tích, vận hành và sáng tạo. Để xây dựng sự hiểu biết sâu sắc, hãy coi DreamFusion và Lấy mẫu chưng cất điểm như một mô hình hoạt động chứ không phải một tính năng duy nhất: xác định kết quả mong muốn, làm rõ các giả định và tách biệt những gì hệ thống có thể thực hiện một cách đáng tin cậy với những gì vẫn cần đến sự đánh giá của chuyên gia.

Trong thực tế, các nhóm mạnh sử dụng DreamFusion và Lấy mẫu chưng cất điểm cân bằng độ chính xác với thực tế vận hành như chất lượng dữ liệu, phương sai ánh sáng và tính nhất quán của nhãn. Họ ghi lại các tiêu chí thành công rõ ràng, kiểm tra dựa trên dữ liệu và quy trình làm việc thực tế, đồng thời lặp lại dựa trên các kiểu thất bại được quan sát thay vì chiến thắng điểm chuẩn một lần. Đây là nơi sự hiểu biết về mặt lý thuyết biến thành khả năng bền vững trên toàn bộ sản phẩm, chính sách và hoạt động.

Visual AI có thể tự động hóa các nhiệm vụ kiểm tra, phát hiện và gắn thẻ trên quy mô lớn. Đồng thời, quyền về hình ảnh và sự đồng ý có thể trở thành rủi ro pháp lý nếu nguồn gốc xuất xứ không rõ ràng. Cách tiếp cận linh hoạt nhất là kết hợp tốc độ thử nghiệm với kỷ luật quản trị: chạy thử nghiệm, thu thập bằng chứng, xuất bản nhật ký quyết định và liên tục cập nhật các biện pháp bảo vệ khi hành vi của mô hình, kỳ vọng của người dùng và các yêu cầu pháp lý phát triển.

Tác động chiến lược

Visual AI có thể tự động hóa các nhiệm vụ kiểm tra, phát hiện và gắn thẻ trên quy mô lớn.

Visual AI có thể tự động hóa các nhiệm vụ kiểm tra, phát hiện và gắn thẻ trên quy mô lớn. Trong quá trình triển khai chất lượng cao, điều này được chuyển thành các quy tắc vận hành, ranh giới quyền sở hữu và quy trình đánh giá định kỳ có thể đo lường được để các nhóm có thể mở rộng quy mô một cách tự tin thay vì mở rộng quy mô sự mơ hồ.

Các nhóm sáng tạo có thể tạo nguyên mẫu nhanh hơn với ít sửa đổi thủ công hơn.

Các nhóm sáng tạo có thể tạo nguyên mẫu nhanh hơn với ít sửa đổi thủ công hơn. Trong quá trình triển khai chất lượng cao, điều này được chuyển thành các quy tắc vận hành, ranh giới quyền sở hữu và quy trình đánh giá định kỳ có thể đo lường được để các nhóm có thể mở rộng quy mô một cách tự tin thay vì mở rộng quy mô sự mơ hồ.

Các hoạt động có thể sử dụng tín hiệu hình ảnh và video mà trước đây khó xử lý.

Các hoạt động có thể sử dụng tín hiệu hình ảnh và video mà trước đây khó xử lý. Trong quá trình triển khai chất lượng cao, điều này được chuyển thành các quy tắc vận hành, ranh giới quyền sở hữu và quy trình đánh giá định kỳ có thể đo lường được để các nhóm có thể mở rộng quy mô một cách tự tin thay vì mở rộng quy mô sự mơ hồ.

Tương lai của DreamFusion và Lấy mẫu chưng cất điểm

SDS đã tạo ra một loạt công việc phong phú để khắc phục các điểm yếu của nó: Magic3D cho độ phân giải và tốc độ, Chưng cất điểm biến đổi của ProlificDreamer cho kết quả đầu ra sắc nét hơn, đa dạng hơn và các phương pháp tấn công tạo tác nhiều mặt 'Janus'. Lĩnh vực này đang ngày càng kết hợp SDS với các ưu tiên khuếch tán nhiều chế độ xem và các biểu diễn 3D nhanh như Gaussian Splatting. Kỳ vọng chuyển văn bản thành 3D sẽ phát triển nhanh hơn và trung thực hơn về mặt hình học, thu hẹp khoảng cách với nội dung được mô hình hóa bằng tay.

Triển khai trong thế giới thực

Tạo mô hình 3D của 'ảnh DSLR chụp một con sóc đội chiếc mũ nhỏ' chỉ từ văn bản

Tạo nội dung AR và trò chơi nháp mà không cần điêu khắc 3D thủ công

Sản xuất các mắt lưới có thể xuất khẩu mà các nghệ sĩ tinh chỉnh thay vì xây dựng từ đầu

Cơ sở nghiên cứu để đánh giá các phương pháp chuyển văn bản thành 3D mới hơn so với SDS

Các mẫu triển khai

Lấy mẫu chưng cất điểm số và DreamFusion trong thực tế

Tạo mô hình 3D của 'ảnh DSLR chụp một con sóc đội chiếc mũ nhỏ' chỉ từ văn bản.

Tạo mô hình 3D của 'ảnh DSLR chụp một con sóc đội chiếc mũ nhỏ' chỉ từ văn bản. Các nhóm thường đạt được kết quả tốt hơn khi họ xác định trước các ngưỡng chất lượng, duy trì lộ trình leo thang của con người đối với các trường hợp khó khăn và theo dõi cả mức tăng năng suất và chi phí do lỗi theo thời gian.

Lấy mẫu chưng cất điểm số và DreamFusion trong thực tế

Tạo nội dung AR và trò chơi nháp mà không cần điêu khắc 3D thủ công.

Tạo nội dung AR và trò chơi nháp mà không cần điêu khắc 3D thủ công. Các nhóm thường nhận được kết quả tốt hơn khi họ xác định trước các ngưỡng chất lượng, duy trì lộ trình báo cáo của con người đối với các trường hợp khó khăn và theo dõi cả mức tăng năng suất và chi phí lỗi theo thời gian.

Lấy mẫu chưng cất điểm số và DreamFusion trong thực tế

Sản xuất các mắt lưới có thể xuất khẩu mà các nghệ sĩ tinh chỉnh thay vì xây dựng từ đầu.

Sản xuất các lưới có thể xuất mà các nghệ sĩ tinh chỉnh thay vì xây dựng từ đầu Các nhóm thường đạt được kết quả tốt hơn khi họ xác định trước các ngưỡng chất lượng, duy trì lộ trình leo thang của con người đối với các trường hợp khó khăn và theo dõi cả mức tăng năng suất và chi phí lỗi theo thời gian.

Lấy mẫu chưng cất điểm số và DreamFusion trong thực tế

Nghiên cứu cơ sở để đánh giá các phương pháp chuyển văn bản thành 3D mới hơn so với SDS.

Cơ sở nghiên cứu để đánh giá các phương pháp chuyển văn bản sang 3D mới hơn dựa trên SDS. Nhóm thường nhận được kết quả tốt hơn khi họ xác định trước các ngưỡng chất lượng, duy trì lộ trình leo thang của con người đối với các trường hợp khó khăn và theo dõi cả mức tăng năng suất và chi phí lỗi theo thời gian.

Rủi ro & lan can

!

Quyền và sự đồng ý về hình ảnh có thể trở thành rủi ro pháp lý nếu nguồn gốc xuất xứ không rõ ràng.

!

Hiệu suất của mô hình có thể khác nhau tùy theo ánh sáng, nhân khẩu học và môi trường.

!

Kết quả dương tính giả có thể không được chú ý trừ khi ngưỡng tin cậy được theo dõi.

Lộ trình thực hiện

1

Xác định tiêu chí chấp nhận về độ chính xác, thu hồi và chi phí lỗi.

Xác định tiêu chí chấp nhận về độ chính xác, thu hồi và chi phí lỗi. Hãy coi mỗi bước như một cổng bằng chứng: nếu không đáp ứng được các tiêu chí, hãy tạm dừng triển khai, thu hẹp khoảng cách và chỉ sau đó mới mở rộng mức sử dụng.

2

Kiểm tra với dữ liệu phù hợp với điều kiện sản xuất thực tế.

Kiểm tra với dữ liệu phù hợp với điều kiện sản xuất thực tế. Hãy coi mỗi bước như một cổng bằng chứng: nếu không đáp ứng được các tiêu chí, hãy tạm dừng triển khai, thu hẹp khoảng cách và chỉ sau đó mới mở rộng mức sử dụng.

3

Thêm đánh giá của con người đối với những dự đoán có độ tin cậy thấp hoặc tác động cao.

Thêm đánh giá của con người đối với những dự đoán có độ tin cậy thấp hoặc tác động cao. Hãy coi mỗi bước như một cổng bằng chứng: nếu không đáp ứng được các tiêu chí, hãy tạm dừng triển khai, thu hẹp khoảng cách và chỉ sau đó mới mở rộng mức sử dụng.

4

Theo dõi sự trôi dạt của mô hình và xác nhận lại sau khi thay đổi máy ảnh hoặc tập dữ liệu.

Theo dõi sự trôi dạt của mô hình và xác nhận lại sau khi thay đổi máy ảnh hoặc tập dữ liệu. Hãy coi mỗi bước như một cổng bằng chứng: nếu không đáp ứng được các tiêu chí, hãy tạm dừng triển khai, thu hẹp khoảng cách và chỉ sau đó mới mở rộng mức sử dụng.

Tiếp tục khám phá