HƯỚNG DẪN AI trực quan

Đại diện 3D lai DMTet

DMTet (Tứ diện Deep Marching) là một biểu diễn hình dạng 3D lai kết hợp lưới tứ diện có thể biến dạng với trường khoảng cách đã ký để mạng thần kinh có thể tạo ra các lưới chi tiết, kín nước một cách trực tiếp.

Tổng quan

DMTet (Tứ diện Deep Marching) là một biểu diễn hình dạng 3D lai kết hợp lưới tứ diện có thể biến dạng với trường khoảng cách đã ký để mạng thần kinh có thể tạo ra các lưới chi tiết, kín nước một cách trực tiếp. Điều này quan trọng vì nó làm cho việc tạo lưới 3D có độ phân giải cao trở nên khác biệt và có thể huấn luyện từ đầu đến cuối.

Bản trình bày 3D lai DMTet thuộc về quy trình công việc thị giác máy tính diễn giải hoặc tạo ra phương tiện trực quan để phân tích, vận hành và sáng tạo.

Lặn sâu

DMTet, được NVIDIA giới thiệu vào năm 2021, kết hợp các biểu diễn 3D ẩn và rõ ràng. Nó bắt đầu với một lưới tứ diện có thể biến dạng; tại mỗi đỉnh lưới, mạng dự đoán một giá trị khoảng cách đã ký (dương bên ngoài bề mặt, âm bên trong) và độ lệch vị trí. Sau đó, một lớp Tứ diện Marching khác nhau sẽ trích xuất một lưới tam giác cụ thể ở bất kỳ vị trí nào dấu của trường khoảng cách lướt qua một cạnh tứ diện. Bởi vì cả giá trị SDF và vị trí đỉnh đều được học và việc trích xuất bề mặt có thể vi phân nên bạn có thể tối ưu hóa toàn bộ quy trình chống lại hiện tượng mất hình ảnh 2D hoặc giám sát 3D. DMTet cũng hỗ trợ phân chia từ thô đến mịn, chỉ tinh chỉnh các khối tứ diện gần bề mặt để thêm chi tiết hình học một cách hiệu quả mà không lãng phí dung lượng trên không gian trống.

Hiểu biết kỹ thuật

Bí quyết là lớp tứ diện diễu hành khả vi: tứ diện diễu hành cổ điển là không khả vi vì cấu trúc liên kết lưới thay đổi một cách riêng biệt, nhưng DMTet giữ độ dốc chảy qua các giá trị SDF được dự đoán và biến dạng đỉnh xác định vị trí của các đỉnh bề mặt tiếp đất. Các đỉnh bề mặt được đặt bằng phép nội suy tuyến tính dọc theo các cạnh tetra bằng cách sử dụng thay đổi dấu SDF, do đó vị trí và chi tiết liên tục được tối ưu hóa trong khi cấu trúc liên kết thích ứng.

Làm chủ cách trình bày 3D lai DMTet

DMTet (Tứ diện Deep Marching) là một biểu diễn hình dạng 3D lai kết hợp lưới tứ diện có thể biến dạng với trường khoảng cách đã ký để mạng thần kinh có thể tạo ra các lưới chi tiết, kín nước một cách trực tiếp. Điều này quan trọng vì nó làm cho việc tạo lưới 3D có độ phân giải cao trở nên khác biệt và có thể huấn luyện từ đầu đến cuối. Bản trình bày 3D lai DMTet thuộc về quy trình công việc thị giác máy tính diễn giải hoặc tạo ra phương tiện trực quan để phân tích, vận hành và sáng tạo. Để xây dựng sự hiểu biết sâu sắc, hãy coi Biểu diễn 3D lai DMTet như một mô hình vận hành chứ không phải một tính năng duy nhất: xác định kết quả mong muốn, làm rõ các giả định và tách biệt những gì hệ thống có thể thực hiện một cách đáng tin cậy với những gì vẫn cần đến sự đánh giá của chuyên gia.

Trong thực tế, các nhóm mạnh sử dụng Độ chính xác của Biểu diễn 3D lai DMTet cân bằng với thực tế hoạt động như chất lượng dữ liệu, phương sai ánh sáng và tính nhất quán của nhãn. Họ ghi lại các tiêu chí thành công rõ ràng, kiểm tra dựa trên dữ liệu và quy trình làm việc thực tế, đồng thời lặp lại dựa trên các kiểu thất bại được quan sát thay vì chiến thắng điểm chuẩn một lần. Đây là nơi sự hiểu biết về mặt lý thuyết biến thành khả năng bền vững trên toàn bộ sản phẩm, chính sách và hoạt động.

Visual AI có thể tự động hóa các nhiệm vụ kiểm tra, phát hiện và gắn thẻ trên quy mô lớn. Đồng thời, quyền về hình ảnh và sự đồng ý có thể trở thành rủi ro pháp lý nếu nguồn gốc xuất xứ không rõ ràng. Cách tiếp cận linh hoạt nhất là kết hợp tốc độ thử nghiệm với kỷ luật quản trị: chạy thử nghiệm, thu thập bằng chứng, xuất bản nhật ký quyết định và liên tục cập nhật các biện pháp bảo vệ khi hành vi của mô hình, kỳ vọng của người dùng và các yêu cầu pháp lý phát triển.

Tác động chiến lược

Visual AI có thể tự động hóa các nhiệm vụ kiểm tra, phát hiện và gắn thẻ trên quy mô lớn.

Visual AI có thể tự động hóa các nhiệm vụ kiểm tra, phát hiện và gắn thẻ trên quy mô lớn. Trong quá trình triển khai chất lượng cao, điều này được chuyển thành các quy tắc vận hành, ranh giới quyền sở hữu và quy trình đánh giá định kỳ có thể đo lường được để các nhóm có thể mở rộng quy mô một cách tự tin thay vì mở rộng quy mô sự mơ hồ.

Các nhóm sáng tạo có thể tạo nguyên mẫu nhanh hơn với ít sửa đổi thủ công hơn.

Các nhóm sáng tạo có thể tạo nguyên mẫu nhanh hơn với ít sửa đổi thủ công hơn. Trong quá trình triển khai chất lượng cao, điều này được chuyển thành các quy tắc vận hành, ranh giới quyền sở hữu và quy trình đánh giá định kỳ có thể đo lường được để các nhóm có thể mở rộng quy mô một cách tự tin thay vì mở rộng quy mô sự mơ hồ.

Các hoạt động có thể sử dụng tín hiệu hình ảnh và video mà trước đây khó xử lý.

Các hoạt động có thể sử dụng tín hiệu hình ảnh và video mà trước đây khó xử lý. Trong quá trình triển khai chất lượng cao, điều này được chuyển thành các quy tắc vận hành, ranh giới quyền sở hữu và quy trình đánh giá định kỳ có thể đo lường được để các nhóm có thể mở rộng quy mô một cách tự tin thay vì mở rộng quy mô sự mơ hồ.

Tương lai của biểu diễn 3D lai DMTet

DMTet đã trở thành xương sống cho các hệ thống chuyển văn bản thành 3D và hình ảnh thành 3D. Nó hỗ trợ GET3D của NVIDIA để tạo các hình dạng có kết cấu và giai đoạn tinh chỉnh bề mặt của các đường ống như Magic3D và Fantasia3D, bắt đầu từ NeRF thô và chuyển đổi sang lưới DMTet để có được chi tiết sắc nét. Mong đợi việc tiếp tục sử dụng làm giai đoạn cầu nối để biến các ưu tiên 3D dựa trên thể tích hoặc khuếch tán thành các lưới rõ ràng, sẵn sàng cho trò chơi, với công việc đang diễn ra ở độ phân giải cao hơn và khả năng kết nối kết cấu tốt hơn.

Triển khai trong thế giới thực

Tạo các lưới nội dung và nhân vật 3D kín nước, sẵn sàng cho trò chơi trong mô hình tổng hợp GET3D của NVIDIA

Đóng vai trò là giai đoạn sàng lọc lưới có độ phân giải cao trong các hệ thống chuyển văn bản thành 3D như Magic3D

Chuyển đổi kết quả NeRF thể tích thô thành lưới tam giác sắc nét, có thể xuất được

Tối ưu hóa hình dạng 3D trực tiếp từ hình ảnh nhiều chế độ xem bằng cách sử dụng các tổn thất hiển thị có thể phân biệt được

Các mẫu triển khai

Biểu diễn 3D lai DMTet trong thực tế

Tạo các lưới nội dung và nhân vật 3D kín nước, sẵn sàng cho trò chơi trong mô hình tổng hợp GET3D của NVIDIA.

Tạo các lưới tài sản và nhân vật 3D kín nước, sẵn sàng cho trò chơi trong mô hình tổng hợp GET3D của NVIDIA Các nhóm thường đạt được kết quả tốt hơn khi họ xác định trước các ngưỡng chất lượng, duy trì lộ trình leo thang của con người đối với các trường hợp khó khăn và theo dõi cả mức tăng năng suất và chi phí lỗi theo thời gian.

Biểu diễn 3D lai DMTet trong thực tế

Đóng vai trò là giai đoạn sàng lọc lưới có độ phân giải cao trong các hệ thống chuyển văn bản thành 3D như Magic3D.

Đóng vai trò là giai đoạn sàng lọc lưới có độ phân giải cao trong các hệ thống chuyển văn bản thành 3D như Nhóm Magic3D thường nhận được kết quả tốt hơn khi họ xác định trước các ngưỡng chất lượng, duy trì lộ trình leo thang của con người đối với các trường hợp phức tạp và theo dõi cả mức tăng năng suất và chi phí lỗi theo thời gian.

Biểu diễn 3D lai DMTet trong thực tế

Chuyển đổi kết quả NeRF thể tích thô thành lưới tam giác sắc nét, có thể xuất được.

Chuyển đổi kết quả NeRF thể tích thô thành lưới tam giác sắc nét, có thể xuất Các nhóm thường đạt được kết quả tốt hơn khi họ xác định trước các ngưỡng chất lượng, theo dõi lộ trình leo thang của con người đối với các trường hợp khó khăn và theo dõi cả mức tăng năng suất và chi phí lỗi theo thời gian.

Biểu diễn 3D lai DMTet trong thực tế

Tối ưu hóa hình dạng 3D trực tiếp từ hình ảnh nhiều chế độ xem bằng cách sử dụng các tổn thất hiển thị khác nhau.

Tối ưu hóa hình dạng 3D trực tiếp từ hình ảnh nhiều chế độ xem bằng cách sử dụng tổn thất hiển thị khác nhau. Các nhóm thường đạt được kết quả tốt hơn khi họ xác định trước ngưỡng chất lượng, duy trì lộ trình leo thang của con người đối với các trường hợp khó khăn và theo dõi cả mức tăng năng suất và chi phí lỗi theo thời gian.

Rủi ro & lan can

!

Quyền và sự đồng ý về hình ảnh có thể trở thành rủi ro pháp lý nếu nguồn gốc xuất xứ không rõ ràng.

!

Hiệu suất của mô hình có thể khác nhau tùy theo ánh sáng, nhân khẩu học và môi trường.

!

Kết quả dương tính giả có thể không được chú ý trừ khi ngưỡng tin cậy được theo dõi.

Lộ trình thực hiện

1

Xác định tiêu chí chấp nhận về độ chính xác, thu hồi và chi phí lỗi.

Xác định tiêu chí chấp nhận về độ chính xác, thu hồi và chi phí lỗi. Hãy coi mỗi bước như một cổng bằng chứng: nếu không đáp ứng được các tiêu chí, hãy tạm dừng triển khai, thu hẹp khoảng cách và chỉ sau đó mới mở rộng mức sử dụng.

2

Kiểm tra với dữ liệu phù hợp với điều kiện sản xuất thực tế.

Kiểm tra với dữ liệu phù hợp với điều kiện sản xuất thực tế. Hãy coi mỗi bước như một cổng bằng chứng: nếu không đáp ứng được các tiêu chí, hãy tạm dừng triển khai, thu hẹp khoảng cách và chỉ sau đó mới mở rộng mức sử dụng.

3

Thêm đánh giá của con người đối với những dự đoán có độ tin cậy thấp hoặc tác động cao.

Thêm đánh giá của con người đối với những dự đoán có độ tin cậy thấp hoặc tác động cao. Hãy coi mỗi bước như một cổng bằng chứng: nếu không đáp ứng được các tiêu chí, hãy tạm dừng triển khai, thu hẹp khoảng cách và chỉ sau đó mới mở rộng mức sử dụng.

4

Theo dõi sự trôi dạt của mô hình và xác nhận lại sau khi thay đổi máy ảnh hoặc tập dữ liệu.

Theo dõi sự trôi dạt của mô hình và xác nhận lại sau khi thay đổi máy ảnh hoặc tập dữ liệu. Hãy coi mỗi bước như một cổng bằng chứng: nếu không đáp ứng được các tiêu chí, hãy tạm dừng triển khai, thu hẹp khoảng cách và chỉ sau đó mới mở rộng mức sử dụng.

Tiếp tục khám phá