HƯỚNG DẪN AI trực quan

Phân đoạn toàn cảnh

Phân đoạn toàn cảnh cung cấp cho mỗi pixel trong hình ảnh một nhãn, thống nhất 'vùng này là gì' với 'đối tượng cụ thể này là gì'.

Tổng quan

Phân đoạn toàn cảnh cung cấp cho mỗi pixel trong hình ảnh một nhãn, thống nhất 'vùng này là gì' với 'đối tượng cụ thể này là gì'. Đây là hình thức hiểu biết cảnh đầy đủ nhất trong thị giác máy tính.

Phân đoạn toàn cảnh thuộc về quy trình công việc thị giác máy tính diễn giải hoặc tạo ra phương tiện trực quan để phân tích, vận hành và sáng tạo.

Lặn sâu

Tầm nhìn máy tính từ lâu đã có hai nhiệm vụ riêng biệt. Phân đoạn ngữ nghĩa gắn nhãn từng pixel theo danh mục (đường, bầu trời, con người) nhưng không thể phân biệt hai người. Phân đoạn phiên bản tìm và phác thảo các đối tượng có thể đếm được riêng lẻ nhưng bỏ qua những 'thứ' nền như bầu trời hoặc cỏ. Phân đoạn toàn cảnh, được chính thức hóa bởi các nhà nghiên cứu AI của Facebook vào năm 2018, hợp nhất cả hai: nó chỉ định mỗi pixel một danh mục và đối với những 'thứ' có thể đếm được, nó cũng chỉ định một ID phiên bản duy nhất. Kết quả là một bản đồ mạch lạc duy nhất không có khoảng trống hoặc chồng chéo. Chất lượng được đo bằng Chất lượng Panoptic (PQ), kết hợp mức độ chính xác của các vùng được nhận dạng với mức độ phù hợp giữa các ranh giới của chúng. Điều cần thiết là ở bất cứ nơi nào máy móc phải hiểu toàn bộ khung cảnh, chẳng hạn như ô tô tự lái diễn giải đường phố.

Hiểu biết kỹ thuật

Các mô hình toàn cảnh chia nhãn thành 'vật' (các đối tượng có thể đếm được như ô tô và con người, có ID phiên bản) và 'thứ' (các vùng vô định hình như đường hoặc bầu trời, không có ID). Các hệ thống ban đầu chạy các nhánh ngữ nghĩa và nhánh phiên bản riêng biệt, sau đó kết hợp chúng với các quy tắc để giải quyết xung đột pixel. Các phương pháp dựa trên máy biến áp mới hơn như Mask2Former dự đoán trực tiếp một bộ mặt nạ có nhãn lớp được liên kết, xử lý cả sự vật và nội dung trong một kiến ​​trúc thống nhất.

Nắm vững phân đoạn toàn cảnh

Phân đoạn toàn cảnh cung cấp cho mỗi pixel trong hình ảnh một nhãn, thống nhất 'vùng này là gì' với 'đối tượng cụ thể này là gì'. Đây là hình thức hiểu biết cảnh đầy đủ nhất trong thị giác máy tính. Phân đoạn toàn cảnh thuộc về quy trình công việc thị giác máy tính diễn giải hoặc tạo ra phương tiện trực quan để phân tích, vận hành và sáng tạo. Để xây dựng sự hiểu biết sâu sắc, hãy coi Phân đoạn toàn cảnh như một mô hình hoạt động chứ không phải một tính năng duy nhất: xác định kết quả mong muốn, làm rõ các giả định và tách biệt những gì hệ thống có thể thực hiện một cách đáng tin cậy với những gì vẫn cần đến sự đánh giá của chuyên gia.

Trong thực tế, các nhóm mạnh sử dụng Phân đoạn toàn cảnh sẽ cân bằng độ chính xác với thực tế hoạt động như chất lượng dữ liệu, phương sai ánh sáng và tính nhất quán của nhãn. Họ ghi lại các tiêu chí thành công rõ ràng, kiểm tra dựa trên dữ liệu và quy trình làm việc thực tế, đồng thời lặp lại dựa trên các kiểu thất bại được quan sát thay vì chiến thắng điểm chuẩn một lần. Đây là nơi sự hiểu biết về mặt lý thuyết biến thành khả năng bền vững trên toàn bộ sản phẩm, chính sách và hoạt động.

Visual AI có thể tự động hóa các nhiệm vụ kiểm tra, phát hiện và gắn thẻ trên quy mô lớn. Đồng thời, quyền về hình ảnh và sự đồng ý có thể trở thành rủi ro pháp lý nếu nguồn gốc xuất xứ không rõ ràng. Cách tiếp cận linh hoạt nhất là kết hợp tốc độ thử nghiệm với kỷ luật quản trị: chạy thử nghiệm, thu thập bằng chứng, xuất bản nhật ký quyết định và liên tục cập nhật các biện pháp bảo vệ khi hành vi của mô hình, kỳ vọng của người dùng và các yêu cầu pháp lý phát triển.

Tác động chiến lược

Visual AI có thể tự động hóa các nhiệm vụ kiểm tra, phát hiện và gắn thẻ trên quy mô lớn.

Visual AI có thể tự động hóa các nhiệm vụ kiểm tra, phát hiện và gắn thẻ trên quy mô lớn. Trong quá trình triển khai chất lượng cao, điều này được chuyển thành các quy tắc vận hành, ranh giới quyền sở hữu và quy trình đánh giá định kỳ có thể đo lường được để các nhóm có thể mở rộng quy mô một cách tự tin thay vì mở rộng quy mô sự mơ hồ.

Các nhóm sáng tạo có thể tạo nguyên mẫu nhanh hơn với ít sửa đổi thủ công hơn.

Các nhóm sáng tạo có thể tạo nguyên mẫu nhanh hơn với ít sửa đổi thủ công hơn. Trong quá trình triển khai chất lượng cao, điều này được chuyển thành các quy tắc vận hành, ranh giới quyền sở hữu và quy trình đánh giá định kỳ có thể đo lường được để các nhóm có thể mở rộng quy mô một cách tự tin thay vì mở rộng quy mô sự mơ hồ.

Các hoạt động có thể sử dụng tín hiệu hình ảnh và video mà trước đây khó xử lý.

Các hoạt động có thể sử dụng tín hiệu hình ảnh và video mà trước đây khó xử lý. Trong quá trình triển khai chất lượng cao, điều này được chuyển thành các quy tắc vận hành, ranh giới quyền sở hữu và quy trình đánh giá định kỳ có thể đo lường được để các nhóm có thể mở rộng quy mô một cách tự tin thay vì mở rộng quy mô sự mơ hồ.

Tương lai của phân khúc toàn cảnh

Lĩnh vực này đang hợp nhất xung quanh các kiến ​​trúc biến áp dựa trên truy vấn, thống nhất để xử lý các nhiệm vụ ngữ nghĩa, phiên bản và toàn cảnh bằng một mô hình. Nghiên cứu đang hướng tới phân đoạn toàn cảnh video giúp giữ cho danh tính cá thể nhất quán trên các khung, mô hình từ vựng mở giúp phân đoạn các danh mục được mô tả trong văn bản và các mô hình nhẹ hơn, đủ hiệu quả cho rô-bốt và phương tiện. Dữ liệu đào tạo tổng hợp tốt hơn và khả năng tự giám sát đang giảm chi phí lớn cho chú thích thủ công hoàn hảo đến từng pixel.

Triển khai trong thế giới thực

Xe tự hành xây dựng bản đồ cấp pixel hoàn chỉnh để phân biệt từng ô tô, người đi bộ, đường và vỉa hè

Hình ảnh y tế đánh dấu các vùng cơ quan trong khi đếm các tổn thương hoặc tế bào riêng lẻ

Các ứng dụng thực tế tăng cường tách biệt mọi vật thể và bề mặt để đặt nội dung ảo một cách thực tế

Hệ thống robot phân tích đầy đủ khung cảnh lộn xộn để lập kế hoạch nắm bắt và điều hướng

Các mẫu triển khai

Phân đoạn toàn cảnh trong thực tế

Xe tự hành xây dựng bản đồ cấp pixel hoàn chỉnh để phân biệt từng ô tô, người đi bộ, đường và vỉa hè.

Xe tự hành xây dựng bản đồ cấp pixel hoàn chỉnh để phân biệt từng ô tô, người đi bộ, đường và vỉa hè Các nhóm thường đạt được kết quả tốt hơn khi họ xác định trước các ngưỡng chất lượng, duy trì lộ trình leo thang của con người cho các trường hợp khó khăn và theo dõi cả mức tăng năng suất và chi phí lỗi theo thời gian.

Phân đoạn toàn cảnh trong thực tế

Hình ảnh y tế đánh dấu các vùng cơ quan trong khi đếm các tổn thương hoặc tế bào riêng lẻ.

Hình ảnh y tế gắn nhãn các vùng cơ quan trong khi đếm các tổn thương hoặc tế bào riêng lẻ Các nhóm thường đạt được kết quả tốt hơn khi họ xác định trước các ngưỡng chất lượng, theo dõi lộ trình leo thang của con người đối với các trường hợp khó khăn và theo dõi cả mức tăng năng suất và chi phí do lỗi theo thời gian.

Phân đoạn toàn cảnh trong thực tế

Các ứng dụng thực tế tăng cường tách biệt mọi vật thể và bề mặt để đặt nội dung ảo một cách thực tế.

Các ứng dụng thực tế tăng cường tách biệt mọi đối tượng và bề mặt để đặt nội dung ảo một cách thực tế. Các nhóm thường đạt được kết quả tốt hơn khi họ xác định trước các ngưỡng chất lượng, duy trì lộ trình leo thang của con người đối với các trường hợp khó khăn và theo dõi cả mức tăng năng suất và chi phí lỗi theo thời gian.

Phân đoạn toàn cảnh trong thực tế

Các hệ thống robot có khả năng phân tích đầy đủ khung cảnh lộn xộn để lập kế hoạch nắm bắt và điều hướng.

Các hệ thống robot có khả năng phân tích đầy đủ bối cảnh lộn xộn để lên kế hoạch nắm bắt và điều hướng. Các nhóm thường đạt được kết quả tốt hơn khi họ xác định trước các ngưỡng chất lượng, duy trì lộ trình leo thang của con người đối với các trường hợp phức tạp và theo dõi cả mức tăng năng suất và chi phí lỗi theo thời gian.

Rủi ro & lan can

!

Quyền và sự đồng ý về hình ảnh có thể trở thành rủi ro pháp lý nếu nguồn gốc xuất xứ không rõ ràng.

!

Hiệu suất của mô hình có thể khác nhau tùy theo ánh sáng, nhân khẩu học và môi trường.

!

Kết quả dương tính giả có thể không được chú ý trừ khi ngưỡng tin cậy được theo dõi.

Lộ trình thực hiện

1

Xác định tiêu chí chấp nhận về độ chính xác, thu hồi và chi phí lỗi.

Xác định tiêu chí chấp nhận về độ chính xác, thu hồi và chi phí lỗi. Hãy coi mỗi bước như một cổng bằng chứng: nếu không đáp ứng được các tiêu chí, hãy tạm dừng triển khai, thu hẹp khoảng cách và chỉ sau đó mới mở rộng mức sử dụng.

2

Kiểm tra với dữ liệu phù hợp với điều kiện sản xuất thực tế.

Kiểm tra với dữ liệu phù hợp với điều kiện sản xuất thực tế. Hãy coi mỗi bước như một cổng bằng chứng: nếu không đáp ứng được các tiêu chí, hãy tạm dừng triển khai, thu hẹp khoảng cách và chỉ sau đó mới mở rộng mức sử dụng.

3

Thêm đánh giá của con người đối với những dự đoán có độ tin cậy thấp hoặc tác động cao.

Thêm đánh giá của con người đối với những dự đoán có độ tin cậy thấp hoặc tác động cao. Hãy coi mỗi bước như một cổng bằng chứng: nếu không đáp ứng được các tiêu chí, hãy tạm dừng triển khai, thu hẹp khoảng cách và chỉ sau đó mới mở rộng mức sử dụng.

4

Theo dõi sự trôi dạt của mô hình và xác nhận lại sau khi thay đổi máy ảnh hoặc tập dữ liệu.

Theo dõi sự trôi dạt của mô hình và xác nhận lại sau khi thay đổi máy ảnh hoặc tập dữ liệu. Hãy coi mỗi bước như một cổng bằng chứng: nếu không đáp ứng được các tiêu chí, hãy tạm dừng triển khai, thu hẹp khoảng cách và chỉ sau đó mới mở rộng mức sử dụng.

Tiếp tục khám phá