Hướng dẫn về máy biến áp tầm nhìn

Tổng quan

Vision Transformers (ViTs) áp dụng kiến trúc máy biến áp hỗ trợ ChatGPT cho hình ảnh, xử lý hình ảnh dưới dạng một chuỗi các mảng thay vì một lưới pixel. Họ đã chứng minh rằng bạn không cần phải tích chập để đạt được khả năng nhận dạng hình ảnh tiên tiến nhất.

Vision Transformers thuộc dòng công việc thị giác máy tính diễn giải hoặc tạo ra phương tiện trực quan để phân tích, vận hành và sáng tạo.

Lặn sâu

Trong nhiều năm, mạng thần kinh tích chập (CNN) đã thống trị thị giác máy tính bằng cách quét các bộ lọc nhỏ trên một hình ảnh. Bài báo năm 2020 'Một hình ảnh có giá trị 16x16 từ' từ Google đã thách thức điều này bằng cách cắt một hình ảnh thành các mảng cố định, thường là 16x16 pixel, làm phẳng từng mảng thành một vectơ và đưa chuỗi kết quả vào một máy biến áp tiêu chuẩn. Mỗi bản vá sẽ trở thành một 'mã thông báo', giống như một từ trong câu. Sau đó, mô hình sử dụng tính năng tự chú ý để mỗi bản vá có thể liên quan trực tiếp đến mọi bản vá khác, nắm bắt các mối quan hệ tầm xa mà một bộ lọc tích chập nhỏ không thể nhìn thấy trong một bước. Điểm đáng lưu ý: ViT rất đói dữ liệu vì chúng thiếu các giả định có sẵn của CNN. Được đào tạo trên các bộ dữ liệu khổng lồ như JFT-300M, họ đã sánh ngang hoặc đánh bại các CNN tốt nhất, định hình lại hoạt động nghiên cứu thị giác hiện đại.

Hiểu biết kỹ thuật

ViT chia hình ảnh thành các miếng vá không chồng chéo, chiếu tuyến tính từng miếng vào một phần nhúng và thêm mã hóa vị trí để mô hình biết vị trí của từng miếng vá trong hình ảnh gốc. Một 'mã thông báo lớp' đặc biệt có thể học được được thêm vào trước; phân loại ổ đĩa đại diện cuối cùng của nó. Các lớp tự chú ý được xếp chồng lên nhau cho phép mỗi bản vá cân nhắc thông tin từ tất cả các bản vá khác, tạo ra một trường tiếp nhận toàn cầu từ lớp một. Vì sự chú ý tỉ lệ bậc hai với số lượng bản vá nên hình ảnh có độ phân giải cao trở nên đắt tiền, đó là lý do tại sao kích thước bản vá và các biến thể chú ý hiệu quả lại quan trọng.

Làm chủ máy biến áp tầm nhìn

Để xây dựng sự hiểu biết sâu sắc, hãy coi Vision Transformers như một mô hình hoạt động chứ không phải một tính năng duy nhất. Xác định các kết quả mong muốn, làm rõ các giả định và tách biệt những gì hệ thống có thể thực hiện một cách đáng tin cậy với những gì vẫn cần đến sự đánh giá của chuyên gia.

Trong thực tế, các nhóm mạnh sử dụng Vision Transformers cân bằng độ chính xác với thực tế vận hành như chất lượng dữ liệu, phương sai ánh sáng và tính nhất quán của nhãn. Họ ghi lại các tiêu chí thành công rõ ràng, kiểm tra dựa trên dữ liệu và quy trình làm việc thực tế, đồng thời lặp lại dựa trên các kiểu thất bại được quan sát thay vì chiến thắng điểm chuẩn một lần. Đây là nơi sự hiểu biết về mặt lý thuyết biến thành khả năng bền vững trên toàn bộ sản phẩm, chính sách và hoạt động.

Visual AI có thể tự động hóa các nhiệm vụ kiểm tra, phát hiện và gắn thẻ trên quy mô lớn. Đồng thời, quyền về hình ảnh và sự đồng ý có thể trở thành rủi ro pháp lý nếu nguồn gốc xuất xứ không rõ ràng. Cách tiếp cận linh hoạt nhất là kết hợp tốc độ thử nghiệm với kỷ luật quản trị: chạy thử nghiệm, thu thập bằng chứng, xuất bản nhật ký quyết định và liên tục cập nhật các biện pháp bảo vệ khi hành vi của mô hình, kỳ vọng của người dùng và các yêu cầu pháp lý phát triển.

Tác động chiến lược

Visual AI có thể tự động hóa các nhiệm vụ kiểm tra, phát hiện và gắn thẻ trên quy mô lớn.

Visual AI có thể tự động hóa các nhiệm vụ kiểm tra, phát hiện và gắn thẻ trên quy mô lớn. Trong quá trình triển khai chất lượng cao, điều này được chuyển thành các quy tắc vận hành, ranh giới quyền sở hữu và quy trình đánh giá định kỳ có thể đo lường được để các nhóm có thể mở rộng quy mô một cách tự tin thay vì mở rộng quy mô sự mơ hồ.

Các nhóm sáng tạo có thể tạo nguyên mẫu nhanh hơn với ít sửa đổi thủ công hơn.

Các nhóm sáng tạo có thể tạo nguyên mẫu nhanh hơn với ít sửa đổi thủ công hơn. Trong quá trình triển khai chất lượng cao, điều này được chuyển thành các quy tắc vận hành, ranh giới quyền sở hữu và quy trình đánh giá định kỳ có thể đo lường được để các nhóm có thể mở rộng quy mô một cách tự tin thay vì mở rộng quy mô sự mơ hồ.

Các hoạt động có thể sử dụng tín hiệu hình ảnh và video mà trước đây khó xử lý.

Các hoạt động có thể sử dụng tín hiệu hình ảnh và video mà trước đây khó xử lý. Trong quá trình triển khai chất lượng cao, điều này được chuyển thành các quy tắc vận hành, ranh giới quyền sở hữu và quy trình đánh giá định kỳ có thể đo lường được để các nhóm có thể mở rộng quy mô một cách tự tin thay vì mở rộng quy mô sự mơ hồ.

Tương lai của máy biến áp tầm nhìn

Sự kết hợp giữa ViT và biến áp CNN hiện cung cấp năng lượng cho các hệ thống thị giác hàng đầu và kiến trúc củng cố các mô hình đa phương thức kết hợp hình ảnh với văn bản, như CLIP và các trợ lý ngôn ngữ thị giác hiện đại. Mong đợi công việc tiếp tục nhằm làm cho sự chú ý trở nên rẻ hơn đối với video và độ phân giải cao, cộng với việc đào tạo trước tự giám sát (chẳng hạn như tạo mô hình hình ảnh bị che) để làm giảm nhu cầu dữ liệu được dán nhãn khổng lồ. Khi điện toán phát triển, ranh giới giữa 'mô hình ngôn ngữ' và 'mô hình tầm nhìn' ngày càng mờ nhạt, với các máy biến áp đóng vai trò là xương sống chung giữa các phương thức thay vì các thiết kế chuyên biệt riêng biệt.

Triển khai trong thế giới thực

Hệ thống xếp hạng tìm kiếm và phân loại hình ảnh của Google sử dụng xương sống máy biến áp sau khi ViT tỏ ra cạnh tranh với CNN

CLIP và các mô hình văn bản hình ảnh khác sử dụng ViT để mã hóa hình ảnh để ảnh và chú thích có thể khớp với nhau trong một không gian chung

Nghiên cứu hình ảnh y tế sử dụng ViT để phát hiện các mẫu trên toàn bộ quá trình quét thay vì chỉ các kết cấu cục bộ

Các ngăn xếp nhận thức về xe tự lái và robot kết hợp sự chú ý kiểu ViT để hiểu được cảnh trên toàn bộ trường nhìn

Các mẫu triển khai

Vision Transformers trong thực tế

Hệ thống phân loại hình ảnh và xếp hạng tìm kiếm của Google sử dụng xương sống máy biến áp sau khi ViT tỏ ra cạnh tranh với CNN.

Các nhóm thường nhận được kết quả tốt hơn khi họ xác định ngay từ đầu các ngưỡng chất lượng, duy trì lộ trình leo thang của con người đối với các trường hợp khó khăn và theo dõi cả mức tăng năng suất cũng như chi phí do lỗi theo thời gian.

Vision Transformers trong thực tế

CLIP và các mô hình văn bản hình ảnh khác sử dụng ViT để mã hóa hình ảnh để ảnh và chú thích có thể khớp với nhau trong một không gian chung.

Các nhóm thường nhận được kết quả tốt hơn khi họ xác định ngay từ đầu các ngưỡng chất lượng, duy trì lộ trình leo thang của con người đối với các trường hợp khó khăn và theo dõi cả mức tăng năng suất cũng như chi phí do lỗi theo thời gian.

Vision Transformers trong thực tế

Nghiên cứu hình ảnh y tế sử dụng ViT để phát hiện các mẫu trên toàn bộ quá trình quét thay vì chỉ các kết cấu cục bộ.

Các nhóm thường nhận được kết quả tốt hơn khi họ xác định ngay từ đầu các ngưỡng chất lượng, duy trì lộ trình leo thang của con người đối với các trường hợp khó khăn và theo dõi cả mức tăng năng suất cũng như chi phí do lỗi theo thời gian.

Vision Transformers trong thực tế

Các ngăn xếp nhận thức về xe tự lái và robot kết hợp sự chú ý kiểu ViT để hiểu được cảnh trên toàn bộ trường nhìn.

Các nhóm thường nhận được kết quả tốt hơn khi họ xác định ngay từ đầu các ngưỡng chất lượng, duy trì lộ trình leo thang của con người đối với các trường hợp khó khăn và theo dõi cả mức tăng năng suất cũng như chi phí do lỗi theo thời gian.

Rủi ro & lan can

!

Quyền và sự đồng ý về hình ảnh có thể trở thành rủi ro pháp lý nếu nguồn gốc xuất xứ không rõ ràng.

!

Hiệu suất của mô hình có thể khác nhau tùy theo ánh sáng, nhân khẩu học và môi trường.

!

Kết quả dương tính giả có thể không được chú ý trừ khi ngưỡng tin cậy được theo dõi.

Lộ trình thực hiện

1

Xác định tiêu chí chấp nhận về độ chính xác, thu hồi và chi phí lỗi.

Hãy coi đây như một cổng bằng chứng: nếu không đáp ứng các tiêu chí, hãy tạm dừng triển khai, thu hẹp khoảng cách và chỉ sau đó mới mở rộng mức sử dụng.

2

Kiểm tra với dữ liệu phù hợp với điều kiện sản xuất thực tế.

Hãy coi đây như một cổng bằng chứng: nếu không đáp ứng các tiêu chí, hãy tạm dừng triển khai, thu hẹp khoảng cách và chỉ sau đó mới mở rộng mức sử dụng.

3

Thêm đánh giá của con người đối với những dự đoán có độ tin cậy thấp hoặc tác động cao.

Hãy coi đây như một cổng bằng chứng: nếu không đáp ứng các tiêu chí, hãy tạm dừng triển khai, thu hẹp khoảng cách và chỉ sau đó mới mở rộng mức sử dụng.

4

Theo dõi sự trôi dạt của mô hình và xác nhận lại sau khi thay đổi máy ảnh hoặc tập dữ liệu.

Hãy coi đây như một cổng bằng chứng: nếu không đáp ứng các tiêu chí, hãy tạm dừng triển khai, thu hẹp khoảng cách và chỉ sau đó mới mở rộng mức sử dụng.

Tiếp tục khám phá

Thị giác máy tính

Hiểu các hệ thống cơ sở hỗ trợ AI trực quan.

Đọc hướng dẫn

Tạo hình ảnh AI

Khám phá quy trình tạo và cân bằng mô hình.

Đọc hướng dẫn

Máy biến áp tầm nhìn

Tổng quan

Lặn sâu

Hiểu biết kỹ thuật

Làm chủ máy biến áp tầm nhìn

Tác động chiến lược

Tương lai của máy biến áp tầm nhìn

Triển khai trong thế giới thực

Các mẫu triển khai

Vision Transformers trong thực tế

Vision Transformers trong thực tế

Vision Transformers trong thực tế

Vision Transformers trong thực tế

Rủi ro & lan can

Lộ trình thực hiện

Tiếp tục khám phá

Thị giác máy tính

Tạo hình ảnh AI

Related guides