HƯỚNG DẪN cơ bản

Mô hình khuếch tán

Các mô hình khuếch tán tạo ra hình ảnh bằng cách học cách đảo ngược quá trình nhiễu, từng bước biến tĩnh ngẫu nhiên thành hình ảnh chi tiết.

Tổng quan

Các mô hình khuếch tán tạo ra hình ảnh bằng cách học cách đảo ngược quá trình nhiễu, từng bước biến tĩnh ngẫu nhiên thành hình ảnh chi tiết. Chúng hỗ trợ các công cụ chuyển văn bản thành hình ảnh hàng đầu hiện nay như Stable Diffusion, DALL-E và Midjourney.

Mô hình khuếch tán nằm trong bộ công cụ AI cốt lõi. Khi bạn hiểu nó, các chủ đề AI khác sẽ trở nên dễ dàng hơn để đánh giá và so sánh.

Lặn sâu

Một mô hình khuếch tán được đào tạo theo hai hướng. Trong quá trình chuyển tiếp, một hình ảnh sạch sẽ dần dần bị hỏng bằng cách thêm một lượng nhỏ nhiễu ngẫu nhiên cho đến khi nó trở thành tĩnh thuần túy. Sau đó, mô hình sẽ học điều ngược lại: bắt đầu từ nhiễu, nó dự đoán và loại bỏ một chút nhiễu ở mỗi bước, lặp lại hàng chục hoặc hàng trăm lần cho đến khi xuất hiện hình ảnh sắc nét. Để làm cho điều này có thể điều khiển được, một lời nhắc văn bản sẽ hướng dẫn từng bước khử nhiễu, do đó, "một phi hành gia cưỡi ngựa" sẽ điều khiển tĩnh về phía hình ảnh đó. Các hệ thống hiện đại như Stable Diffusion chạy quá trình này trong không gian tiềm ẩn được nén thay vì trên các pixel thô, khiến quá trình này nhanh hơn rất nhiều. So với GAN, các mô hình khuếch tán huấn luyện ổn định hơn và tạo ra sự đa dạng hơn, đó là lý do tại sao chúng vượt qua GAN để trở thành phương pháp thống trị để tạo hình ảnh chất lượng cao vào khoảng năm 2022.

Hiểu biết kỹ thuật

Bí quyết quan trọng là mạng không bao giờ phải tạo hình ảnh trong một lần chụp; nó chỉ học cách dự đoán tiếng ồn được thêm vào ở một bước nhất định. Trong quá trình huấn luyện, một lượng nhiễu đã biết sẽ được thêm vào hình ảnh thực và mô hình được yêu cầu ước tính lượng nhiễu đó; sự khác biệt là lỗi đào tạo. Tại thời điểm tạo, mô hình liên tục loại bỏ nhiễu dự đoán, dần dần tiết lộ cấu trúc. Điều hòa văn bản được đưa vào thông qua chú ý chéo và hướng dẫn không có bộ phân loại sẽ khuếch đại mức độ mạnh mẽ của lời nhắc điều khiển đầu ra.

Làm chủ các mô hình khuếch tán

Các mô hình khuếch tán tạo ra hình ảnh bằng cách học cách đảo ngược quá trình nhiễu, từng bước biến tĩnh ngẫu nhiên thành hình ảnh chi tiết. Chúng hỗ trợ các công cụ chuyển văn bản thành hình ảnh hàng đầu hiện nay như Stable Diffusion, DALL-E và Midjourney. Mô hình khuếch tán nằm trong bộ công cụ AI cốt lõi. Khi bạn hiểu nó, các chủ đề AI khác sẽ trở nên dễ dàng hơn để đánh giá và so sánh. Để xây dựng sự hiểu biết sâu sắc, hãy coi Mô hình khuếch tán như một mô hình vận hành chứ không phải một tính năng duy nhất: xác định kết quả mong muốn, làm rõ các giả định và tách biệt những gì hệ thống có thể thực hiện một cách đáng tin cậy với những gì vẫn cần đến sự đánh giá của chuyên gia.

Trong thực tế, các nhóm mạnh sử dụng Mô hình khuếch tán trước tiên sẽ xây dựng các mô hình khái niệm mạnh mẽ, sau đó ánh xạ các mô hình đó tới các giới hạn sản xuất thực tế. Họ ghi lại các tiêu chí thành công rõ ràng, kiểm tra dựa trên dữ liệu và quy trình làm việc thực tế, đồng thời lặp lại dựa trên các kiểu thất bại được quan sát thay vì chiến thắng điểm chuẩn một lần. Đây là nơi sự hiểu biết về mặt lý thuyết biến thành khả năng bền vững trên toàn bộ sản phẩm, chính sách và hoạt động.

Nó giúp bạn tách biệt các tuyên bố kỹ thuật rõ ràng khỏi ngôn ngữ tiếp thị. Đồng thời, các nhóm khác nhau có thể sử dụng cùng một thuật ngữ một cách khác nhau, vì vậy hãy sớm xác định phạm vi. Cách tiếp cận linh hoạt nhất là kết hợp tốc độ thử nghiệm với kỷ luật quản trị: chạy thử nghiệm, thu thập bằng chứng, xuất bản nhật ký quyết định và liên tục cập nhật các biện pháp bảo vệ khi hành vi của mô hình, kỳ vọng của người dùng và các yêu cầu pháp lý phát triển.

Tác động chiến lược

Nó giúp bạn tách biệt các tuyên bố kỹ thuật rõ ràng khỏi ngôn ngữ tiếp thị.

Nó giúp bạn tách biệt các tuyên bố kỹ thuật rõ ràng khỏi ngôn ngữ tiếp thị. Trong quá trình triển khai chất lượng cao, điều này được chuyển thành các quy tắc vận hành, ranh giới quyền sở hữu và quy trình đánh giá định kỳ có thể đo lường được để các nhóm có thể mở rộng quy mô một cách tự tin thay vì mở rộng quy mô sự mơ hồ.

Bạn có thể đặt các câu hỏi triển khai tốt hơn trước khi chi tiền hoặc thời gian.

Bạn có thể đặt các câu hỏi triển khai tốt hơn trước khi chi tiền hoặc thời gian. Trong quá trình triển khai chất lượng cao, điều này được chuyển thành các quy tắc vận hành, ranh giới quyền sở hữu và quy trình đánh giá định kỳ có thể đo lường được để các nhóm có thể mở rộng quy mô một cách tự tin thay vì mở rộng quy mô sự mơ hồ.

Các nhóm có sự hiểu biết chung sẽ đưa ra các quyết định về sản phẩm, chính sách và học tập tốt hơn.

Các nhóm có sự hiểu biết chung sẽ đưa ra các quyết định về sản phẩm, chính sách và học tập tốt hơn. Trong quá trình triển khai chất lượng cao, điều này được chuyển thành các quy tắc vận hành, ranh giới quyền sở hữu và quy trình đánh giá định kỳ có thể đo lường được để các nhóm có thể mở rộng quy mô một cách tự tin thay vì mở rộng quy mô sự mơ hồ.

Tương lai của các mô hình khuếch tán

Khuếch tán là công nghệ hiện đại dành cho hình ảnh cũng như thế hệ video và âm thanh ngày càng phát triển, với các công cụ như Sora mở rộng nó sang chuyển động. Ưu điểm lớn nhất chính là tốc độ: các kỹ thuật như mô hình chưng cất và nhất quán nhằm mục đích cắt giảm hàng trăm bước khử nhiễu xuống còn một số ít hoặc thậm chí một bước, cho phép tạo ra theo thời gian thực. Mong đợi sự phổ biến sẽ mở rộng sang nội dung 3D, thiết kế khoa học như phân tử và protein cũng như khả năng chỉnh sửa có thể kiểm soát chặt chẽ, đồng thời trở nên đủ rẻ để chạy trên điện thoại.

Triển khai trong thế giới thực

Tạo tác phẩm nghệ thuật và hình ảnh gốc từ lời nhắc văn bản trong Stable Diffusion, DALL-E và Midjourney

Inpainting và outpainting, điền hoặc mở rộng các phần của bức ảnh một cách liền mạch

Tạo video từ văn bản trong các công cụ như OpenAI của Sora

Thiết kế các phân tử và cấu trúc protein mới cho nghiên cứu khám phá thuốc

Các mẫu triển khai

Mô hình khuếch tán trong thực tế

Tạo tác phẩm nghệ thuật và hình ảnh gốc từ lời nhắc văn bản trong Stable Diffusion, DALL-E và Midjourney.

Tạo tác phẩm nghệ thuật và hình ảnh gốc từ lời nhắc văn bản trong Stable Diffusion, DALL-E và Midjourney Các nhóm thường nhận được kết quả tốt hơn khi họ xác định trước các ngưỡng chất lượng, duy trì lộ trình leo thang của con người đối với các trường hợp khó khăn và theo dõi cả mức tăng năng suất và chi phí lỗi theo thời gian.

Mô hình khuếch tán trong thực tế

Inpainting và outpainting, điền hoặc mở rộng các phần của bức ảnh một cách liền mạch.

In và vẽ ngoài, điền hoặc mở rộng các phần của ảnh một cách liền mạch. Các nhóm thường đạt được kết quả tốt hơn khi họ xác định trước các ngưỡng chất lượng, duy trì lộ trình báo cáo của con người đối với các trường hợp khó khăn và theo dõi cả mức tăng năng suất và chi phí lỗi theo thời gian.

Mô hình khuếch tán trong thực tế

Tạo video từ văn bản trong các công cụ như Sora của OpenAI.

Tạo video từ văn bản trong các công cụ như OpenAI's Sora Các nhóm thường nhận được kết quả tốt hơn khi họ xác định trước ngưỡng chất lượng, duy trì lộ trình leo thang của con người đối với các trường hợp khó khăn và theo dõi cả mức tăng năng suất và chi phí do lỗi theo thời gian.

Mô hình khuếch tán trong thực tế

Thiết kế các phân tử và cấu trúc protein mới cho nghiên cứu khám phá thuốc.

Thiết kế các phân tử và cấu trúc protein mới cho nghiên cứu khám phá thuốc Các nhóm thường đạt được kết quả tốt hơn khi họ xác định ngay từ đầu các ngưỡng chất lượng, theo dõi lộ trình leo thang của con người đối với các trường hợp khó khăn và theo dõi cả mức tăng năng suất và chi phí sai sót theo thời gian.

Rủi ro & lan can

!

Các nhóm khác nhau có thể sử dụng cùng một thuật ngữ một cách khác nhau, vì vậy hãy sớm xác định phạm vi.

!

Điểm chuẩn có thể trông mạnh mẽ trong khi hiệu suất trong thế giới thực không đồng đều.

!

Việc bỏ qua các kế hoạch đánh giá và chất lượng dữ liệu thường tạo ra những kết quả mong manh.

Lộ trình thực hiện

1

Bắt đầu với một định nghĩa đơn giản về kết quả bạn cần.

Bắt đầu với một định nghĩa đơn giản về kết quả bạn cần. Hãy coi mỗi bước như một cổng bằng chứng: nếu không đáp ứng được các tiêu chí, hãy tạm dừng triển khai, thu hẹp khoảng cách và chỉ sau đó mới mở rộng mức sử dụng.

2

Chọn một số liệu thành công và một điều kiện thất bại trước khi thử nghiệm.

Chọn một số liệu thành công và một điều kiện thất bại trước khi thử nghiệm. Hãy coi mỗi bước như một cổng bằng chứng: nếu không đáp ứng được các tiêu chí, hãy tạm dừng triển khai, thu hẹp khoảng cách và chỉ sau đó mới mở rộng mức sử dụng.

3

Chạy một thử nghiệm nhỏ với dữ liệu đại diện chứ không phải một bản demo bóng bẩy.

Chạy một thử nghiệm nhỏ với dữ liệu đại diện chứ không phải một bản demo bóng bẩy. Hãy coi mỗi bước như một cổng bằng chứng: nếu không đáp ứng được các tiêu chí, hãy tạm dừng triển khai, thu hẹp khoảng cách và chỉ sau đó mới mở rộng mức sử dụng.

4

Tài liệu nơi Mô hình khuếch tán hữu ích và nơi các phương pháp đơn giản hơn sẽ tốt hơn.

Tài liệu nơi Mô hình khuếch tán hữu ích và nơi các phương pháp đơn giản hơn sẽ tốt hơn. Hãy coi mỗi bước như một cổng bằng chứng: nếu không đáp ứng được các tiêu chí, hãy tạm dừng triển khai, thu hẹp khoảng cách và chỉ sau đó mới mở rộng mức sử dụng.

Tiếp tục khám phá