คู่มือการสร้างภาพแบบถดถอยอัตโนมัติ

ภาพรวม

การสร้างภาพแบบถดถอยอัตโนมัติจะสร้างภาพทีละภาพ โดยคาดการณ์แต่ละโทเค็นจากทุกสิ่งที่สร้างขึ้นก่อนหน้านั้น สิ่งสำคัญคือเนื่องจากเครื่องจักรโทเค็นถัดไปที่ขับเคลื่อนโมเดลภาษาสามารถสร้างภาพที่สอดคล้องและควบคุมได้

การสร้างภาพแบบถดถอยอัตโนมัติเป็นของเวิร์กโฟลว์คอมพิวเตอร์วิทัศน์ที่ตีความหรือสร้างสื่อภาพเพื่อการวิเคราะห์ การดำเนินงาน และความคิดสร้างสรรค์

เจาะลึก

การสร้างภาพแบบถดถอยอัตโนมัติจะถือว่าภาพเป็นลำดับและคาดการณ์องค์ประกอบนั้นตามองค์ประกอบ โดยที่องค์ประกอบใหม่แต่ละองค์ประกอบจะถูกกำหนดเงื่อนไขจากองค์ประกอบก่อนหน้าทั้งหมด งานในช่วงแรกๆ เช่น PixelRNN และ PixelCNN คาดการณ์รูปภาพดิบทีละพิกเซล โดยสแกนทีละแถว ซึ่งช้าแต่สะอาดตามหลักทฤษฎี ระบบสมัยใหม่แทนที่จะบีบอัดรูปภาพลงในตารางของโทเค็นแยกกันโดยใช้ตัวเข้ารหัสสไตล์ VQ-VAE จากนั้น Transformer จะทำนายโทเค็นเหล่านั้นจากซ้ายไปขวา DALL-E 1 ของ OpenAI และ Parti ของ Google ทำตามสูตรนี้ โดยสร้างโทเค็นรูปภาพที่กำหนดเงื่อนไขตามข้อความแจ้งก่อนที่จะถอดรหัสกลับเป็นพิกเซล ข้อได้เปรียบที่สำคัญคือการสร้างแบบจำลองความน่าจะเป็นที่แน่นอนและสถาปัตยกรรมแบบรวมที่แชร์กับภาษา ต้นทุนเป็นไปตามลำดับและการสุ่มตัวอย่างช้า

ข้อมูลเชิงลึกทางเทคนิค

แบบจำลองจะแยกตัวประกอบความน่าจะเป็นร่วมของโทเค็นทั้งหมดเป็นผลคูณของเงื่อนไข: p(x) = ผลคูณของ p(x_i ให้ x_1...x_{i-1}) Transformer ที่มีความสนใจเชิงสาเหตุ (ปกปิด) บังคับให้แต่ละตำแหน่งเห็นเฉพาะโทเค็นก่อนหน้าเท่านั้น ในระหว่างการฝึกอบรม ระบบจะคาดการณ์โทเค็นทุกรายการพร้อมกันโดยใช้การบังคับของครู แต่ในการอนุมาน จะต้องสุ่มตัวอย่างโทเค็นทีละรายการ โดยป้อนกลับเข้าไปอีกครั้ง หนังสือโค้ดที่เรียนรู้จะแมปโทเค็นกลับไปที่แพตช์รูปภาพ ซึ่งตัวถอดรหัสจะอัปตัวอย่างเป็นพิกเซลสุดท้าย

การเรียนรู้การสร้างภาพแบบถดถอยอัตโนมัติ

เพื่อสร้างความเข้าใจอย่างลึกซึ้ง ให้ถือว่าการสร้างภาพอัตโนมัติแบบถดถอยเป็นเพียงแบบจำลองการทำงาน ไม่ใช่คุณลักษณะเดียว กำหนดผลลัพธ์ที่ต้องการ ชี้แจงสมมติฐาน และแยกสิ่งที่ระบบสามารถทำได้อย่างน่าเชื่อถือจากสิ่งที่ยังต้องใช้วิจารณญาณจากผู้เชี่ยวชาญ

ในทางปฏิบัติ ทีมที่แข็งแกร่งที่ใช้การสร้างภาพอัตโนมัติจะรักษาสมดุลระหว่างความแม่นยำกับความเป็นจริงในการปฏิบัติงาน เช่น คุณภาพของข้อมูล ความแปรปรวนของแสง และความสม่ำเสมอของการติดฉลาก โดยจะบันทึกเกณฑ์ความสำเร็จที่ชัดเจน ทดสอบกับข้อมูลและขั้นตอนการทำงานที่สมจริง และทำซ้ำตามรูปแบบความล้มเหลวที่สังเกตได้ แทนที่จะชนะการวัดประสิทธิภาพเพียงครั้งเดียว นี่คือจุดที่ความเข้าใจทางทฤษฎีกลายเป็นความสามารถที่คงทนของผลิตภัณฑ์ นโยบาย และการดำเนินงาน

Visual AI สามารถทำให้การตรวจสอบ การตรวจจับ และการแท็กเป็นอัตโนมัติในขนาดต่างๆ ในขณะเดียวกัน สิทธิ์และความยินยอมในรูปภาพอาจกลายเป็นความเสี่ยงทางกฎหมายได้หากแหล่งที่มาไม่ชัดเจน แนวทางที่ยืดหยุ่นที่สุดคือการรวมความเร็วของการทดลองเข้ากับวินัยในการกำกับดูแล: ดำเนินการนำร่อง จับหลักฐาน เผยแพร่บันทึกการตัดสินใจ และอัปเดตการป้องกันอย่างต่อเนื่องเมื่อพฤติกรรมของโมเดล ความคาดหวังของผู้ใช้ และข้อกำหนดด้านกฎระเบียบมีการเปลี่ยนแปลง

ผลกระทบเชิงกลยุทธ์

Visual AI สามารถทำให้การตรวจสอบ การตรวจจับ และการแท็กเป็นอัตโนมัติในขนาดต่างๆ

Visual AI สามารถทำให้การตรวจสอบ การตรวจจับ และการแท็กเป็นอัตโนมัติในขนาดต่างๆ ในการปรับใช้คุณภาพสูง สิ่งนี้จะถูกแปลเป็นกฎการปฏิบัติงานที่วัดผลได้ ขอบเขตความเป็นเจ้าของ และขั้นตอนการตรวจสอบที่เกิดซ้ำ เพื่อให้ทีมสามารถปรับขนาดความมั่นใจแทนที่จะปรับขนาดความคลุมเครือ

ทีมสร้างสรรค์สามารถสร้างต้นแบบแนวคิดได้รวดเร็วขึ้นโดยต้องมีการแก้ไขด้วยตนเองน้อยลง

ทีมสร้างสรรค์สามารถสร้างต้นแบบแนวคิดได้รวดเร็วขึ้นโดยต้องมีการแก้ไขด้วยตนเองน้อยลง ในการปรับใช้คุณภาพสูง สิ่งนี้จะถูกแปลเป็นกฎการปฏิบัติงานที่วัดผลได้ ขอบเขตความเป็นเจ้าของ และขั้นตอนการตรวจสอบที่เกิดซ้ำ เพื่อให้ทีมสามารถปรับขนาดความมั่นใจแทนที่จะปรับขนาดความคลุมเครือ

การดำเนินการสามารถใช้สัญญาณภาพและวิดีโอที่ก่อนหน้านี้ประมวลผลได้ยาก

การดำเนินการสามารถใช้สัญญาณภาพและวิดีโอที่ก่อนหน้านี้ประมวลผลได้ยาก ในการปรับใช้คุณภาพสูง สิ่งนี้จะถูกแปลเป็นกฎการปฏิบัติงานที่วัดผลได้ ขอบเขตความเป็นเจ้าของ และขั้นตอนการตรวจสอบที่เกิดซ้ำ เพื่อให้ทีมสามารถปรับขนาดความมั่นใจแทนที่จะปรับขนาดความคลุมเครือ

อนาคตของการสร้างภาพแบบถดถอยอัตโนมัติ

ความเร็วคือสมรภูมิกลาง เทคนิคต่างๆ เช่น การถอดรหัสโทเค็นแบบขนานและแบบสวมหน้ากาก (MaskGIT, Muse) จะสร้างโทเค็นจำนวนมากในคราวเดียว และการถอดรหัสแบบเก็งกำไรที่ยืมมาจากแบบจำลองภาษากำลังถูกปรับให้เข้ากับรูปภาพ นักวิจัยยังรวมโทเค็นข้อความและรูปภาพไว้ในแบ็คโบนแบบ autoregressive เพียงตัวเดียว เพื่อให้โมเดลหนึ่งตัวสามารถอ่านและวาดได้ ดังที่เห็นในระบบหลายรูปแบบ คาดว่าแนวคิดการถดถอยอัตโนมัติและการแพร่กระจายจะผสมผสานกันอย่างต่อเนื่อง ด้วยโมเดลไฮบริดที่จับความสามารถในการควบคุมของโทเค็นและคุณภาพของการแพร่กระจาย

การใช้งานจริงในโลกแห่งความเป็นจริง

DALL-E 1 สร้างภาพโดยการทำนายตารางของโทเค็นภาพที่แยกจากคำบรรยายแบบข้อความโดยอัตโนมัติ

Parti ของ Google ปรับขนาดตัวแปลงข้อความเป็นรูปภาพแบบถดถอยอัตโนมัติเป็นพารามิเตอร์ 2 หมื่นล้านพารามิเตอร์สำหรับฉากที่มีรายละเอียดและสมจริงในทันที

PixelCNN และ PixelRNN สาธิตการสร้างแบบพิกเซลต่อพิกเซลแบบ Raw และยังคงใช้เป็นพื้นฐานในการสอนสำหรับโมเดลที่อิงตามความน่าจะเป็น

MaskGIT และ Muse ใช้การถอดรหัสโทเค็นแบบสวมหน้ากากแบบขนานเพื่อเร่งการสังเคราะห์ภาพโดยใช้โทเค็น ขณะเดียวกันก็รักษาการฝึกแบบการถดถอยอัตโนมัติ

รูปแบบการดำเนินงาน

การสร้างภาพอัตโนมัติในทางปฏิบัติ

DALL-E 1 สร้างภาพโดยการทำนายตารางของโทเค็นภาพที่แยกจากคำบรรยายแบบข้อความโดยอัตโนมัติ

โดยปกติทีมจะได้รับผลลัพธ์ที่ดีกว่าเมื่อพวกเขากำหนดเกณฑ์คุณภาพไว้ล่วงหน้า รักษาเส้นทางการยกระดับโดยมนุษย์สำหรับกรณี Edge และติดตามทั้งการเพิ่มผลผลิตและต้นทุนข้อผิดพลาดเมื่อเวลาผ่านไป

การสร้างภาพอัตโนมัติในทางปฏิบัติ

Parti ของ Google ปรับขนาดตัวแปลงข้อความเป็นรูปภาพแบบถดถอยอัตโนมัติเป็นพารามิเตอร์ 2 หมื่นล้านพารามิเตอร์สำหรับฉากที่มีรายละเอียดและสมจริงในทันที

โดยปกติทีมจะได้รับผลลัพธ์ที่ดีกว่าเมื่อพวกเขากำหนดเกณฑ์คุณภาพไว้ล่วงหน้า รักษาเส้นทางการยกระดับโดยมนุษย์สำหรับกรณี Edge และติดตามทั้งการเพิ่มผลผลิตและต้นทุนข้อผิดพลาดเมื่อเวลาผ่านไป

การสร้างภาพอัตโนมัติในทางปฏิบัติ

PixelCNN และ PixelRNN สาธิตการสร้างแบบพิกเซลต่อพิกเซลแบบ Raw และยังคงใช้เป็นพื้นฐานในการสอนสำหรับโมเดลที่อิงตามความน่าจะเป็น

โดยปกติทีมจะได้รับผลลัพธ์ที่ดีกว่าเมื่อพวกเขากำหนดเกณฑ์คุณภาพไว้ล่วงหน้า รักษาเส้นทางการยกระดับโดยมนุษย์สำหรับกรณี Edge และติดตามทั้งการเพิ่มผลผลิตและต้นทุนข้อผิดพลาดเมื่อเวลาผ่านไป

การสร้างภาพอัตโนมัติในทางปฏิบัติ

MaskGIT และ Muse ใช้การถอดรหัสโทเค็นแบบสวมหน้ากากแบบขนานเพื่อเร่งการสังเคราะห์ภาพโดยใช้โทเค็น ขณะเดียวกันก็รักษาการฝึกแบบการถดถอยอัตโนมัติ

โดยปกติทีมจะได้รับผลลัพธ์ที่ดีกว่าเมื่อพวกเขากำหนดเกณฑ์คุณภาพไว้ล่วงหน้า รักษาเส้นทางการยกระดับโดยมนุษย์สำหรับกรณี Edge และติดตามทั้งการเพิ่มผลผลิตและต้นทุนข้อผิดพลาดเมื่อเวลาผ่านไป

ความเสี่ยงและรั้ว

!

สิทธิ์และความยินยอมในรูปภาพอาจกลายเป็นความเสี่ยงทางกฎหมายได้หากแหล่งที่มาไม่ชัดเจน

!

ประสิทธิภาพของโมเดลอาจแตกต่างกันไปตามสภาพแสง ข้อมูลประชากร และสภาพแวดล้อม

!

ผลบวกลวงอาจไม่สังเกตเห็นเว้นแต่จะมีการตรวจสอบเกณฑ์ความเชื่อมั่น

แผนงานการดำเนินงาน

1

กำหนดเกณฑ์การยอมรับสำหรับความแม่นยำ การเรียกคืน และต้นทุนข้อผิดพลาด

ถือว่านี่เป็นประตูหลักฐาน: หากไม่ตรงตามเกณฑ์ ให้หยุดการเปิดตัวชั่วคราว ปิดช่องว่าง จากนั้นจึงขยายการใช้งานเท่านั้น

2

ทดสอบด้วยข้อมูลที่ตรงกับเงื่อนไขการผลิตจริง

ถือว่านี่เป็นประตูหลักฐาน: หากไม่ตรงตามเกณฑ์ ให้หยุดการเปิดตัวชั่วคราว ปิดช่องว่าง จากนั้นจึงขยายการใช้งานเท่านั้น

3

เพิ่มการตรวจสอบโดยเจ้าหน้าที่สำหรับการคาดการณ์ที่มีความมั่นใจต่ำหรือมีผลกระทบสูง

ถือว่านี่เป็นประตูหลักฐาน: หากไม่ตรงตามเกณฑ์ ให้หยุดการเปิดตัวชั่วคราว ปิดช่องว่าง จากนั้นจึงขยายการใช้งานเท่านั้น

4

ติดตามการเคลื่อนตัวของโมเดลและตรวจสอบความถูกต้องอีกครั้งหลังจากการเปลี่ยนแปลงกล้องหรือชุดข้อมูล

ถือว่านี่เป็นประตูหลักฐาน: หากไม่ตรงตามเกณฑ์ ให้หยุดการเปิดตัวชั่วคราว ปิดช่องว่าง จากนั้นจึงขยายการใช้งานเท่านั้น

สำรวจต่อไป

คอมพิวเตอร์วิทัศน์

ทำความเข้าใจระบบพื้นฐานที่ขับเคลื่อน Visual AI

อ่านคู่มือ

การสร้างภาพ AI

สำรวจเวิร์กโฟลว์การสร้างและการแลกเปลี่ยนแบบจำลอง

อ่านคู่มือ

การสร้างภาพอัตโนมัติแบบถดถอย

ภาพรวม

เจาะลึก

ข้อมูลเชิงลึกทางเทคนิค

การเรียนรู้การสร้างภาพแบบถดถอยอัตโนมัติ

ผลกระทบเชิงกลยุทธ์

อนาคตของการสร้างภาพแบบถดถอยอัตโนมัติ

การใช้งานจริงในโลกแห่งความเป็นจริง

รูปแบบการดำเนินงาน

การสร้างภาพอัตโนมัติในทางปฏิบัติ

การสร้างภาพอัตโนมัติในทางปฏิบัติ

การสร้างภาพอัตโนมัติในทางปฏิบัติ

การสร้างภาพอัตโนมัติในทางปฏิบัติ

ความเสี่ยงและรั้ว

แผนงานการดำเนินงาน

สำรวจต่อไป

คอมพิวเตอร์วิทัศน์

การสร้างภาพ AI

Related guides