คู่มือ AI แบบเห็นภาพ

การแก้ไขแบบเน้นความสนใจแบบทันทีทันใด

พร้อมท์ถึงพร้อมท์แก้ไขรูปภาพที่สร้างขึ้นโดยปรับแต่งข้อความพร้อมท์ในขณะที่นำแผนผังความสนใจภายในของโมเดลกลับมาใช้ใหม่ ดังนั้นการเปลี่ยนคำเดียวจะสลับองค์ประกอบนั้นในขณะที่ยังคงรักษาส่วนที่เหลือของฉากไว้เหมือนเดิม

ภาพรวม

พร้อมท์ถึงพร้อมท์แก้ไขรูปภาพที่สร้างขึ้นโดยปรับแต่งข้อความพร้อมท์ในขณะที่นำแผนผังความสนใจภายในของโมเดลกลับมาใช้ใหม่ ดังนั้นการเปลี่ยนคำเดียวจะสลับองค์ประกอบนั้นในขณะที่ยังคงรักษาส่วนที่เหลือของฉากไว้เหมือนเดิม เป็นการแก้ไขด้วยคำพูด ไม่ใช่พิกเซล

การแก้ไขแบบเน้นความสนใจแบบทันทีทันใดเป็นของเวิร์กโฟลว์คอมพิวเตอร์วิทัศน์ที่ตีความหรือสร้างสื่อภาพเพื่อการวิเคราะห์ การดำเนินงาน และความคิดสร้างสรรค์

เจาะลึก

Prompt-to-Prompt (Hertz et al., 2022) เป็นเทคนิคที่ไม่ต้องใช้การฝึกอบรมสำหรับการแก้ไขโดยใช้ข้อความในโมเดลการแพร่กระจาย ข้อมูลเชิงลึกที่สำคัญคือแผนที่การสนใจข้ามซึ่งบอกแบบจำลองว่าแต่ละคำควรมีอิทธิพลต่อขอบเขตของภาพอย่างไร เข้ารหัสเค้าโครงเชิงพื้นที่ของฉาก เมื่อคุณสร้างภาพใหม่ด้วยพรอมต์ที่ปรับเปลี่ยนเล็กน้อย วิธีการนี้จะแทรกแผนที่ความสนใจของพรอมต์ดั้งเดิมลงในการเรียกใช้ใหม่ การแทนที่คำ เช่น 'จักรยาน' ด้วย 'รถจักรยานยนต์' จะสลับวัตถุนั้นโดยยังคงรักษาองค์ประกอบและพื้นหลังไว้ การเพิ่มคำจะดึงความสนใจเฉพาะโทเค็นที่ไม่เปลี่ยนแปลง ดังนั้นแอตทริบิวต์ใหม่จะปรากฏขึ้นโดยไม่ต้องสับเปลี่ยนทุกอย่าง คุณยังสามารถปรับความสนใจของโทเค็นเพื่อเพิ่มหรือลดผลกระทบของโทเค็นได้ เนื่องจากไม่จำเป็นต้องปรับแต่งหรือมาสก์ จึงกลายเป็นองค์ประกอบพื้นฐานสำหรับวิธีการแก้ไขในภายหลัง รวมถึงการสร้างข้อมูลของ InstructPix2Pix

ข้อมูลเชิงลึกทางเทคนิค

ในระหว่างการลดสัญญาณรบกวน การคำนวณแบบข้ามความสนใจสำหรับแต่ละโทเค็น แผนที่เชิงพื้นที่ของตำแหน่งที่โทเค็นอยู่ในรูปภาพ Prompt-to-Prompt คัดลอกแผนที่เหล่านี้จากรุ่นดั้งเดิมไปยังแผนที่ที่แก้ไขแล้วสำหรับโทเค็นที่แชร์ สำหรับการสลับคำจะจับคู่ความสนใจระหว่างโทเค็นที่เกี่ยวข้อง สำหรับคำเพิ่มเติม มันจะรักษาแผนที่เก่าและปล่อยให้โทเค็นใหม่สร้างความสนใจใหม่เท่านั้น การถ่วงน้ำหนักใหม่เพียงแค่ปรับขนาดความสนใจของโทเค็น ทำให้อิทธิพลทางการมองเห็นรุนแรงขึ้นหรือปิดเสียงลง

เชี่ยวชาญการแก้ไขแบบเน้นความสนใจแบบทันทีทันใด

พร้อมท์ถึงพร้อมท์แก้ไขรูปภาพที่สร้างขึ้นโดยปรับแต่งข้อความพร้อมท์ในขณะที่นำแผนผังความสนใจภายในของโมเดลกลับมาใช้ใหม่ ดังนั้นการเปลี่ยนคำเดียวจะสลับองค์ประกอบนั้นในขณะที่ยังคงรักษาส่วนที่เหลือของฉากไว้เหมือนเดิม เป็นการแก้ไขด้วยคำพูด ไม่ใช่พิกเซล การแก้ไขแบบเน้นความสนใจแบบทันทีทันใดเป็นของเวิร์กโฟลว์คอมพิวเตอร์วิทัศน์ที่ตีความหรือสร้างสื่อภาพเพื่อการวิเคราะห์ การดำเนินงาน และความคิดสร้างสรรค์ เพื่อสร้างความเข้าใจอย่างลึกซึ้ง ให้ถือว่าการแก้ไขแบบเน้นความสนใจแบบพร้อมท์ทันทีเป็นรูปแบบการดำเนินงาน ไม่ใช่คุณลักษณะเดียว: กำหนดผลลัพธ์ที่ต้องการ ชี้แจงสมมติฐาน และแยกสิ่งที่ระบบสามารถทำได้อย่างน่าเชื่อถือจากสิ่งที่ยังต้องใช้วิจารณญาณจากผู้เชี่ยวชาญ

ในทางปฏิบัติ ทีมที่แข็งแกร่งที่ใช้การแก้ไขการสนใจข้ามทันทีทันทีเพื่อความสมดุลระหว่างความแม่นยำกับความเป็นจริงในการปฏิบัติงาน เช่น คุณภาพของข้อมูล ความแปรปรวนของแสง และความสม่ำเสมอของการติดฉลาก โดยจะบันทึกเกณฑ์ความสำเร็จที่ชัดเจน ทดสอบกับข้อมูลและขั้นตอนการทำงานที่สมจริง และทำซ้ำตามรูปแบบความล้มเหลวที่สังเกตได้ แทนที่จะชนะการวัดประสิทธิภาพเพียงครั้งเดียว นี่คือจุดที่ความเข้าใจทางทฤษฎีกลายเป็นความสามารถที่คงทนของผลิตภัณฑ์ นโยบาย และการดำเนินงาน

Visual AI สามารถทำให้การตรวจสอบ การตรวจจับ และการแท็กเป็นอัตโนมัติในขนาดต่างๆ ในขณะเดียวกัน สิทธิ์และความยินยอมในรูปภาพอาจกลายเป็นความเสี่ยงทางกฎหมายได้หากแหล่งที่มาไม่ชัดเจน แนวทางที่ยืดหยุ่นที่สุดคือการรวมความเร็วของการทดลองเข้ากับวินัยในการกำกับดูแล: ดำเนินการนำร่อง จับหลักฐาน เผยแพร่บันทึกการตัดสินใจ และอัปเดตการป้องกันอย่างต่อเนื่องเมื่อพฤติกรรมของโมเดล ความคาดหวังของผู้ใช้ และข้อกำหนดด้านกฎระเบียบมีการเปลี่ยนแปลง

ผลกระทบเชิงกลยุทธ์

Visual AI สามารถทำให้การตรวจสอบ การตรวจจับ และการแท็กเป็นอัตโนมัติในขนาดต่างๆ

Visual AI สามารถทำให้การตรวจสอบ การตรวจจับ และการแท็กเป็นอัตโนมัติในขนาดต่างๆ ในการปรับใช้คุณภาพสูง สิ่งนี้จะถูกแปลเป็นกฎการปฏิบัติงานที่วัดผลได้ ขอบเขตความเป็นเจ้าของ และขั้นตอนการตรวจสอบที่เกิดซ้ำ เพื่อให้ทีมสามารถปรับขนาดความมั่นใจแทนที่จะปรับขนาดความคลุมเครือ

ทีมสร้างสรรค์สามารถสร้างต้นแบบแนวคิดได้รวดเร็วขึ้นโดยต้องมีการแก้ไขด้วยตนเองน้อยลง

ทีมสร้างสรรค์สามารถสร้างต้นแบบแนวคิดได้รวดเร็วขึ้นโดยต้องมีการแก้ไขด้วยตนเองน้อยลง ในการปรับใช้คุณภาพสูง สิ่งนี้จะถูกแปลเป็นกฎการปฏิบัติงานที่วัดผลได้ ขอบเขตความเป็นเจ้าของ และขั้นตอนการตรวจสอบที่เกิดซ้ำ เพื่อให้ทีมสามารถปรับขนาดความมั่นใจแทนที่จะปรับขนาดความคลุมเครือ

การดำเนินการสามารถใช้สัญญาณภาพและวิดีโอที่ก่อนหน้านี้ประมวลผลได้ยาก

การดำเนินการสามารถใช้สัญญาณภาพและวิดีโอที่ก่อนหน้านี้ประมวลผลได้ยาก ในการปรับใช้คุณภาพสูง สิ่งนี้จะถูกแปลเป็นกฎการปฏิบัติงานที่วัดผลได้ ขอบเขตความเป็นเจ้าของ และขั้นตอนการตรวจสอบที่เกิดซ้ำ เพื่อให้ทีมสามารถปรับขนาดความมั่นใจแทนที่จะปรับขนาดความคลุมเครือ

อนาคตของการแก้ไขแบบเน้นความสนใจแบบทันทีทันใด

การจัดการความสนใจแบบข้ามความสนใจในขณะนี้เป็นรากฐานของเครื่องมือสร้างรุ่นที่ควบคุมได้ทั้งหมด และแนวคิดดังกล่าวขยายไปสู่การควบคุมความสนใจในสถาปัตยกรรมรุ่นใหม่และการแพร่กระจายวิดีโอเพื่อการแก้ไขที่สอดคล้องกันชั่วคราว คาดหวังการผสานรวมที่เข้มงวดยิ่งขึ้นกับการแก้ไขภาพจริงผ่านการกลับด้าน การจัดการการเปลี่ยนแปลงโครงสร้างขนาดใหญ่ที่มีประสิทธิภาพมากขึ้น และการใช้งานร่วมกับโมเดลคำสั่ง เพื่อให้เทคนิคการดึงดูดความสนใจทำงานอย่างมองไม่เห็นภายใต้อินเทอร์เฟซภาษาธรรมชาติที่เรียบง่าย

การใช้งานจริงในโลกแห่งความเป็นจริง

นักออกแบบเปลี่ยน 'รถสีแดงบนถนน' เป็น 'รถสีน้ำเงินบนถนน' และคงเค้าโครงฉากเดิมไว้

นักวาดภาพประกอบปรับน้ำหนักของคำว่า 'เต็มไปด้วยหิมะ' เพื่อทำให้ภูมิทัศน์ดูหนาวเย็นมากขึ้นเรื่อยๆ ในรูปแบบต่างๆ

นักเล่าเรื่องเปลี่ยน 'สิงโต' เป็น 'เสือ' เพื่อรักษาท่าทางและพื้นหลังที่เหมือนกันสำหรับเอกสารตัวละคร

นักวิจัยใช้มันเพื่อสร้างภาพก่อน/หลังที่จับคู่กันเป็นข้อมูลการฝึกอบรมสำหรับโปรแกรมแก้ไขที่ปฏิบัติตามคำสั่ง

รูปแบบการดำเนินงาน

การแก้ไขแบบเน้นความสนใจแบบทันทีทันใดในทางปฏิบัติ

นักออกแบบเปลี่ยน 'รถสีแดงบนถนน' เป็น 'รถสีน้ำเงินบนถนน' และคงเค้าโครงฉากเดิมไว้

นักออกแบบเปลี่ยน 'รถสีแดงบนท้องถนน' เป็น 'รถสีฟ้าบนท้องถนน' และคงเค้าโครงฉากเดิมไว้ ทีมมักจะได้รับผลลัพธ์ที่ดีกว่าเมื่อพวกเขากำหนดเกณฑ์คุณภาพล่วงหน้า รักษาเส้นทางการยกระดับโดยมนุษย์สำหรับกรณี Edge และติดตามทั้งประสิทธิภาพการทำงานที่เพิ่มขึ้นและต้นทุนข้อผิดพลาดเมื่อเวลาผ่านไป

การแก้ไขแบบเน้นความสนใจแบบทันทีทันใดในทางปฏิบัติ

นักวาดภาพประกอบปรับน้ำหนักของคำว่า 'เต็มไปด้วยหิมะ' เพื่อทำให้ภูมิทัศน์ดูหนาวเย็นมากขึ้นเรื่อยๆ ในรูปแบบต่างๆ

นักวาดภาพประกอบปรับน้ำหนักคำว่า 'เต็มไปด้วยหิมะ' เพื่อทำให้ภูมิทัศน์มีฤดูหนาวมากขึ้นเรื่อยๆ ในรูปแบบต่างๆ ทีมมักจะได้รับผลลัพธ์ที่ดีขึ้นเมื่อพวกเขากำหนดเกณฑ์คุณภาพล่วงหน้า รักษาเส้นทางการยกระดับโดยมนุษย์สำหรับกรณี Edge และติดตามทั้งประสิทธิภาพการทำงานที่เพิ่มขึ้นและต้นทุนข้อผิดพลาดเมื่อเวลาผ่านไป

การแก้ไขแบบเน้นความสนใจแบบทันทีทันใดในทางปฏิบัติ

นักเล่าเรื่องเปลี่ยน 'สิงโต' เป็น 'เสือ' เพื่อรักษาท่าทางและพื้นหลังที่เหมือนกันสำหรับเอกสารตัวละคร

นักเล่าเรื่องเปลี่ยน 'สิงโต' เป็น 'เสือ' เพื่อรักษาท่าทางและพื้นหลังที่เหมือนกันสำหรับเอกสารตัวละคร ทีมมักจะได้รับผลลัพธ์ที่ดีกว่าเมื่อพวกเขากำหนดเกณฑ์คุณภาพล่วงหน้า รักษาเส้นทางการยกระดับของมนุษย์สำหรับกรณี Edge และติดตามทั้งประสิทธิภาพการทำงานที่เพิ่มขึ้นและต้นทุนข้อผิดพลาดเมื่อเวลาผ่านไป

การแก้ไขแบบเน้นความสนใจแบบทันทีทันใดในทางปฏิบัติ

นักวิจัยใช้มันเพื่อสร้างภาพก่อน/หลังที่จับคู่กันเป็นข้อมูลการฝึกอบรมสำหรับโปรแกรมแก้ไขที่ปฏิบัติตามคำสั่ง

นักวิจัยใช้มันเพื่อสร้างภาพก่อน/หลังที่จับคู่กันเป็นข้อมูลการฝึกอบรมสำหรับโปรแกรมแก้ไขที่ปฏิบัติตามคำสั่ง ทีมมักจะได้รับผลลัพธ์ที่ดีกว่าเมื่อพวกเขากำหนดเกณฑ์คุณภาพล่วงหน้า รักษาเส้นทางการยกระดับโดยมนุษย์สำหรับกรณี Edge และติดตามทั้งประสิทธิภาพการทำงานที่เพิ่มขึ้นและต้นทุนข้อผิดพลาดเมื่อเวลาผ่านไป

ความเสี่ยงและรั้ว

!

สิทธิ์และความยินยอมในรูปภาพอาจกลายเป็นความเสี่ยงทางกฎหมายได้หากแหล่งที่มาไม่ชัดเจน

!

ประสิทธิภาพของโมเดลอาจแตกต่างกันไปตามสภาพแสง ข้อมูลประชากร และสภาพแวดล้อม

!

ผลบวกลวงอาจไม่สังเกตเห็นเว้นแต่จะมีการตรวจสอบเกณฑ์ความเชื่อมั่น

แผนงานการดำเนินงาน

1

กำหนดเกณฑ์การยอมรับสำหรับความแม่นยำ การเรียกคืน และต้นทุนข้อผิดพลาด

กำหนดเกณฑ์การยอมรับสำหรับความแม่นยำ การเรียกคืน และต้นทุนข้อผิดพลาด ถือว่าแต่ละขั้นตอนเป็นเหมือนประตูหลักฐาน: หากไม่ตรงตามเกณฑ์ ให้หยุดการเปิดตัวชั่วคราว ปิดช่องว่าง จากนั้นจึงขยายการใช้งานเท่านั้น

2

ทดสอบด้วยข้อมูลที่ตรงกับเงื่อนไขการผลิตจริง

ทดสอบด้วยข้อมูลที่ตรงกับเงื่อนไขการผลิตจริง ถือว่าแต่ละขั้นตอนเป็นเหมือนประตูหลักฐาน: หากไม่ตรงตามเกณฑ์ ให้หยุดการเปิดตัวชั่วคราว ปิดช่องว่าง จากนั้นจึงขยายการใช้งานเท่านั้น

3

เพิ่มการตรวจสอบโดยเจ้าหน้าที่สำหรับการคาดการณ์ที่มีความมั่นใจต่ำหรือมีผลกระทบสูง

เพิ่มการตรวจสอบโดยเจ้าหน้าที่สำหรับการคาดการณ์ที่มีความมั่นใจต่ำหรือมีผลกระทบสูง ถือว่าแต่ละขั้นตอนเป็นเหมือนประตูหลักฐาน: หากไม่ตรงตามเกณฑ์ ให้หยุดการเปิดตัวชั่วคราว ปิดช่องว่าง จากนั้นจึงขยายการใช้งานเท่านั้น

4

ติดตามการเคลื่อนตัวของโมเดลและตรวจสอบความถูกต้องอีกครั้งหลังจากการเปลี่ยนแปลงกล้องหรือชุดข้อมูล

ติดตามการเคลื่อนตัวของโมเดลและตรวจสอบความถูกต้องอีกครั้งหลังจากการเปลี่ยนแปลงกล้องหรือชุดข้อมูล ถือว่าแต่ละขั้นตอนเป็นเหมือนประตูหลักฐาน: หากไม่ตรงตามเกณฑ์ ให้หยุดการเปิดตัวชั่วคราว ปิดช่องว่าง จากนั้นจึงขยายการใช้งานเท่านั้น

สำรวจต่อไป