ภาพรวม
พร้อมท์ถึงพร้อมท์แก้ไขรูปภาพที่สร้างขึ้นโดยปรับแต่งข้อความพร้อมท์ในขณะที่นำแผนผังความสนใจภายในของโมเดลกลับมาใช้ใหม่ ดังนั้นการเปลี่ยนคำเดียวจะสลับองค์ประกอบนั้นในขณะที่ยังคงรักษาส่วนที่เหลือของฉากไว้เหมือนเดิม เป็นการแก้ไขด้วยคำพูด ไม่ใช่พิกเซล
การแก้ไขแบบเน้นความสนใจแบบทันทีทันใดเป็นของเวิร์กโฟลว์คอมพิวเตอร์วิทัศน์ที่ตีความหรือสร้างสื่อภาพเพื่อการวิเคราะห์ การดำเนินงาน และความคิดสร้างสรรค์
เจาะลึก
Prompt-to-Prompt (Hertz et al., 2022) เป็นเทคนิคที่ไม่ต้องใช้การฝึกอบรมสำหรับการแก้ไขโดยใช้ข้อความในโมเดลการแพร่กระจาย ข้อมูลเชิงลึกที่สำคัญคือแผนที่การสนใจข้ามซึ่งบอกแบบจำลองว่าแต่ละคำควรมีอิทธิพลต่อขอบเขตของภาพอย่างไร เข้ารหัสเค้าโครงเชิงพื้นที่ของฉาก เมื่อคุณสร้างภาพใหม่ด้วยพรอมต์ที่ปรับเปลี่ยนเล็กน้อย วิธีการนี้จะแทรกแผนที่ความสนใจของพรอมต์ดั้งเดิมลงในการเรียกใช้ใหม่ การแทนที่คำ เช่น 'จักรยาน' ด้วย 'รถจักรยานยนต์' จะสลับวัตถุนั้นโดยยังคงรักษาองค์ประกอบและพื้นหลังไว้ การเพิ่มคำจะดึงความสนใจเฉพาะโทเค็นที่ไม่เปลี่ยนแปลง ดังนั้นแอตทริบิวต์ใหม่จะปรากฏขึ้นโดยไม่ต้องสับเปลี่ยนทุกอย่าง คุณยังสามารถปรับความสนใจของโทเค็นเพื่อเพิ่มหรือลดผลกระทบของโทเค็นได้ เนื่องจากไม่จำเป็นต้องปรับแต่งหรือมาสก์ จึงกลายเป็นองค์ประกอบพื้นฐานสำหรับวิธีการแก้ไขในภายหลัง รวมถึงการสร้างข้อมูลของ InstructPix2Pix
ข้อมูลเชิงลึกทางเทคนิค
ในระหว่างการลดสัญญาณรบกวน การคำนวณแบบข้ามความสนใจสำหรับแต่ละโทเค็น แผนที่เชิงพื้นที่ของตำแหน่งที่โทเค็นอยู่ในรูปภาพ Prompt-to-Prompt คัดลอกแผนที่เหล่านี้จากรุ่นดั้งเดิมไปยังแผนที่ที่แก้ไขแล้วสำหรับโทเค็นที่แชร์ สำหรับการสลับคำจะจับคู่ความสนใจระหว่างโทเค็นที่เกี่ยวข้อง สำหรับคำเพิ่มเติม มันจะรักษาแผนที่เก่าและปล่อยให้โทเค็นใหม่สร้างความสนใจใหม่เท่านั้น การถ่วงน้ำหนักใหม่เพียงแค่ปรับขนาดความสนใจของโทเค็น ทำให้อิทธิพลทางการมองเห็นรุนแรงขึ้นหรือปิดเสียงลง
เชี่ยวชาญการแก้ไขแบบเน้นความสนใจแบบทันทีทันใด
พร้อมท์ถึงพร้อมท์แก้ไขรูปภาพที่สร้างขึ้นโดยปรับแต่งข้อความพร้อมท์ในขณะที่นำแผนผังความสนใจภายในของโมเดลกลับมาใช้ใหม่ ดังนั้นการเปลี่ยนคำเดียวจะสลับองค์ประกอบนั้นในขณะที่ยังคงรักษาส่วนที่เหลือของฉากไว้เหมือนเดิม เป็นการแก้ไขด้วยคำพูด ไม่ใช่พิกเซล การแก้ไขแบบเน้นความสนใจแบบทันทีทันใดเป็นของเวิร์กโฟลว์คอมพิวเตอร์วิทัศน์ที่ตีความหรือสร้างสื่อภาพเพื่อการวิเคราะห์ การดำเนินงาน และความคิดสร้างสรรค์ เพื่อสร้างความเข้าใจอย่างลึกซึ้ง ให้ถือว่าการแก้ไขแบบเน้นความสนใจแบบพร้อมท์ทันทีเป็นรูปแบบการดำเนินงาน ไม่ใช่คุณลักษณะเดียว: กำหนดผลลัพธ์ที่ต้องการ ชี้แจงสมมติฐาน และแยกสิ่งที่ระบบสามารถทำได้อย่างน่าเชื่อถือจากสิ่งที่ยังต้องใช้วิจารณญาณจากผู้เชี่ยวชาญ
ในทางปฏิบัติ ทีมที่แข็งแกร่งที่ใช้การแก้ไขการสนใจข้ามทันทีทันทีเพื่อความสมดุลระหว่างความแม่นยำกับความเป็นจริงในการปฏิบัติงาน เช่น คุณภาพของข้อมูล ความแปรปรวนของแสง และความสม่ำเสมอของการติดฉลาก โดยจะบันทึกเกณฑ์ความสำเร็จที่ชัดเจน ทดสอบกับข้อมูลและขั้นตอนการทำงานที่สมจริง และทำซ้ำตามรูปแบบความล้มเหลวที่สังเกตได้ แทนที่จะชนะการวัดประสิทธิภาพเพียงครั้งเดียว นี่คือจุดที่ความเข้าใจทางทฤษฎีกลายเป็นความสามารถที่คงทนของผลิตภัณฑ์ นโยบาย และการดำเนินงาน
Visual AI สามารถทำให้การตรวจสอบ การตรวจจับ และการแท็กเป็นอัตโนมัติในขนาดต่างๆ ในขณะเดียวกัน สิทธิ์และความยินยอมในรูปภาพอาจกลายเป็นความเสี่ยงทางกฎหมายได้หากแหล่งที่มาไม่ชัดเจน แนวทางที่ยืดหยุ่นที่สุดคือการรวมความเร็วของการทดลองเข้ากับวินัยในการกำกับดูแล: ดำเนินการนำร่อง จับหลักฐาน เผยแพร่บันทึกการตัดสินใจ และอัปเดตการป้องกันอย่างต่อเนื่องเมื่อพฤติกรรมของโมเดล ความคาดหวังของผู้ใช้ และข้อกำหนดด้านกฎระเบียบมีการเปลี่ยนแปลง
ผลกระทบเชิงกลยุทธ์
Visual AI สามารถทำให้การตรวจสอบ การตรวจจับ และการแท็กเป็นอัตโนมัติในขนาดต่างๆ
Visual AI สามารถทำให้การตรวจสอบ การตรวจจับ และการแท็กเป็นอัตโนมัติในขนาดต่างๆ ในการปรับใช้คุณภาพสูง สิ่งนี้จะถูกแปลเป็นกฎการปฏิบัติงานที่วัดผลได้ ขอบเขตความเป็นเจ้าของ และขั้นตอนการตรวจสอบที่เกิดซ้ำ เพื่อให้ทีมสามารถปรับขนาดความมั่นใจแทนที่จะปรับขนาดความคลุมเครือ
ทีมสร้างสรรค์สามารถสร้างต้นแบบแนวคิดได้รวดเร็วขึ้นโดยต้องมีการแก้ไขด้วยตนเองน้อยลง
ทีมสร้างสรรค์สามารถสร้างต้นแบบแนวคิดได้รวดเร็วขึ้นโดยต้องมีการแก้ไขด้วยตนเองน้อยลง ในการปรับใช้คุณภาพสูง สิ่งนี้จะถูกแปลเป็นกฎการปฏิบัติงานที่วัดผลได้ ขอบเขตความเป็นเจ้าของ และขั้นตอนการตรวจสอบที่เกิดซ้ำ เพื่อให้ทีมสามารถปรับขนาดความมั่นใจแทนที่จะปรับขนาดความคลุมเครือ
การดำเนินการสามารถใช้สัญญาณภาพและวิดีโอที่ก่อนหน้านี้ประมวลผลได้ยาก
การดำเนินการสามารถใช้สัญญาณภาพและวิดีโอที่ก่อนหน้านี้ประมวลผลได้ยาก ในการปรับใช้คุณภาพสูง สิ่งนี้จะถูกแปลเป็นกฎการปฏิบัติงานที่วัดผลได้ ขอบเขตความเป็นเจ้าของ และขั้นตอนการตรวจสอบที่เกิดซ้ำ เพื่อให้ทีมสามารถปรับขนาดความมั่นใจแทนที่จะปรับขนาดความคลุมเครือ
การใช้งานจริงในโลกแห่งความเป็นจริง
นักออกแบบเปลี่ยน 'รถสีแดงบนถนน' เป็น 'รถสีน้ำเงินบนถนน' และคงเค้าโครงฉากเดิมไว้
นักวาดภาพประกอบปรับน้ำหนักของคำว่า 'เต็มไปด้วยหิมะ' เพื่อทำให้ภูมิทัศน์ดูหนาวเย็นมากขึ้นเรื่อยๆ ในรูปแบบต่างๆ
นักเล่าเรื่องเปลี่ยน 'สิงโต' เป็น 'เสือ' เพื่อรักษาท่าทางและพื้นหลังที่เหมือนกันสำหรับเอกสารตัวละคร
นักวิจัยใช้มันเพื่อสร้างภาพก่อน/หลังที่จับคู่กันเป็นข้อมูลการฝึกอบรมสำหรับโปรแกรมแก้ไขที่ปฏิบัติตามคำสั่ง
รูปแบบการดำเนินงาน
การแก้ไขแบบเน้นความสนใจแบบทันทีทันใดในทางปฏิบัติ
นักออกแบบเปลี่ยน 'รถสีแดงบนถนน' เป็น 'รถสีน้ำเงินบนถนน' และคงเค้าโครงฉากเดิมไว้
นักออกแบบเปลี่ยน 'รถสีแดงบนท้องถนน' เป็น 'รถสีฟ้าบนท้องถนน' และคงเค้าโครงฉากเดิมไว้ ทีมมักจะได้รับผลลัพธ์ที่ดีกว่าเมื่อพวกเขากำหนดเกณฑ์คุณภาพล่วงหน้า รักษาเส้นทางการยกระดับโดยมนุษย์สำหรับกรณี Edge และติดตามทั้งประสิทธิภาพการทำงานที่เพิ่มขึ้นและต้นทุนข้อผิดพลาดเมื่อเวลาผ่านไป
การแก้ไขแบบเน้นความสนใจแบบทันทีทันใดในทางปฏิบัติ
นักวาดภาพประกอบปรับน้ำหนักของคำว่า 'เต็มไปด้วยหิมะ' เพื่อทำให้ภูมิทัศน์ดูหนาวเย็นมากขึ้นเรื่อยๆ ในรูปแบบต่างๆ
นักวาดภาพประกอบปรับน้ำหนักคำว่า 'เต็มไปด้วยหิมะ' เพื่อทำให้ภูมิทัศน์มีฤดูหนาวมากขึ้นเรื่อยๆ ในรูปแบบต่างๆ ทีมมักจะได้รับผลลัพธ์ที่ดีขึ้นเมื่อพวกเขากำหนดเกณฑ์คุณภาพล่วงหน้า รักษาเส้นทางการยกระดับโดยมนุษย์สำหรับกรณี Edge และติดตามทั้งประสิทธิภาพการทำงานที่เพิ่มขึ้นและต้นทุนข้อผิดพลาดเมื่อเวลาผ่านไป
การแก้ไขแบบเน้นความสนใจแบบทันทีทันใดในทางปฏิบัติ
นักเล่าเรื่องเปลี่ยน 'สิงโต' เป็น 'เสือ' เพื่อรักษาท่าทางและพื้นหลังที่เหมือนกันสำหรับเอกสารตัวละคร
นักเล่าเรื่องเปลี่ยน 'สิงโต' เป็น 'เสือ' เพื่อรักษาท่าทางและพื้นหลังที่เหมือนกันสำหรับเอกสารตัวละคร ทีมมักจะได้รับผลลัพธ์ที่ดีกว่าเมื่อพวกเขากำหนดเกณฑ์คุณภาพล่วงหน้า รักษาเส้นทางการยกระดับของมนุษย์สำหรับกรณี Edge และติดตามทั้งประสิทธิภาพการทำงานที่เพิ่มขึ้นและต้นทุนข้อผิดพลาดเมื่อเวลาผ่านไป
การแก้ไขแบบเน้นความสนใจแบบทันทีทันใดในทางปฏิบัติ
นักวิจัยใช้มันเพื่อสร้างภาพก่อน/หลังที่จับคู่กันเป็นข้อมูลการฝึกอบรมสำหรับโปรแกรมแก้ไขที่ปฏิบัติตามคำสั่ง
นักวิจัยใช้มันเพื่อสร้างภาพก่อน/หลังที่จับคู่กันเป็นข้อมูลการฝึกอบรมสำหรับโปรแกรมแก้ไขที่ปฏิบัติตามคำสั่ง ทีมมักจะได้รับผลลัพธ์ที่ดีกว่าเมื่อพวกเขากำหนดเกณฑ์คุณภาพล่วงหน้า รักษาเส้นทางการยกระดับโดยมนุษย์สำหรับกรณี Edge และติดตามทั้งประสิทธิภาพการทำงานที่เพิ่มขึ้นและต้นทุนข้อผิดพลาดเมื่อเวลาผ่านไป
ความเสี่ยงและรั้ว
สิทธิ์และความยินยอมในรูปภาพอาจกลายเป็นความเสี่ยงทางกฎหมายได้หากแหล่งที่มาไม่ชัดเจน
ประสิทธิภาพของโมเดลอาจแตกต่างกันไปตามสภาพแสง ข้อมูลประชากร และสภาพแวดล้อม
ผลบวกลวงอาจไม่สังเกตเห็นเว้นแต่จะมีการตรวจสอบเกณฑ์ความเชื่อมั่น
แผนงานการดำเนินงาน
กำหนดเกณฑ์การยอมรับสำหรับความแม่นยำ การเรียกคืน และต้นทุนข้อผิดพลาด
กำหนดเกณฑ์การยอมรับสำหรับความแม่นยำ การเรียกคืน และต้นทุนข้อผิดพลาด ถือว่าแต่ละขั้นตอนเป็นเหมือนประตูหลักฐาน: หากไม่ตรงตามเกณฑ์ ให้หยุดการเปิดตัวชั่วคราว ปิดช่องว่าง จากนั้นจึงขยายการใช้งานเท่านั้น
ทดสอบด้วยข้อมูลที่ตรงกับเงื่อนไขการผลิตจริง
ทดสอบด้วยข้อมูลที่ตรงกับเงื่อนไขการผลิตจริง ถือว่าแต่ละขั้นตอนเป็นเหมือนประตูหลักฐาน: หากไม่ตรงตามเกณฑ์ ให้หยุดการเปิดตัวชั่วคราว ปิดช่องว่าง จากนั้นจึงขยายการใช้งานเท่านั้น
เพิ่มการตรวจสอบโดยเจ้าหน้าที่สำหรับการคาดการณ์ที่มีความมั่นใจต่ำหรือมีผลกระทบสูง
เพิ่มการตรวจสอบโดยเจ้าหน้าที่สำหรับการคาดการณ์ที่มีความมั่นใจต่ำหรือมีผลกระทบสูง ถือว่าแต่ละขั้นตอนเป็นเหมือนประตูหลักฐาน: หากไม่ตรงตามเกณฑ์ ให้หยุดการเปิดตัวชั่วคราว ปิดช่องว่าง จากนั้นจึงขยายการใช้งานเท่านั้น
ติดตามการเคลื่อนตัวของโมเดลและตรวจสอบความถูกต้องอีกครั้งหลังจากการเปลี่ยนแปลงกล้องหรือชุดข้อมูล
ติดตามการเคลื่อนตัวของโมเดลและตรวจสอบความถูกต้องอีกครั้งหลังจากการเปลี่ยนแปลงกล้องหรือชุดข้อมูล ถือว่าแต่ละขั้นตอนเป็นเหมือนประตูหลักฐาน: หากไม่ตรงตามเกณฑ์ ให้หยุดการเปิดตัวชั่วคราว ปิดช่องว่าง จากนั้นจึงขยายการใช้งานเท่านั้น