ภาพรวม
Zero-1-to-3 เปลี่ยนภาพถ่ายเดี่ยวของวัตถุให้เป็นภาพของวัตถุเดียวกันนั้นที่มองเห็นได้จากมุมใหม่ โดยใช้แบบจำลองการแพร่กระจายที่มีเงื่อนไขตามการหมุนกล้องที่คุณต้องการ สิ่งสำคัญคือช่วยให้คุณสร้างมุมมองที่สอดคล้องกัน 3 มิติได้โดยไม่ต้องสแกนวัตถุจากหลายด้านเลย
Zero-1-to-3 Novel View Diffusion เป็นของเวิร์กโฟลว์คอมพิวเตอร์วิทัศน์ที่ตีความหรือสร้างสื่อภาพเพื่อการวิเคราะห์ การดำเนินงาน และความคิดสร้างสรรค์
เจาะลึก
Zero-1-to-3 (จาก Columbia, 2023) ปรับ Stable Diffusion อย่างละเอียด เพื่อให้สามารถสังเคราะห์มุมมองใหม่แบบ Zero-shot จากภาพที่ป้อนเข้าเพียงภาพเดียว คุณป้อนรูปภาพหนึ่งภาพบวกกับการแปลงกล้องแบบสัมพัทธ์ (การหมุนและการแปลเล็กน้อย) และแบบจำลองจะสร้างลักษณะของวัตถุจากมุมมองใหม่นั้น แนวคิดหลักคือโมเดลการแพร่กระจาย 2 มิติขนาดใหญ่ ซึ่งได้รับการฝึกฝนเกี่ยวกับคอลเลกชันรูปภาพบนเว็บขนาดใหญ่ ได้ดูดซับลักษณะทางเรขาคณิตและกายภาพโดยปริยายเกี่ยวกับลักษณะของวัตถุในรูปแบบ 3 มิติ ด้วยการปรับแต่งอย่างละเอียดบนชุดข้อมูลสังเคราะห์ของออบเจ็กต์ที่เรนเดอร์จากมุมกล้องที่ได้รับการควบคุมหลายๆ มุม (โดยใช้ Objaverse) โมเดลจะเรียนรู้ที่จะแมปวัตถุก่อนหน้าเหล่านั้นเข้ากับการควบคุมกล้องที่ชัดเจน มุมมองที่สร้างขึ้นสามารถป้อนการสร้าง 3D ดาวน์สตรีมได้
ข้อมูลเชิงลึกทางเทคนิค
เงื่อนไขของโมเดลในรูปภาพต้นฉบับมี 2 วิธี: การฝัง CLIP จะต่อเข้ากับท่าทางกล้องที่สัมพันธ์กัน (แอซิมัท ระดับความสูง รัศมี) เพื่อควบคุมการสนใจข้าม ในขณะที่ภาพ Raw จะต่อเข้ากับสัญญาณแฝงที่มีสัญญาณรบกวน ดังนั้นรายละเอียดและเอกลักษณ์ที่ละเอียดอ่อนจึงถูกรักษาไว้ การฝึกอบรมใช้ภาพสามรูปแบบที่เรนเดอร์จากวัตถุ CAD ดังนั้นเครือข่ายจึงเรียนรู้การแมปที่ควบคุมได้ระหว่างการเปลี่ยนแปลงมุมมองและการเปลี่ยนแปลงพิกเซลที่เกิดขึ้น
การเรียนรู้การกระจายมุมมองนวนิยายแบบ Zero-1 ถึง 3
Zero-1-to-3 เปลี่ยนภาพถ่ายเดี่ยวของวัตถุให้เป็นภาพของวัตถุเดียวกันนั้นที่มองเห็นได้จากมุมใหม่ โดยใช้แบบจำลองการแพร่กระจายที่มีเงื่อนไขตามการหมุนกล้องที่คุณต้องการ สิ่งสำคัญคือช่วยให้คุณสร้างมุมมองที่สอดคล้องกัน 3 มิติได้โดยไม่ต้องสแกนวัตถุจากหลายด้านเลย Zero-1-to-3 Novel View Diffusion เป็นของเวิร์กโฟลว์คอมพิวเตอร์วิทัศน์ที่ตีความหรือสร้างสื่อภาพเพื่อการวิเคราะห์ การดำเนินงาน และความคิดสร้างสรรค์ เพื่อสร้างความเข้าใจอย่างลึกซึ้ง ให้ถือว่า Zero-1-to-3 Novel View Diffusion เป็นรูปแบบการดำเนินงาน ไม่ใช่คุณลักษณะเดียว: กำหนดผลลัพธ์ที่ต้องการ ชี้แจงสมมติฐาน และแยกสิ่งที่ระบบสามารถทำได้อย่างน่าเชื่อถือจากสิ่งที่ยังต้องใช้วิจารณญาณจากผู้เชี่ยวชาญ
ในทางปฏิบัติ ทีมที่แข็งแกร่งที่ใช้ Zero-1-to-3 Novel View Diffusion มีความแม่นยำสมดุลกับความเป็นจริงในการปฏิบัติงาน เช่น คุณภาพของข้อมูล ความแปรปรวนของแสง และความสม่ำเสมอในการติดฉลาก โดยจะบันทึกเกณฑ์ความสำเร็จที่ชัดเจน ทดสอบกับข้อมูลและขั้นตอนการทำงานที่สมจริง และทำซ้ำตามรูปแบบความล้มเหลวที่สังเกตได้ แทนที่จะชนะการวัดประสิทธิภาพเพียงครั้งเดียว นี่คือจุดที่ความเข้าใจทางทฤษฎีกลายเป็นความสามารถที่คงทนของผลิตภัณฑ์ นโยบาย และการดำเนินงาน
Visual AI สามารถทำให้การตรวจสอบ การตรวจจับ และการแท็กเป็นอัตโนมัติในขนาดต่างๆ ในขณะเดียวกัน สิทธิ์และความยินยอมในรูปภาพอาจกลายเป็นความเสี่ยงทางกฎหมายได้หากแหล่งที่มาไม่ชัดเจน แนวทางที่ยืดหยุ่นที่สุดคือการรวมความเร็วของการทดลองเข้ากับวินัยในการกำกับดูแล: ดำเนินการนำร่อง จับหลักฐาน เผยแพร่บันทึกการตัดสินใจ และอัปเดตการป้องกันอย่างต่อเนื่องเมื่อพฤติกรรมของโมเดล ความคาดหวังของผู้ใช้ และข้อกำหนดด้านกฎระเบียบมีการเปลี่ยนแปลง
ผลกระทบเชิงกลยุทธ์
Visual AI สามารถทำให้การตรวจสอบ การตรวจจับ และการแท็กเป็นอัตโนมัติในขนาดต่างๆ
Visual AI สามารถทำให้การตรวจสอบ การตรวจจับ และการแท็กเป็นอัตโนมัติในขนาดต่างๆ ในการปรับใช้คุณภาพสูง สิ่งนี้จะถูกแปลเป็นกฎการปฏิบัติงานที่วัดผลได้ ขอบเขตความเป็นเจ้าของ และขั้นตอนการตรวจสอบที่เกิดซ้ำ เพื่อให้ทีมสามารถปรับขนาดความมั่นใจแทนที่จะปรับขนาดความคลุมเครือ
ทีมสร้างสรรค์สามารถสร้างต้นแบบแนวคิดได้รวดเร็วขึ้นโดยต้องมีการแก้ไขด้วยตนเองน้อยลง
ทีมสร้างสรรค์สามารถสร้างต้นแบบแนวคิดได้รวดเร็วขึ้นโดยต้องมีการแก้ไขด้วยตนเองน้อยลง ในการปรับใช้คุณภาพสูง สิ่งนี้จะถูกแปลเป็นกฎการปฏิบัติงานที่วัดผลได้ ขอบเขตความเป็นเจ้าของ และขั้นตอนการตรวจสอบที่เกิดซ้ำ เพื่อให้ทีมสามารถปรับขนาดความมั่นใจแทนที่จะปรับขนาดความคลุมเครือ
การดำเนินการสามารถใช้สัญญาณภาพและวิดีโอที่ก่อนหน้านี้ประมวลผลได้ยาก
การดำเนินการสามารถใช้สัญญาณภาพและวิดีโอที่ก่อนหน้านี้ประมวลผลได้ยาก ในการปรับใช้คุณภาพสูง สิ่งนี้จะถูกแปลเป็นกฎการปฏิบัติงานที่วัดผลได้ ขอบเขตความเป็นเจ้าของ และขั้นตอนการตรวจสอบที่เกิดซ้ำ เพื่อให้ทีมสามารถปรับขนาดความมั่นใจแทนที่จะปรับขนาดความคลุมเครือ
การใช้งานจริงในโลกแห่งความเป็นจริง
การสร้างมุมมองแบบหมุนได้ของภาพถ่ายผลิตภัณฑ์เดียวเพื่อให้รายการอีคอมเมิร์ซสามารถแสดงรายการจากทุกด้าน
การเริ่มต้นสร้างตาข่าย 3 มิติที่มีพื้นผิวของวัตถุจากสแน็ปช็อตในโทรศัพท์ทั่วไปสำหรับการแสดงตัวอย่าง AR
การสร้างงานศิลปะอ้างอิงหลายมุมที่สอดคล้องกันของตัวละครหรืออุปกรณ์ประกอบฉากสำหรับศิลปินที่มีแนวคิดเกี่ยวกับเกมและภาพยนตร์
ป้อนมุมมองใหม่ที่ได้รับการสังเคราะห์ลงในการสร้าง NeRF หรือ Gaussian Splatting ใหม่เพื่อเติมเต็มรูปทรงเรขาคณิตที่มองไม่เห็น
รูปแบบการดำเนินงาน
การแพร่กระจายมุมมองนวนิยาย Zero-1 ถึง 3 ในทางปฏิบัติ
การสร้างมุมมองแบบหมุนได้ของภาพถ่ายผลิตภัณฑ์เดียวเพื่อให้รายการอีคอมเมิร์ซสามารถแสดงรายการจากทุกด้าน
การสร้างมุมมองแบบหมุนได้ของรูปถ่ายผลิตภัณฑ์เดียวเพื่อให้รายการอีคอมเมิร์ซสามารถแสดงรายการจากทุกด้าน ทีมมักจะได้รับผลลัพธ์ที่ดีกว่าเมื่อพวกเขากำหนดเกณฑ์คุณภาพล่วงหน้า รักษาเส้นทางการยกระดับโดยมนุษย์สำหรับกรณี Edge และติดตามทั้งประสิทธิภาพการทำงานที่เพิ่มขึ้นและต้นทุนข้อผิดพลาดเมื่อเวลาผ่านไป
การแพร่กระจายมุมมองนวนิยาย Zero-1 ถึง 3 ในทางปฏิบัติ
การเริ่มต้นสร้างตาข่าย 3 มิติที่มีพื้นผิวของวัตถุจากสแน็ปช็อตในโทรศัพท์ทั่วไปสำหรับการแสดงตัวอย่าง AR
การบูตตาข่าย 3 มิติที่มีพื้นผิวของวัตถุจากสแน็ปช็อตในโทรศัพท์ทั่วไปสำหรับการแสดงตัวอย่าง AR โดยปกติแล้วทีมจะได้รับผลลัพธ์ที่ดีขึ้น เมื่อพวกเขากำหนดเกณฑ์คุณภาพล่วงหน้า รักษาเส้นทางการยกระดับโดยมนุษย์สำหรับกรณี Edge และติดตามทั้งประสิทธิภาพการทำงานที่เพิ่มขึ้นและต้นทุนข้อผิดพลาดเมื่อเวลาผ่านไป
การแพร่กระจายมุมมองนวนิยาย Zero-1 ถึง 3 ในทางปฏิบัติ
การสร้างงานศิลปะอ้างอิงหลายมุมที่สอดคล้องกันของตัวละครหรืออุปกรณ์ประกอบฉากสำหรับศิลปินที่มีแนวคิดเกี่ยวกับเกมและภาพยนตร์
การสร้างงานศิลปะอ้างอิงหลายมุมที่สอดคล้องกันของตัวละครหรืออุปกรณ์ประกอบฉากสำหรับศิลปินที่มีแนวคิดเกี่ยวกับเกมและภาพยนตร์ ทีมมักจะได้รับผลลัพธ์ที่ดีกว่าเมื่อพวกเขากำหนดเกณฑ์คุณภาพล่วงหน้า รักษาเส้นทางการยกระดับโดยมนุษย์สำหรับกรณี Edge และติดตามทั้งประสิทธิภาพการทำงานที่เพิ่มขึ้นและต้นทุนข้อผิดพลาดเมื่อเวลาผ่านไป
การแพร่กระจายมุมมองนวนิยาย Zero-1 ถึง 3 ในทางปฏิบัติ
ป้อนมุมมองใหม่ที่ได้รับการสังเคราะห์ลงในการสร้าง NeRF หรือ Gaussian Splatting ใหม่เพื่อเติมเต็มรูปทรงเรขาคณิตที่มองไม่เห็น
การป้อนมุมมองที่สังเคราะห์ขึ้นใหม่ลงในการสร้าง NeRF หรือ Gaussian Splatting ใหม่เพื่อเติมเต็มเรขาคณิตที่มองไม่เห็น ทีมมักจะได้รับผลลัพธ์ที่ดีกว่าเมื่อพวกเขากำหนดเกณฑ์คุณภาพล่วงหน้า รักษาเส้นทางการยกระดับโดยมนุษย์สำหรับกรณี Edge และติดตามทั้งการเพิ่มผลผลิตและต้นทุนข้อผิดพลาดเมื่อเวลาผ่านไป
ความเสี่ยงและรั้ว
สิทธิ์และความยินยอมในรูปภาพอาจกลายเป็นความเสี่ยงทางกฎหมายได้หากแหล่งที่มาไม่ชัดเจน
ประสิทธิภาพของโมเดลอาจแตกต่างกันไปตามสภาพแสง ข้อมูลประชากร และสภาพแวดล้อม
ผลบวกลวงอาจไม่สังเกตเห็นเว้นแต่จะมีการตรวจสอบเกณฑ์ความเชื่อมั่น
แผนงานการดำเนินงาน
กำหนดเกณฑ์การยอมรับสำหรับความแม่นยำ การเรียกคืน และต้นทุนข้อผิดพลาด
กำหนดเกณฑ์การยอมรับสำหรับความแม่นยำ การเรียกคืน และต้นทุนข้อผิดพลาด ถือว่าแต่ละขั้นตอนเป็นเหมือนประตูหลักฐาน: หากไม่ตรงตามเกณฑ์ ให้หยุดการเปิดตัวชั่วคราว ปิดช่องว่าง จากนั้นจึงขยายการใช้งานเท่านั้น
ทดสอบด้วยข้อมูลที่ตรงกับเงื่อนไขการผลิตจริง
ทดสอบด้วยข้อมูลที่ตรงกับเงื่อนไขการผลิตจริง ถือว่าแต่ละขั้นตอนเป็นเหมือนประตูหลักฐาน: หากไม่ตรงตามเกณฑ์ ให้หยุดการเปิดตัวชั่วคราว ปิดช่องว่าง จากนั้นจึงขยายการใช้งานเท่านั้น
เพิ่มการตรวจสอบโดยเจ้าหน้าที่สำหรับการคาดการณ์ที่มีความมั่นใจต่ำหรือมีผลกระทบสูง
เพิ่มการตรวจสอบโดยเจ้าหน้าที่สำหรับการคาดการณ์ที่มีความมั่นใจต่ำหรือมีผลกระทบสูง ถือว่าแต่ละขั้นตอนเป็นเหมือนประตูหลักฐาน: หากไม่ตรงตามเกณฑ์ ให้หยุดการเปิดตัวชั่วคราว ปิดช่องว่าง จากนั้นจึงขยายการใช้งานเท่านั้น
ติดตามการเคลื่อนตัวของโมเดลและตรวจสอบความถูกต้องอีกครั้งหลังจากการเปลี่ยนแปลงกล้องหรือชุดข้อมูล
ติดตามการเคลื่อนตัวของโมเดลและตรวจสอบความถูกต้องอีกครั้งหลังจากการเปลี่ยนแปลงกล้องหรือชุดข้อมูล ถือว่าแต่ละขั้นตอนเป็นเหมือนประตูหลักฐาน: หากไม่ตรงตามเกณฑ์ ให้หยุดการเปิดตัวชั่วคราว ปิดช่องว่าง จากนั้นจึงขยายการใช้งานเท่านั้น