คู่มือ AI แบบเห็นภาพ

สนามเพลน็อกเซลและวอกเซลเรเดียนซ์

Plenoxels แสดงให้เห็นว่าคุณสามารถสร้างฉาก 3D ขึ้นมาใหม่ด้วยผลลัพธ์คุณภาพ NeRF โดยไม่ต้องใช้โครงข่ายประสาทเทียมใดๆ เลย เป็นเพียงตารางของ voxels ที่จัดเก็บสีและความหนาแน่น

ภาพรวม

Plenoxels แสดงให้เห็นว่าคุณสามารถสร้างฉาก 3D ขึ้นมาใหม่ด้วยผลลัพธ์คุณภาพ NeRF โดยไม่ต้องใช้โครงข่ายประสาทเทียมใดๆ เลย เป็นเพียงตารางของ voxels ที่จัดเก็บสีและความหนาแน่น ผลลัพธ์จะฝึกได้เร็วกว่า NeRF ดั้งเดิมประมาณ 100 เท่า ในขณะเดียวกันก็รักษาคุณภาพของภาพไว้ด้วย

Plenoxels และ Voxel Radiance Fields เป็นของเวิร์กโฟลว์คอมพิวเตอร์วิทัศน์ที่ตีความหรือสร้างสื่อภาพเพื่อการวิเคราะห์ การดำเนินงาน และความคิดสร้างสรรค์

เจาะลึก

NeRF บรรลุผลเสมือนจริงแต่ช้าเพราะทุกตัวอย่างต้องมีการส่งต่อผ่านโครงข่ายประสาทเทียมระดับลึก และการฝึกอบรมอาจใช้เวลาหลายชั่วโมงหรือหลายวัน Plenoxels (Sara Fridovich-Keil, Alex Yu et al., 2022) ถามคำถามเร้าใจ: เครือข่ายจำเป็นด้วยหรือไม่? คำตอบของพวกเขาคือไม่ พวกเขานำเสนอฉากเป็นตาราง voxel 3D แบบกระจัดกระจาย วอกเซลที่ถูกครอบครองแต่ละตัวจะเก็บค่าความทึบเดียวบวกกับค่าสัมประสิทธิ์ฮาร์มอนิกทรงกลมที่เข้ารหัสสีที่ขึ้นกับมุมมอง ในการเรนเดอร์พิกเซล ระบบจะประมาณค่าเหล่านี้แบบไตรลิเนียร์ตามรังสีและรวมเข้ากับการเรนเดอร์ปริมาตรมาตรฐาน เนื่องจากไม่มีเครือข่าย ทุกอย่างจึงได้รับการปรับให้เหมาะสมโดยตรงด้วยการไล่ระดับลงมาบนค่าว็อกเซล ซึ่งปรับให้เป็นมาตรฐานเพื่อความราบรื่น ผลลัพธ์พาดหัว: คุณภาพเทียบเท่ากับ NeRF ฝึกฝนได้ภายในไม่กี่นาทีบน GPU ตัวเดียว

ข้อมูลเชิงลึกทางเทคนิค

สีที่ขึ้นกับมุมมองเป็นส่วนที่ชาญฉลาด แทนที่จะให้เครือข่ายส่งสัญญาณ RGB ต่อมุมมอง แต่ละว็อกเซลจะเก็บชุดค่าสัมประสิทธิ์ฮาร์มอนิกทรงกลม (SH) ชุดเล็กๆ ต่อช่องสี การประเมินพื้นฐาน SH ในทิศทางของรังสีจะสร้างการเปลี่ยนแปลงสีของจุดนั้นตามมุมมองขึ้นมาใหม่ โดยจับภาพไฮไลท์และการสะท้อนแบบ specular ความทึบไม่ขึ้นกับทิศทาง การประมาณค่าแบบไตรลิเนียร์ที่สามารถหาความแตกต่างได้บวกกับการเรนเดอร์ปริมาตรทำให้ค่า voxel ทุกค่าสามารถฝึกได้โดยตรง ดังนั้นการปรับให้เหมาะสมจึงมีความพอดีแบบสี่เหลี่ยมจัตุรัสน้อยที่สุดที่ตรงไปตรงมาและไร้เครือข่าย

การเรียนรู้ฟิลด์ Plenoxels และ Voxel Radiance

Plenoxels แสดงให้เห็นว่าคุณสามารถสร้างฉาก 3D ขึ้นมาใหม่ด้วยผลลัพธ์คุณภาพ NeRF โดยไม่ต้องใช้โครงข่ายประสาทเทียมใดๆ เลย เป็นเพียงตารางของ voxels ที่จัดเก็บสีและความหนาแน่น ผลลัพธ์จะฝึกได้เร็วกว่า NeRF ดั้งเดิมประมาณ 100 เท่า ในขณะเดียวกันก็รักษาคุณภาพของภาพไว้ด้วย Plenoxels และ Voxel Radiance Fields เป็นของเวิร์กโฟลว์คอมพิวเตอร์วิทัศน์ที่ตีความหรือสร้างสื่อภาพเพื่อการวิเคราะห์ การดำเนินงาน และความคิดสร้างสรรค์ เพื่อสร้างความเข้าใจอย่างลึกซึ้ง ให้ถือว่า Plenoxels และ Voxel Radiance Fields เป็นแบบจำลองการดำเนินงาน ไม่ใช่คุณลักษณะเดียว: กำหนดผลลัพธ์ที่ต้องการ ชี้แจงสมมติฐาน และแยกสิ่งที่ระบบสามารถทำได้อย่างน่าเชื่อถือจากสิ่งที่ยังต้องใช้วิจารณญาณจากผู้เชี่ยวชาญ

ในทางปฏิบัติ ทีมที่แข็งแกร่งที่ใช้ Plenoxels และ Voxel Radiance Fields จะรักษาสมดุลระหว่างความแม่นยำกับความเป็นจริงในการปฏิบัติงาน เช่น คุณภาพของข้อมูล ความแปรปรวนของแสง และความสม่ำเสมอในการติดฉลาก โดยจะบันทึกเกณฑ์ความสำเร็จที่ชัดเจน ทดสอบกับข้อมูลและขั้นตอนการทำงานที่สมจริง และทำซ้ำตามรูปแบบความล้มเหลวที่สังเกตได้ แทนที่จะชนะการวัดประสิทธิภาพเพียงครั้งเดียว นี่คือจุดที่ความเข้าใจทางทฤษฎีกลายเป็นความสามารถที่คงทนของผลิตภัณฑ์ นโยบาย และการดำเนินงาน

Visual AI สามารถทำให้การตรวจสอบ การตรวจจับ และการแท็กเป็นอัตโนมัติในขนาดต่างๆ ในขณะเดียวกัน สิทธิ์และความยินยอมในรูปภาพอาจกลายเป็นความเสี่ยงทางกฎหมายได้หากแหล่งที่มาไม่ชัดเจน แนวทางที่ยืดหยุ่นที่สุดคือการรวมความเร็วของการทดลองเข้ากับวินัยในการกำกับดูแล: ดำเนินการนำร่อง จับหลักฐาน เผยแพร่บันทึกการตัดสินใจ และอัปเดตการป้องกันอย่างต่อเนื่องเมื่อพฤติกรรมของโมเดล ความคาดหวังของผู้ใช้ และข้อกำหนดด้านกฎระเบียบมีการเปลี่ยนแปลง

ผลกระทบเชิงกลยุทธ์

Visual AI สามารถทำให้การตรวจสอบ การตรวจจับ และการแท็กเป็นอัตโนมัติในขนาดต่างๆ

Visual AI สามารถทำให้การตรวจสอบ การตรวจจับ และการแท็กเป็นอัตโนมัติในขนาดต่างๆ ในการปรับใช้คุณภาพสูง สิ่งนี้จะถูกแปลเป็นกฎการปฏิบัติงานที่วัดผลได้ ขอบเขตความเป็นเจ้าของ และขั้นตอนการตรวจสอบที่เกิดซ้ำ เพื่อให้ทีมสามารถปรับขนาดความมั่นใจแทนที่จะปรับขนาดความคลุมเครือ

ทีมสร้างสรรค์สามารถสร้างต้นแบบแนวคิดได้รวดเร็วขึ้นโดยต้องมีการแก้ไขด้วยตนเองน้อยลง

ทีมสร้างสรรค์สามารถสร้างต้นแบบแนวคิดได้รวดเร็วขึ้นโดยต้องมีการแก้ไขด้วยตนเองน้อยลง ในการปรับใช้คุณภาพสูง สิ่งนี้จะถูกแปลเป็นกฎการปฏิบัติงานที่วัดผลได้ ขอบเขตความเป็นเจ้าของ และขั้นตอนการตรวจสอบที่เกิดซ้ำ เพื่อให้ทีมสามารถปรับขนาดความมั่นใจแทนที่จะปรับขนาดความคลุมเครือ

การดำเนินการสามารถใช้สัญญาณภาพและวิดีโอที่ก่อนหน้านี้ประมวลผลได้ยาก

การดำเนินการสามารถใช้สัญญาณภาพและวิดีโอที่ก่อนหน้านี้ประมวลผลได้ยาก ในการปรับใช้คุณภาพสูง สิ่งนี้จะถูกแปลเป็นกฎการปฏิบัติงานที่วัดผลได้ ขอบเขตความเป็นเจ้าของ และขั้นตอนการตรวจสอบที่เกิดซ้ำ เพื่อให้ทีมสามารถปรับขนาดความมั่นใจแทนที่จะปรับขนาดความคลุมเครือ

อนาคตของสนาม Plenoxels และ Voxel Radiance

Plenoxels พิสูจน์ให้เห็นว่าการนำเสนอ (ไม่ใช่โครงข่ายประสาทเทียม) เป็นตัวขับเคลื่อนคุณภาพของ NeRF ซึ่งเป็นการค้นพบที่เปลี่ยนโฉมหน้าสนาม โดยเป็นแรงบันดาลใจโดยตรงต่อวิธีการที่ชัดเจนและแบบผสมผสาน เช่น ตารางแฮชของ Instant-NGP และท้ายที่สุดคือ 3D Gaussian Splatting ซึ่งปัจจุบันครองการเรนเดอร์ Radiance แบบเรียลไทม์ คาดหวังการเคลื่อนไหวอย่างต่อเนื่องไปสู่แบบดั้งเดิมที่ชัดเจนและเป็นมิตรกับ GPU ซึ่งฝึกฝนในไม่กี่วินาทีและเรนเดอร์แบบเรียลไทม์ โดยมีโครงข่ายประสาทเทียมที่ใช้แบบคัดเลือกแทนที่จะเป็นที่เก็บฉากหลัก

การใช้งานจริงในโลกแห่งความเป็นจริง

สร้างวัตถุที่บันทึกไว้ใหม่อย่างรวดเร็วเป็นเนื้อหา 3 มิติภายในไม่กี่นาทีสำหรับอีคอมเมิร์ซหรือการแปลงเป็นดิจิทัลในพิพิธภัณฑ์ แทนที่จะต้องรอเป็นชั่วโมง

การสร้างต้นแบบอย่างรวดเร็วของการสังเคราะห์มุมมองใหม่บน GPU สำหรับผู้บริโภคเพียงตัวเดียวสำหรับการวิจัยและการศึกษา

การสร้างฉาก voxel ที่สามารถแก้ไขได้และชัดเจน ซึ่งศิลปินสามารถตรวจสอบและตัดได้โดยตรง ไม่เหมือนกับการถ่วงน้ำหนักเครือข่ายแบบทึบ

เป็นตัวอย่างการสอนว่าการนำเสนอฉาก ไม่ใช่การเรียนรู้เชิงลึก เป็นสิ่งที่ให้ผลลัพธ์ที่สมจริงเหมือนภาพถ่าย

รูปแบบการดำเนินงาน

สนาม Plenoxels และ Voxel Radiance ในทางปฏิบัติ

สร้างวัตถุที่บันทึกไว้ใหม่อย่างรวดเร็วเป็นเนื้อหา 3 มิติภายในไม่กี่นาทีสำหรับอีคอมเมิร์ซหรือการแปลงเป็นดิจิทัลในพิพิธภัณฑ์ แทนที่จะต้องรอเป็นชั่วโมง

สร้างวัตถุที่บันทึกไว้ใหม่อย่างรวดเร็วเป็นเนื้อหา 3 มิติภายในไม่กี่นาทีสำหรับอีคอมเมิร์ซหรือการแปลงเป็นดิจิทัลในพิพิธภัณฑ์ แทนที่จะต้องรอหลายชั่วโมง ทีมมักจะได้รับผลลัพธ์ที่ดีกว่าเมื่อพวกเขากำหนดเกณฑ์คุณภาพล่วงหน้า รักษาเส้นทางการยกระดับโดยมนุษย์สำหรับกรณี Edge และติดตามทั้งประสิทธิภาพการทำงานที่เพิ่มขึ้นและต้นทุนข้อผิดพลาดเมื่อเวลาผ่านไป

สนาม Plenoxels และ Voxel Radiance ในทางปฏิบัติ

การสร้างต้นแบบอย่างรวดเร็วของการสังเคราะห์มุมมองใหม่บน GPU สำหรับผู้บริโภคเพียงตัวเดียวสำหรับการวิจัยและการศึกษา

การสร้างต้นแบบอย่างรวดเร็วของการสังเคราะห์มุมมองใหม่บน GPU สำหรับผู้บริโภคเพียงตัวเดียวสำหรับการวิจัยและการศึกษา ทีมมักจะได้รับผลลัพธ์ที่ดีกว่าเมื่อพวกเขากำหนดเกณฑ์คุณภาพล่วงหน้า รักษาเส้นทางการยกระดับโดยมนุษย์สำหรับกรณี Edge และติดตามทั้งประสิทธิภาพการทำงานที่เพิ่มขึ้นและต้นทุนข้อผิดพลาดเมื่อเวลาผ่านไป

สนาม Plenoxels และ Voxel Radiance ในทางปฏิบัติ

การสร้างฉาก voxel ที่สามารถแก้ไขได้และชัดเจน ซึ่งศิลปินสามารถตรวจสอบและตัดได้โดยตรง ไม่เหมือนกับการถ่วงน้ำหนักเครือข่ายแบบทึบ

การสร้างฉาก voxel ที่ชัดเจนที่แก้ไขได้ ซึ่งศิลปินสามารถตรวจสอบและตัดได้โดยตรง ซึ่งแตกต่างจากน้ำหนักเครือข่ายแบบทึบ ทีมมักจะได้รับผลลัพธ์ที่ดีกว่าเมื่อพวกเขากำหนดเกณฑ์คุณภาพล่วงหน้า รักษาเส้นทางการยกระดับโดยมนุษย์สำหรับกรณี Edge และติดตามทั้งประสิทธิภาพการทำงานที่เพิ่มขึ้นและต้นทุนข้อผิดพลาดเมื่อเวลาผ่านไป

สนาม Plenoxels และ Voxel Radiance ในทางปฏิบัติ

เป็นตัวอย่างการสอนว่าการนำเสนอฉาก ไม่ใช่การเรียนรู้เชิงลึก เป็นสิ่งที่ให้ผลลัพธ์ที่สมจริงเหมือนภาพถ่าย

เป็นตัวอย่างการสอนว่าการนำเสนอฉาก ไม่ใช่การเรียนรู้เชิงลึก คือสิ่งที่สร้างผลลัพธ์ที่สมจริง ทีมมักจะได้รับผลลัพธ์ที่ดีกว่าเมื่อพวกเขากำหนดเกณฑ์คุณภาพล่วงหน้า รักษาเส้นทางการยกระดับของมนุษย์สำหรับกรณี Edge และติดตามทั้งการเพิ่มผลผลิตและต้นทุนข้อผิดพลาดเมื่อเวลาผ่านไป

ความเสี่ยงและรั้ว

!

สิทธิ์และความยินยอมในรูปภาพอาจกลายเป็นความเสี่ยงทางกฎหมายได้หากแหล่งที่มาไม่ชัดเจน

!

ประสิทธิภาพของโมเดลอาจแตกต่างกันไปตามสภาพแสง ข้อมูลประชากร และสภาพแวดล้อม

!

ผลบวกลวงอาจไม่สังเกตเห็นเว้นแต่จะมีการตรวจสอบเกณฑ์ความเชื่อมั่น

แผนงานการดำเนินงาน

1

กำหนดเกณฑ์การยอมรับสำหรับความแม่นยำ การเรียกคืน และต้นทุนข้อผิดพลาด

กำหนดเกณฑ์การยอมรับสำหรับความแม่นยำ การเรียกคืน และต้นทุนข้อผิดพลาด ถือว่าแต่ละขั้นตอนเป็นเหมือนประตูหลักฐาน: หากไม่ตรงตามเกณฑ์ ให้หยุดการเปิดตัวชั่วคราว ปิดช่องว่าง จากนั้นจึงขยายการใช้งานเท่านั้น

2

ทดสอบด้วยข้อมูลที่ตรงกับเงื่อนไขการผลิตจริง

ทดสอบด้วยข้อมูลที่ตรงกับเงื่อนไขการผลิตจริง ถือว่าแต่ละขั้นตอนเป็นเหมือนประตูหลักฐาน: หากไม่ตรงตามเกณฑ์ ให้หยุดการเปิดตัวชั่วคราว ปิดช่องว่าง จากนั้นจึงขยายการใช้งานเท่านั้น

3

เพิ่มการตรวจสอบโดยเจ้าหน้าที่สำหรับการคาดการณ์ที่มีความมั่นใจต่ำหรือมีผลกระทบสูง

เพิ่มการตรวจสอบโดยเจ้าหน้าที่สำหรับการคาดการณ์ที่มีความมั่นใจต่ำหรือมีผลกระทบสูง ถือว่าแต่ละขั้นตอนเป็นเหมือนประตูหลักฐาน: หากไม่ตรงตามเกณฑ์ ให้หยุดการเปิดตัวชั่วคราว ปิดช่องว่าง จากนั้นจึงขยายการใช้งานเท่านั้น

4

ติดตามการเคลื่อนตัวของโมเดลและตรวจสอบความถูกต้องอีกครั้งหลังจากการเปลี่ยนแปลงกล้องหรือชุดข้อมูล

ติดตามการเคลื่อนตัวของโมเดลและตรวจสอบความถูกต้องอีกครั้งหลังจากการเปลี่ยนแปลงกล้องหรือชุดข้อมูล ถือว่าแต่ละขั้นตอนเป็นเหมือนประตูหลักฐาน: หากไม่ตรงตามเกณฑ์ ให้หยุดการเปิดตัวชั่วคราว ปิดช่องว่าง จากนั้นจึงขยายการใช้งานเท่านั้น

สำรวจต่อไป