คู่มือ AI แบบเห็นภาพ

CogVideo และ CogVideoX

CogVideo (2022) เป็นโมเดลข้อความเป็นวิดีโอแบบเปิดขนาดใหญ่รุ่นแรก และ CogVideoX (2024) เป็นผู้สืบทอดโอเพ่นซอร์สที่มีความสามารถมากกว่ามากจาก Tsinghua/Zhipu AI

ภาพรวม

CogVideo (2022) เป็นโมเดลข้อความเป็นวิดีโอแบบเปิดขนาดใหญ่รุ่นแรก และ CogVideoX (2024) เป็นผู้สืบทอดโอเพ่นซอร์สที่มีความสามารถมากกว่ามากจาก Tsinghua/Zhipu AI สิ่งเหล่านี้มีความสำคัญเพราะพวกเขามอบการสร้างวิดีโอคุณภาพสูงให้กับชุมชนเปิด ไม่ใช่แค่ห้องปฏิบัติการขององค์กรขนาดใหญ่เท่านั้น

CogVideo และ CogVideoX อยู่ในเวิร์กโฟลว์คอมพิวเตอร์วิทัศน์ที่ตีความหรือสร้างสื่อภาพเพื่อการวิเคราะห์ การดำเนินงาน และความคิดสร้างสรรค์

เจาะลึก

CogVideo เปิดตัวในปี 2022 สร้างขึ้นบนตัวแปลงข้อความเป็นรูปภาพ CogView2 และใช้วิธีการแบบถดถอยอัตโนมัติที่มีอัตราหลายเฟรมเพื่อสร้างคลิปสั้น กลายเป็นโมเดลข้อความเป็นวิดีโอขนาดใหญ่รุ่นแรกที่เปิดตัวอย่างเปิดเผย และรองรับข้อความแจ้งภาษาจีนและอังกฤษ CogVideoX ผู้สืบทอดตำแหน่งในปี 2024 คือการออกแบบใหม่ทั้งหมด โดยใช้โปรแกรมเปลี่ยนไฟล์อัตโนมัติแบบสาเหตุ 3 มิติเพื่อบีบอัดวิดีโอทั้งในพื้นที่และเวลา จากนั้นจึงใช้ Expert Transformer ที่มีวัตถุประสงค์ในการแพร่กระจายซึ่งร่วมกันดูแลผ่านโทเค็นข้อความและวิดีโอที่หลอมรวมเข้าด้วยกัน โมเดล CogVideoX (ในขนาดเช่นพารามิเตอร์ 2B และ 5B) สร้างวิดีโอที่มีการเคลื่อนไหวสูงต่อเนื่องกันเป็นเวลาหลายวินาทีที่ความละเอียด เช่น 720x480 และรองรับความต่อเนื่องของภาพต่อวิดีโอและวิดีโอ สิ่งสำคัญที่สุดคือ น้ำหนักและรหัสเป็นแบบสาธารณะ ซึ่งกระตุ้นให้เกิดคลื่นการปรับแต่ง เครื่องมือ และการวิจัยของชุมชน

ข้อมูลเชิงลึกทางเทคนิค

VAE เชิงสาเหตุ 3 มิติของ CogVideoX ย่อขนาดวิดีโอ Raw ให้เป็นวอลลุ่มแฝงที่มีขนาดกะทัดรัด ช่วยลดจำนวนโทเค็นลง เพื่อให้หม้อแปลงสามารถสร้างแบบจำลองลำดับที่ยาวได้ในราคาประหยัด Expert Transformer ใช้บรรทัดฐานของเลเยอร์ที่ปรับเปลี่ยนได้และเชื่อมโทเค็นข้อความและภาพเข้าด้วยกัน เพื่อให้ทั้งสองรูปแบบเชื่อมโยงกันโดยตรง ปรับปรุงการจัดตำแหน่งข้อความและวิดีโอ การฝึกอบรมแบบก้าวหน้าเกี่ยวกับการเพิ่มความละเอียดและระยะเวลา บวกกับคำบรรยายข้อมูลที่ระมัดระวัง จะทำให้ได้การเคลื่อนไหวที่ราบรื่นและมีความหมายมากขึ้น

การเรียนรู้ CogVideo และ CogVideoX

CogVideo (2022) เป็นโมเดลข้อความเป็นวิดีโอแบบเปิดขนาดใหญ่รุ่นแรก และ CogVideoX (2024) เป็นผู้สืบทอดโอเพ่นซอร์สที่มีความสามารถมากกว่ามากจาก Tsinghua/Zhipu AI สิ่งเหล่านี้มีความสำคัญเพราะพวกเขามอบการสร้างวิดีโอคุณภาพสูงให้กับชุมชนเปิด ไม่ใช่แค่ห้องปฏิบัติการขององค์กรขนาดใหญ่เท่านั้น CogVideo และ CogVideoX อยู่ในเวิร์กโฟลว์คอมพิวเตอร์วิทัศน์ที่ตีความหรือสร้างสื่อภาพเพื่อการวิเคราะห์ การดำเนินงาน และความคิดสร้างสรรค์ เพื่อสร้างความเข้าใจอย่างลึกซึ้ง ให้ปฏิบัติต่อ CogVideo และ CogVideoX เสมือนเป็นโมเดลการดำเนินงาน ไม่ใช่คุณลักษณะเดียว: กำหนดผลลัพธ์ที่ต้องการ ชี้แจงสมมติฐาน และแยกสิ่งที่ระบบสามารถทำได้อย่างน่าเชื่อถือจากสิ่งที่ยังต้องใช้วิจารณญาณจากผู้เชี่ยวชาญ

ในทางปฏิบัติ ทีมที่แข็งแกร่งที่ใช้ CogVideo และ CogVideoX จะรักษาสมดุลระหว่างความแม่นยำกับความเป็นจริงในการปฏิบัติงาน เช่น คุณภาพของข้อมูล ความแปรปรวนของแสง และความสม่ำเสมอในการติดฉลาก โดยจะบันทึกเกณฑ์ความสำเร็จที่ชัดเจน ทดสอบกับข้อมูลและขั้นตอนการทำงานที่สมจริง และทำซ้ำตามรูปแบบความล้มเหลวที่สังเกตได้ แทนที่จะชนะการวัดประสิทธิภาพเพียงครั้งเดียว นี่คือจุดที่ความเข้าใจทางทฤษฎีกลายเป็นความสามารถที่คงทนของผลิตภัณฑ์ นโยบาย และการดำเนินงาน

Visual AI สามารถทำให้การตรวจสอบ การตรวจจับ และการแท็กเป็นอัตโนมัติในขนาดต่างๆ ในขณะเดียวกัน สิทธิ์และความยินยอมในรูปภาพอาจกลายเป็นความเสี่ยงทางกฎหมายได้หากแหล่งที่มาไม่ชัดเจน แนวทางที่ยืดหยุ่นที่สุดคือการรวมความเร็วของการทดลองเข้ากับวินัยในการกำกับดูแล: ดำเนินการนำร่อง จับหลักฐาน เผยแพร่บันทึกการตัดสินใจ และอัปเดตการป้องกันอย่างต่อเนื่องเมื่อพฤติกรรมของโมเดล ความคาดหวังของผู้ใช้ และข้อกำหนดด้านกฎระเบียบมีการเปลี่ยนแปลง

ผลกระทบเชิงกลยุทธ์

Visual AI สามารถทำให้การตรวจสอบ การตรวจจับ และการแท็กเป็นอัตโนมัติในขนาดต่างๆ

Visual AI สามารถทำให้การตรวจสอบ การตรวจจับ และการแท็กเป็นอัตโนมัติในขนาดต่างๆ ในการปรับใช้คุณภาพสูง สิ่งนี้จะถูกแปลเป็นกฎการปฏิบัติงานที่วัดผลได้ ขอบเขตความเป็นเจ้าของ และขั้นตอนการตรวจสอบที่เกิดซ้ำ เพื่อให้ทีมสามารถปรับขนาดความมั่นใจแทนที่จะปรับขนาดความคลุมเครือ

ทีมสร้างสรรค์สามารถสร้างต้นแบบแนวคิดได้รวดเร็วขึ้นโดยต้องมีการแก้ไขด้วยตนเองน้อยลง

ทีมสร้างสรรค์สามารถสร้างต้นแบบแนวคิดได้รวดเร็วขึ้นโดยต้องมีการแก้ไขด้วยตนเองน้อยลง ในการปรับใช้คุณภาพสูง สิ่งนี้จะถูกแปลเป็นกฎการปฏิบัติงานที่วัดผลได้ ขอบเขตความเป็นเจ้าของ และขั้นตอนการตรวจสอบที่เกิดซ้ำ เพื่อให้ทีมสามารถปรับขนาดความมั่นใจแทนที่จะปรับขนาดความคลุมเครือ

การดำเนินการสามารถใช้สัญญาณภาพและวิดีโอที่ก่อนหน้านี้ประมวลผลได้ยาก

การดำเนินการสามารถใช้สัญญาณภาพและวิดีโอที่ก่อนหน้านี้ประมวลผลได้ยาก ในการปรับใช้คุณภาพสูง สิ่งนี้จะถูกแปลเป็นกฎการปฏิบัติงานที่วัดผลได้ ขอบเขตความเป็นเจ้าของ และขั้นตอนการตรวจสอบที่เกิดซ้ำ เพื่อให้ทีมสามารถปรับขนาดความมั่นใจแทนที่จะปรับขนาดความคลุมเครือ

อนาคตของ CogVideo และ CogVideoX

ในฐานะหนึ่งในโมเดลวิดีโอแบบเปิดที่แข็งแกร่งที่สุด CogVideoX ยึดระบบนิเวศที่เติบโตอย่างรวดเร็วของการปรับแต่ง อะแดปเตอร์ควบคุม และส่วนขยายที่มีระยะเวลานานขึ้น คาดหวังความยาวคลิป ความละเอียด ความสมจริงของภาพเคลื่อนไหว และความสามารถในการควบคุมที่เพิ่มขึ้นอย่างต่อเนื่อง บวกกับการบูรณาการที่แน่นแฟ้นยิ่งขึ้นกับขั้นตอนการทำงานระหว่างรูปภาพเป็นวิดีโอและการแก้ไข น้ำหนักแบบเปิดหมายความว่าองค์กรไม่แสวงผลกำไร นักวิจัย และสตูดิโอขนาดเล็กสามารถสร้างวิดีโอระดับแนวหน้าได้โดยไม่ต้องเฝ้าประตูที่เป็นกรรมสิทธิ์ ช่วยเร่งการทดลองที่สร้างสรรค์และเน้นความปลอดภัย

การใช้งานจริงในโลกแห่งความเป็นจริง

การสร้างคลิปบรรยายสั้นๆ จากพรอมต์ภาษาจีนหรืออังกฤษโดยใช้น้ำหนักแบบเปิดเต็มที่

เปลี่ยนภาพนิ่งที่อัปโหลดเพียงภาพเดียวให้เป็นวิดีโอเคลื่อนไหวผ่าน CogVideoX จากภาพเป็นวิดีโอ

ปรับแต่งโมเดลเปิดอย่างละเอียดตามสไตล์หรือตัวละครที่กำหนดเองสำหรับแอนิเมชันอินดี้

นักวิจัยเปรียบเทียบวิธีการสร้างวิดีโอใหม่กับพื้นฐานแบบเปิดที่สามารถทำซ้ำได้

รูปแบบการดำเนินงาน

CogVideo และ CogVideoX ในทางปฏิบัติ

การสร้างคลิปบรรยายสั้นๆ จากพรอมต์ภาษาจีนหรืออังกฤษโดยใช้น้ำหนักแบบเปิดเต็มที่

การสร้างคลิปบรรยายสั้นๆ จากพรอมต์ภาษาจีนหรืออังกฤษโดยใช้น้ำหนักแบบเปิด ทีมมักจะได้รับผลลัพธ์ที่ดีกว่าเมื่อพวกเขากำหนดเกณฑ์คุณภาพล่วงหน้า รักษาเส้นทางการยกระดับโดยมนุษย์สำหรับกรณี Edge และติดตามทั้งประสิทธิภาพการทำงานที่เพิ่มขึ้นและต้นทุนข้อผิดพลาดเมื่อเวลาผ่านไป

CogVideo และ CogVideoX ในทางปฏิบัติ

เปลี่ยนภาพนิ่งที่อัปโหลดเพียงภาพเดียวให้เป็นวิดีโอเคลื่อนไหวผ่าน CogVideoX จากภาพเป็นวิดีโอ

การเปลี่ยนภาพนิ่งที่อัปโหลดเพียงภาพเดียวให้เป็นวิดีโอที่เคลื่อนไหวผ่าน CogVideoX ทีมงานจากภาพสู่วิดีโอมักจะได้รับผลลัพธ์ที่ดีกว่า เมื่อพวกเขากำหนดเกณฑ์คุณภาพล่วงหน้า รักษาเส้นทางการยกระดับโดยมนุษย์สำหรับกรณี Edge และติดตามทั้งประสิทธิภาพที่เพิ่มขึ้นและต้นทุนข้อผิดพลาดเมื่อเวลาผ่านไป

CogVideo และ CogVideoX ในทางปฏิบัติ

ปรับแต่งโมเดลเปิดอย่างละเอียดตามสไตล์หรือตัวละครที่กำหนดเองสำหรับแอนิเมชันอินดี้

การปรับแต่งโมเดลแบบเปิดอย่างละเอียดตามสไตล์หรือตัวละครที่กำหนดเองสำหรับแอนิเมชันอินดี้ ทีมมักจะได้รับผลลัพธ์ที่ดีกว่าเมื่อพวกเขากำหนดเกณฑ์คุณภาพล่วงหน้า รักษาเส้นทางการยกระดับโดยมนุษย์สำหรับ Edge Case และติดตามทั้งประสิทธิภาพการทำงานที่เพิ่มขึ้นและต้นทุนข้อผิดพลาดเมื่อเวลาผ่านไป

CogVideo และ CogVideoX ในทางปฏิบัติ

นักวิจัยเปรียบเทียบวิธีการสร้างวิดีโอใหม่กับพื้นฐานแบบเปิดที่สามารถทำซ้ำได้

นักวิจัยเปรียบเทียบวิธีการสร้างวิดีโอใหม่กับพื้นฐานแบบเปิดที่ทำซ้ำได้ ทีมมักจะได้รับผลลัพธ์ที่ดีกว่าเมื่อพวกเขากำหนดเกณฑ์คุณภาพล่วงหน้า รักษาเส้นทางการยกระดับโดยมนุษย์สำหรับกรณี Edge และติดตามทั้งประสิทธิภาพการผลิตที่เพิ่มขึ้นและต้นทุนข้อผิดพลาดเมื่อเวลาผ่านไป

ความเสี่ยงและรั้ว

!

สิทธิ์และความยินยอมในรูปภาพอาจกลายเป็นความเสี่ยงทางกฎหมายได้หากแหล่งที่มาไม่ชัดเจน

!

ประสิทธิภาพของโมเดลอาจแตกต่างกันไปตามสภาพแสง ข้อมูลประชากร และสภาพแวดล้อม

!

ผลบวกลวงอาจไม่สังเกตเห็นเว้นแต่จะมีการตรวจสอบเกณฑ์ความเชื่อมั่น

แผนงานการดำเนินงาน

1

กำหนดเกณฑ์การยอมรับสำหรับความแม่นยำ การเรียกคืน และต้นทุนข้อผิดพลาด

กำหนดเกณฑ์การยอมรับสำหรับความแม่นยำ การเรียกคืน และต้นทุนข้อผิดพลาด ถือว่าแต่ละขั้นตอนเป็นเหมือนประตูหลักฐาน: หากไม่ตรงตามเกณฑ์ ให้หยุดการเปิดตัวชั่วคราว ปิดช่องว่าง จากนั้นจึงขยายการใช้งานเท่านั้น

2

ทดสอบด้วยข้อมูลที่ตรงกับเงื่อนไขการผลิตจริง

ทดสอบด้วยข้อมูลที่ตรงกับเงื่อนไขการผลิตจริง ถือว่าแต่ละขั้นตอนเป็นเหมือนประตูหลักฐาน: หากไม่ตรงตามเกณฑ์ ให้หยุดการเปิดตัวชั่วคราว ปิดช่องว่าง จากนั้นจึงขยายการใช้งานเท่านั้น

3

เพิ่มการตรวจสอบโดยเจ้าหน้าที่สำหรับการคาดการณ์ที่มีความมั่นใจต่ำหรือมีผลกระทบสูง

เพิ่มการตรวจสอบโดยเจ้าหน้าที่สำหรับการคาดการณ์ที่มีความมั่นใจต่ำหรือมีผลกระทบสูง ถือว่าแต่ละขั้นตอนเป็นเหมือนประตูหลักฐาน: หากไม่ตรงตามเกณฑ์ ให้หยุดการเปิดตัวชั่วคราว ปิดช่องว่าง จากนั้นจึงขยายการใช้งานเท่านั้น

4

ติดตามการเคลื่อนตัวของโมเดลและตรวจสอบความถูกต้องอีกครั้งหลังจากการเปลี่ยนแปลงกล้องหรือชุดข้อมูล

ติดตามการเคลื่อนตัวของโมเดลและตรวจสอบความถูกต้องอีกครั้งหลังจากการเปลี่ยนแปลงกล้องหรือชุดข้อมูล ถือว่าแต่ละขั้นตอนเป็นเหมือนประตูหลักฐาน: หากไม่ตรงตามเกณฑ์ ให้หยุดการเปิดตัวชั่วคราว ปิดช่องว่าง จากนั้นจึงขยายการใช้งานเท่านั้น

สำรวจต่อไป