คู่มือ CogVideo และ CogVideoX

ภาพรวม

CogVideo (2022) เป็นโมเดลข้อความเป็นวิดีโอแบบเปิดขนาดใหญ่รุ่นแรก และ CogVideoX (2024) เป็นผู้สืบทอดโอเพ่นซอร์สที่มีความสามารถมากกว่ามากจาก Tsinghua/Zhipu AI สิ่งเหล่านี้มีความสำคัญเพราะพวกเขามอบการสร้างวิดีโอคุณภาพสูงให้กับชุมชนเปิด ไม่ใช่แค่ห้องปฏิบัติการขององค์กรขนาดใหญ่เท่านั้น

CogVideo และ CogVideoX อยู่ในเวิร์กโฟลว์คอมพิวเตอร์วิทัศน์ที่ตีความหรือสร้างสื่อภาพเพื่อการวิเคราะห์ การดำเนินงาน และความคิดสร้างสรรค์

เจาะลึก

CogVideo เปิดตัวในปี 2022 สร้างขึ้นบนตัวแปลงข้อความเป็นรูปภาพ CogView2 และใช้วิธีการแบบถดถอยอัตโนมัติที่มีอัตราหลายเฟรมเพื่อสร้างคลิปสั้น กลายเป็นโมเดลข้อความเป็นวิดีโอขนาดใหญ่รุ่นแรกที่เปิดตัวอย่างเปิดเผย และรองรับข้อความแจ้งภาษาจีนและอังกฤษ CogVideoX ผู้สืบทอดตำแหน่งในปี 2024 คือการออกแบบใหม่ทั้งหมด โดยใช้โปรแกรมเปลี่ยนไฟล์อัตโนมัติแบบสาเหตุ 3 มิติเพื่อบีบอัดวิดีโอทั้งในพื้นที่และเวลา จากนั้นจึงใช้ Expert Transformer ที่มีวัตถุประสงค์ในการแพร่กระจายซึ่งร่วมกันดูแลผ่านโทเค็นข้อความและวิดีโอที่หลอมรวมเข้าด้วยกัน โมเดล CogVideoX (ในขนาดเช่นพารามิเตอร์ 2B และ 5B) สร้างวิดีโอที่มีการเคลื่อนไหวสูงต่อเนื่องกันเป็นเวลาหลายวินาทีที่ความละเอียด เช่น 720x480 และรองรับความต่อเนื่องของภาพต่อวิดีโอและวิดีโอ สิ่งสำคัญที่สุดคือ น้ำหนักและรหัสเป็นแบบสาธารณะ ซึ่งกระตุ้นให้เกิดคลื่นการปรับแต่ง เครื่องมือ และการวิจัยของชุมชน

ข้อมูลเชิงลึกทางเทคนิค

VAE เชิงสาเหตุ 3 มิติของ CogVideoX ย่อขนาดวิดีโอ Raw ให้เป็นวอลลุ่มแฝงที่มีขนาดกะทัดรัด ช่วยลดจำนวนโทเค็นลง เพื่อให้หม้อแปลงสามารถสร้างแบบจำลองลำดับที่ยาวได้ในราคาประหยัด Expert Transformer ใช้บรรทัดฐานของเลเยอร์ที่ปรับเปลี่ยนได้และเชื่อมโทเค็นข้อความและภาพเข้าด้วยกัน เพื่อให้ทั้งสองรูปแบบเชื่อมโยงกันโดยตรง ปรับปรุงการจัดตำแหน่งข้อความและวิดีโอ การฝึกอบรมแบบก้าวหน้าเกี่ยวกับการเพิ่มความละเอียดและระยะเวลา บวกกับคำบรรยายข้อมูลที่ระมัดระวัง จะทำให้ได้การเคลื่อนไหวที่ราบรื่นและมีความหมายมากขึ้น

การเรียนรู้ CogVideo และ CogVideoX

หากต้องการสร้างความเข้าใจอย่างลึกซึ้ง ให้ถือว่า CogVideo และ CogVideoX เป็นเพียงรูปแบบการทำงาน ไม่ใช่คุณลักษณะเดียว กำหนดผลลัพธ์ที่ต้องการ ชี้แจงสมมติฐาน และแยกสิ่งที่ระบบสามารถทำได้อย่างน่าเชื่อถือจากสิ่งที่ยังต้องใช้วิจารณญาณจากผู้เชี่ยวชาญ

ในทางปฏิบัติ ทีมที่แข็งแกร่งที่ใช้ CogVideo และ CogVideoX จะรักษาสมดุลระหว่างความแม่นยำกับความเป็นจริงในการปฏิบัติงาน เช่น คุณภาพของข้อมูล ความแปรปรวนของแสง และความสม่ำเสมอในการติดฉลาก โดยจะบันทึกเกณฑ์ความสำเร็จที่ชัดเจน ทดสอบกับข้อมูลและขั้นตอนการทำงานที่สมจริง และทำซ้ำตามรูปแบบความล้มเหลวที่สังเกตได้ แทนที่จะชนะการวัดประสิทธิภาพเพียงครั้งเดียว นี่คือจุดที่ความเข้าใจทางทฤษฎีกลายเป็นความสามารถที่คงทนของผลิตภัณฑ์ นโยบาย และการดำเนินงาน

Visual AI สามารถทำให้การตรวจสอบ การตรวจจับ และการแท็กเป็นอัตโนมัติในขนาดต่างๆ ในขณะเดียวกัน สิทธิ์และความยินยอมในรูปภาพอาจกลายเป็นความเสี่ยงทางกฎหมายได้หากแหล่งที่มาไม่ชัดเจน แนวทางที่ยืดหยุ่นที่สุดคือการรวมความเร็วของการทดลองเข้ากับวินัยในการกำกับดูแล: ดำเนินการนำร่อง จับหลักฐาน เผยแพร่บันทึกการตัดสินใจ และอัปเดตการป้องกันอย่างต่อเนื่องเมื่อพฤติกรรมของโมเดล ความคาดหวังของผู้ใช้ และข้อกำหนดด้านกฎระเบียบมีการเปลี่ยนแปลง

ผลกระทบเชิงกลยุทธ์

Visual AI สามารถทำให้การตรวจสอบ การตรวจจับ และการแท็กเป็นอัตโนมัติในขนาดต่างๆ

Visual AI สามารถทำให้การตรวจสอบ การตรวจจับ และการแท็กเป็นอัตโนมัติในขนาดต่างๆ ในการปรับใช้คุณภาพสูง สิ่งนี้จะถูกแปลเป็นกฎการปฏิบัติงานที่วัดผลได้ ขอบเขตความเป็นเจ้าของ และขั้นตอนการตรวจสอบที่เกิดซ้ำ เพื่อให้ทีมสามารถปรับขนาดความมั่นใจแทนที่จะปรับขนาดความคลุมเครือ

ทีมสร้างสรรค์สามารถสร้างต้นแบบแนวคิดได้รวดเร็วขึ้นโดยต้องมีการแก้ไขด้วยตนเองน้อยลง

ทีมสร้างสรรค์สามารถสร้างต้นแบบแนวคิดได้รวดเร็วขึ้นโดยต้องมีการแก้ไขด้วยตนเองน้อยลง ในการปรับใช้คุณภาพสูง สิ่งนี้จะถูกแปลเป็นกฎการปฏิบัติงานที่วัดผลได้ ขอบเขตความเป็นเจ้าของ และขั้นตอนการตรวจสอบที่เกิดซ้ำ เพื่อให้ทีมสามารถปรับขนาดความมั่นใจแทนที่จะปรับขนาดความคลุมเครือ

การดำเนินการสามารถใช้สัญญาณภาพและวิดีโอที่ก่อนหน้านี้ประมวลผลได้ยาก

การดำเนินการสามารถใช้สัญญาณภาพและวิดีโอที่ก่อนหน้านี้ประมวลผลได้ยาก ในการปรับใช้คุณภาพสูง สิ่งนี้จะถูกแปลเป็นกฎการปฏิบัติงานที่วัดผลได้ ขอบเขตความเป็นเจ้าของ และขั้นตอนการตรวจสอบที่เกิดซ้ำ เพื่อให้ทีมสามารถปรับขนาดความมั่นใจแทนที่จะปรับขนาดความคลุมเครือ

อนาคตของ CogVideo และ CogVideoX

ในฐานะหนึ่งในโมเดลวิดีโอแบบเปิดที่แข็งแกร่งที่สุด CogVideoX ยึดระบบนิเวศที่เติบโตอย่างรวดเร็วของการปรับแต่ง อะแดปเตอร์ควบคุม และส่วนขยายที่มีระยะเวลานานขึ้น คาดหวังความยาวคลิป ความละเอียด ความสมจริงของภาพเคลื่อนไหว และความสามารถในการควบคุมที่เพิ่มขึ้นอย่างต่อเนื่อง บวกกับการบูรณาการที่แน่นแฟ้นยิ่งขึ้นกับขั้นตอนการทำงานระหว่างรูปภาพเป็นวิดีโอและการแก้ไข น้ำหนักแบบเปิดหมายความว่าองค์กรไม่แสวงผลกำไร นักวิจัย และสตูดิโอขนาดเล็กสามารถสร้างวิดีโอระดับแนวหน้าได้โดยไม่ต้องเฝ้าประตูที่เป็นกรรมสิทธิ์ ช่วยเร่งการทดลองที่สร้างสรรค์และเน้นความปลอดภัย

การใช้งานจริงในโลกแห่งความเป็นจริง

การสร้างคลิปบรรยายสั้นๆ จากพรอมต์ภาษาจีนหรืออังกฤษโดยใช้น้ำหนักแบบเปิดเต็มที่

เปลี่ยนภาพนิ่งที่อัปโหลดเพียงภาพเดียวให้เป็นวิดีโอเคลื่อนไหวผ่าน CogVideoX จากภาพเป็นวิดีโอ

ปรับแต่งโมเดลเปิดอย่างละเอียดตามสไตล์หรือตัวละครที่กำหนดเองสำหรับแอนิเมชันอินดี้

นักวิจัยเปรียบเทียบวิธีการสร้างวิดีโอใหม่กับพื้นฐานแบบเปิดที่สามารถทำซ้ำได้

รูปแบบการดำเนินงาน

CogVideo และ CogVideoX ในทางปฏิบัติ

การสร้างคลิปบรรยายสั้นๆ จากพรอมต์ภาษาจีนหรืออังกฤษโดยใช้น้ำหนักแบบเปิดเต็มที่

โดยปกติทีมจะได้รับผลลัพธ์ที่ดีกว่าเมื่อพวกเขากำหนดเกณฑ์คุณภาพไว้ล่วงหน้า รักษาเส้นทางการยกระดับโดยมนุษย์สำหรับกรณี Edge และติดตามทั้งการเพิ่มผลผลิตและต้นทุนข้อผิดพลาดเมื่อเวลาผ่านไป

CogVideo และ CogVideoX ในทางปฏิบัติ

เปลี่ยนภาพนิ่งที่อัปโหลดเพียงภาพเดียวให้เป็นวิดีโอเคลื่อนไหวผ่าน CogVideoX จากภาพเป็นวิดีโอ

โดยปกติทีมจะได้รับผลลัพธ์ที่ดีกว่าเมื่อพวกเขากำหนดเกณฑ์คุณภาพไว้ล่วงหน้า รักษาเส้นทางการยกระดับโดยมนุษย์สำหรับกรณี Edge และติดตามทั้งการเพิ่มผลผลิตและต้นทุนข้อผิดพลาดเมื่อเวลาผ่านไป

CogVideo และ CogVideoX ในทางปฏิบัติ

ปรับแต่งโมเดลเปิดอย่างละเอียดตามสไตล์หรือตัวละครที่กำหนดเองสำหรับแอนิเมชันอินดี้

โดยปกติทีมจะได้รับผลลัพธ์ที่ดีกว่าเมื่อพวกเขากำหนดเกณฑ์คุณภาพไว้ล่วงหน้า รักษาเส้นทางการยกระดับโดยมนุษย์สำหรับกรณี Edge และติดตามทั้งการเพิ่มผลผลิตและต้นทุนข้อผิดพลาดเมื่อเวลาผ่านไป

CogVideo และ CogVideoX ในทางปฏิบัติ

นักวิจัยเปรียบเทียบวิธีการสร้างวิดีโอใหม่กับพื้นฐานแบบเปิดที่สามารถทำซ้ำได้

โดยปกติทีมจะได้รับผลลัพธ์ที่ดีกว่าเมื่อพวกเขากำหนดเกณฑ์คุณภาพไว้ล่วงหน้า รักษาเส้นทางการยกระดับโดยมนุษย์สำหรับกรณี Edge และติดตามทั้งการเพิ่มผลผลิตและต้นทุนข้อผิดพลาดเมื่อเวลาผ่านไป

ความเสี่ยงและรั้ว

!

สิทธิ์และความยินยอมในรูปภาพอาจกลายเป็นความเสี่ยงทางกฎหมายได้หากแหล่งที่มาไม่ชัดเจน

!

ประสิทธิภาพของโมเดลอาจแตกต่างกันไปตามสภาพแสง ข้อมูลประชากร และสภาพแวดล้อม

!

ผลบวกลวงอาจไม่สังเกตเห็นเว้นแต่จะมีการตรวจสอบเกณฑ์ความเชื่อมั่น

แผนงานการดำเนินงาน

1

กำหนดเกณฑ์การยอมรับสำหรับความแม่นยำ การเรียกคืน และต้นทุนข้อผิดพลาด

ถือว่านี่เป็นประตูหลักฐาน: หากไม่ตรงตามเกณฑ์ ให้หยุดการเปิดตัวชั่วคราว ปิดช่องว่าง จากนั้นจึงขยายการใช้งานเท่านั้น

2

ทดสอบด้วยข้อมูลที่ตรงกับเงื่อนไขการผลิตจริง

ถือว่านี่เป็นประตูหลักฐาน: หากไม่ตรงตามเกณฑ์ ให้หยุดการเปิดตัวชั่วคราว ปิดช่องว่าง จากนั้นจึงขยายการใช้งานเท่านั้น

3

เพิ่มการตรวจสอบโดยเจ้าหน้าที่สำหรับการคาดการณ์ที่มีความมั่นใจต่ำหรือมีผลกระทบสูง

ถือว่านี่เป็นประตูหลักฐาน: หากไม่ตรงตามเกณฑ์ ให้หยุดการเปิดตัวชั่วคราว ปิดช่องว่าง จากนั้นจึงขยายการใช้งานเท่านั้น

4

ติดตามการเคลื่อนตัวของโมเดลและตรวจสอบความถูกต้องอีกครั้งหลังจากการเปลี่ยนแปลงกล้องหรือชุดข้อมูล

ถือว่านี่เป็นประตูหลักฐาน: หากไม่ตรงตามเกณฑ์ ให้หยุดการเปิดตัวชั่วคราว ปิดช่องว่าง จากนั้นจึงขยายการใช้งานเท่านั้น

สำรวจต่อไป

คอมพิวเตอร์วิทัศน์

ทำความเข้าใจระบบพื้นฐานที่ขับเคลื่อน Visual AI

อ่านคู่มือ

การสร้างภาพ AI

สำรวจเวิร์กโฟลว์การสร้างและการแลกเปลี่ยนแบบจำลอง

อ่านคู่มือ

CogVideo และ CogVideoX

ภาพรวม

เจาะลึก

ข้อมูลเชิงลึกทางเทคนิค

การเรียนรู้ CogVideo และ CogVideoX

ผลกระทบเชิงกลยุทธ์

อนาคตของ CogVideo และ CogVideoX

การใช้งานจริงในโลกแห่งความเป็นจริง

รูปแบบการดำเนินงาน

CogVideo และ CogVideoX ในทางปฏิบัติ

CogVideo และ CogVideoX ในทางปฏิบัติ

CogVideo และ CogVideoX ในทางปฏิบัติ

CogVideo และ CogVideoX ในทางปฏิบัติ

ความเสี่ยงและรั้ว

แผนงานการดำเนินงาน

สำรวจต่อไป

คอมพิวเตอร์วิทัศน์

การสร้างภาพ AI

Related guides