ภาพรวม
CogVideo (2022) เป็นโมเดลข้อความเป็นวิดีโอแบบเปิดขนาดใหญ่รุ่นแรก และ CogVideoX (2024) เป็นผู้สืบทอดโอเพ่นซอร์สที่มีความสามารถมากกว่ามากจาก Tsinghua/Zhipu AI สิ่งเหล่านี้มีความสำคัญเพราะพวกเขามอบการสร้างวิดีโอคุณภาพสูงให้กับชุมชนเปิด ไม่ใช่แค่ห้องปฏิบัติการขององค์กรขนาดใหญ่เท่านั้น
CogVideo และ CogVideoX อยู่ในเวิร์กโฟลว์คอมพิวเตอร์วิทัศน์ที่ตีความหรือสร้างสื่อภาพเพื่อการวิเคราะห์ การดำเนินงาน และความคิดสร้างสรรค์
เจาะลึก
CogVideo เปิดตัวในปี 2022 สร้างขึ้นบนตัวแปลงข้อความเป็นรูปภาพ CogView2 และใช้วิธีการแบบถดถอยอัตโนมัติที่มีอัตราหลายเฟรมเพื่อสร้างคลิปสั้น กลายเป็นโมเดลข้อความเป็นวิดีโอขนาดใหญ่รุ่นแรกที่เปิดตัวอย่างเปิดเผย และรองรับข้อความแจ้งภาษาจีนและอังกฤษ CogVideoX ผู้สืบทอดตำแหน่งในปี 2024 คือการออกแบบใหม่ทั้งหมด โดยใช้โปรแกรมเปลี่ยนไฟล์อัตโนมัติแบบสาเหตุ 3 มิติเพื่อบีบอัดวิดีโอทั้งในพื้นที่และเวลา จากนั้นจึงใช้ Expert Transformer ที่มีวัตถุประสงค์ในการแพร่กระจายซึ่งร่วมกันดูแลผ่านโทเค็นข้อความและวิดีโอที่หลอมรวมเข้าด้วยกัน โมเดล CogVideoX (ในขนาดเช่นพารามิเตอร์ 2B และ 5B) สร้างวิดีโอที่มีการเคลื่อนไหวสูงต่อเนื่องกันเป็นเวลาหลายวินาทีที่ความละเอียด เช่น 720x480 และรองรับความต่อเนื่องของภาพต่อวิดีโอและวิดีโอ สิ่งสำคัญที่สุดคือ น้ำหนักและรหัสเป็นแบบสาธารณะ ซึ่งกระตุ้นให้เกิดคลื่นการปรับแต่ง เครื่องมือ และการวิจัยของชุมชน
ข้อมูลเชิงลึกทางเทคนิค
VAE เชิงสาเหตุ 3 มิติของ CogVideoX ย่อขนาดวิดีโอ Raw ให้เป็นวอลลุ่มแฝงที่มีขนาดกะทัดรัด ช่วยลดจำนวนโทเค็นลง เพื่อให้หม้อแปลงสามารถสร้างแบบจำลองลำดับที่ยาวได้ในราคาประหยัด Expert Transformer ใช้บรรทัดฐานของเลเยอร์ที่ปรับเปลี่ยนได้และเชื่อมโทเค็นข้อความและภาพเข้าด้วยกัน เพื่อให้ทั้งสองรูปแบบเชื่อมโยงกันโดยตรง ปรับปรุงการจัดตำแหน่งข้อความและวิดีโอ การฝึกอบรมแบบก้าวหน้าเกี่ยวกับการเพิ่มความละเอียดและระยะเวลา บวกกับคำบรรยายข้อมูลที่ระมัดระวัง จะทำให้ได้การเคลื่อนไหวที่ราบรื่นและมีความหมายมากขึ้น
การเรียนรู้ CogVideo และ CogVideoX
CogVideo (2022) เป็นโมเดลข้อความเป็นวิดีโอแบบเปิดขนาดใหญ่รุ่นแรก และ CogVideoX (2024) เป็นผู้สืบทอดโอเพ่นซอร์สที่มีความสามารถมากกว่ามากจาก Tsinghua/Zhipu AI สิ่งเหล่านี้มีความสำคัญเพราะพวกเขามอบการสร้างวิดีโอคุณภาพสูงให้กับชุมชนเปิด ไม่ใช่แค่ห้องปฏิบัติการขององค์กรขนาดใหญ่เท่านั้น CogVideo และ CogVideoX อยู่ในเวิร์กโฟลว์คอมพิวเตอร์วิทัศน์ที่ตีความหรือสร้างสื่อภาพเพื่อการวิเคราะห์ การดำเนินงาน และความคิดสร้างสรรค์ เพื่อสร้างความเข้าใจอย่างลึกซึ้ง ให้ปฏิบัติต่อ CogVideo และ CogVideoX เสมือนเป็นโมเดลการดำเนินงาน ไม่ใช่คุณลักษณะเดียว: กำหนดผลลัพธ์ที่ต้องการ ชี้แจงสมมติฐาน และแยกสิ่งที่ระบบสามารถทำได้อย่างน่าเชื่อถือจากสิ่งที่ยังต้องใช้วิจารณญาณจากผู้เชี่ยวชาญ
ในทางปฏิบัติ ทีมที่แข็งแกร่งที่ใช้ CogVideo และ CogVideoX จะรักษาสมดุลระหว่างความแม่นยำกับความเป็นจริงในการปฏิบัติงาน เช่น คุณภาพของข้อมูล ความแปรปรวนของแสง และความสม่ำเสมอในการติดฉลาก โดยจะบันทึกเกณฑ์ความสำเร็จที่ชัดเจน ทดสอบกับข้อมูลและขั้นตอนการทำงานที่สมจริง และทำซ้ำตามรูปแบบความล้มเหลวที่สังเกตได้ แทนที่จะชนะการวัดประสิทธิภาพเพียงครั้งเดียว นี่คือจุดที่ความเข้าใจทางทฤษฎีกลายเป็นความสามารถที่คงทนของผลิตภัณฑ์ นโยบาย และการดำเนินงาน
Visual AI สามารถทำให้การตรวจสอบ การตรวจจับ และการแท็กเป็นอัตโนมัติในขนาดต่างๆ ในขณะเดียวกัน สิทธิ์และความยินยอมในรูปภาพอาจกลายเป็นความเสี่ยงทางกฎหมายได้หากแหล่งที่มาไม่ชัดเจน แนวทางที่ยืดหยุ่นที่สุดคือการรวมความเร็วของการทดลองเข้ากับวินัยในการกำกับดูแล: ดำเนินการนำร่อง จับหลักฐาน เผยแพร่บันทึกการตัดสินใจ และอัปเดตการป้องกันอย่างต่อเนื่องเมื่อพฤติกรรมของโมเดล ความคาดหวังของผู้ใช้ และข้อกำหนดด้านกฎระเบียบมีการเปลี่ยนแปลง
ผลกระทบเชิงกลยุทธ์
Visual AI สามารถทำให้การตรวจสอบ การตรวจจับ และการแท็กเป็นอัตโนมัติในขนาดต่างๆ
Visual AI สามารถทำให้การตรวจสอบ การตรวจจับ และการแท็กเป็นอัตโนมัติในขนาดต่างๆ ในการปรับใช้คุณภาพสูง สิ่งนี้จะถูกแปลเป็นกฎการปฏิบัติงานที่วัดผลได้ ขอบเขตความเป็นเจ้าของ และขั้นตอนการตรวจสอบที่เกิดซ้ำ เพื่อให้ทีมสามารถปรับขนาดความมั่นใจแทนที่จะปรับขนาดความคลุมเครือ
ทีมสร้างสรรค์สามารถสร้างต้นแบบแนวคิดได้รวดเร็วขึ้นโดยต้องมีการแก้ไขด้วยตนเองน้อยลง
ทีมสร้างสรรค์สามารถสร้างต้นแบบแนวคิดได้รวดเร็วขึ้นโดยต้องมีการแก้ไขด้วยตนเองน้อยลง ในการปรับใช้คุณภาพสูง สิ่งนี้จะถูกแปลเป็นกฎการปฏิบัติงานที่วัดผลได้ ขอบเขตความเป็นเจ้าของ และขั้นตอนการตรวจสอบที่เกิดซ้ำ เพื่อให้ทีมสามารถปรับขนาดความมั่นใจแทนที่จะปรับขนาดความคลุมเครือ
การดำเนินการสามารถใช้สัญญาณภาพและวิดีโอที่ก่อนหน้านี้ประมวลผลได้ยาก
การดำเนินการสามารถใช้สัญญาณภาพและวิดีโอที่ก่อนหน้านี้ประมวลผลได้ยาก ในการปรับใช้คุณภาพสูง สิ่งนี้จะถูกแปลเป็นกฎการปฏิบัติงานที่วัดผลได้ ขอบเขตความเป็นเจ้าของ และขั้นตอนการตรวจสอบที่เกิดซ้ำ เพื่อให้ทีมสามารถปรับขนาดความมั่นใจแทนที่จะปรับขนาดความคลุมเครือ
การใช้งานจริงในโลกแห่งความเป็นจริง
การสร้างคลิปบรรยายสั้นๆ จากพรอมต์ภาษาจีนหรืออังกฤษโดยใช้น้ำหนักแบบเปิดเต็มที่
เปลี่ยนภาพนิ่งที่อัปโหลดเพียงภาพเดียวให้เป็นวิดีโอเคลื่อนไหวผ่าน CogVideoX จากภาพเป็นวิดีโอ
ปรับแต่งโมเดลเปิดอย่างละเอียดตามสไตล์หรือตัวละครที่กำหนดเองสำหรับแอนิเมชันอินดี้
นักวิจัยเปรียบเทียบวิธีการสร้างวิดีโอใหม่กับพื้นฐานแบบเปิดที่สามารถทำซ้ำได้
รูปแบบการดำเนินงาน
CogVideo และ CogVideoX ในทางปฏิบัติ
การสร้างคลิปบรรยายสั้นๆ จากพรอมต์ภาษาจีนหรืออังกฤษโดยใช้น้ำหนักแบบเปิดเต็มที่
การสร้างคลิปบรรยายสั้นๆ จากพรอมต์ภาษาจีนหรืออังกฤษโดยใช้น้ำหนักแบบเปิด ทีมมักจะได้รับผลลัพธ์ที่ดีกว่าเมื่อพวกเขากำหนดเกณฑ์คุณภาพล่วงหน้า รักษาเส้นทางการยกระดับโดยมนุษย์สำหรับกรณี Edge และติดตามทั้งประสิทธิภาพการทำงานที่เพิ่มขึ้นและต้นทุนข้อผิดพลาดเมื่อเวลาผ่านไป
CogVideo และ CogVideoX ในทางปฏิบัติ
เปลี่ยนภาพนิ่งที่อัปโหลดเพียงภาพเดียวให้เป็นวิดีโอเคลื่อนไหวผ่าน CogVideoX จากภาพเป็นวิดีโอ
การเปลี่ยนภาพนิ่งที่อัปโหลดเพียงภาพเดียวให้เป็นวิดีโอที่เคลื่อนไหวผ่าน CogVideoX ทีมงานจากภาพสู่วิดีโอมักจะได้รับผลลัพธ์ที่ดีกว่า เมื่อพวกเขากำหนดเกณฑ์คุณภาพล่วงหน้า รักษาเส้นทางการยกระดับโดยมนุษย์สำหรับกรณี Edge และติดตามทั้งประสิทธิภาพที่เพิ่มขึ้นและต้นทุนข้อผิดพลาดเมื่อเวลาผ่านไป
CogVideo และ CogVideoX ในทางปฏิบัติ
ปรับแต่งโมเดลเปิดอย่างละเอียดตามสไตล์หรือตัวละครที่กำหนดเองสำหรับแอนิเมชันอินดี้
การปรับแต่งโมเดลแบบเปิดอย่างละเอียดตามสไตล์หรือตัวละครที่กำหนดเองสำหรับแอนิเมชันอินดี้ ทีมมักจะได้รับผลลัพธ์ที่ดีกว่าเมื่อพวกเขากำหนดเกณฑ์คุณภาพล่วงหน้า รักษาเส้นทางการยกระดับโดยมนุษย์สำหรับ Edge Case และติดตามทั้งประสิทธิภาพการทำงานที่เพิ่มขึ้นและต้นทุนข้อผิดพลาดเมื่อเวลาผ่านไป
CogVideo และ CogVideoX ในทางปฏิบัติ
นักวิจัยเปรียบเทียบวิธีการสร้างวิดีโอใหม่กับพื้นฐานแบบเปิดที่สามารถทำซ้ำได้
นักวิจัยเปรียบเทียบวิธีการสร้างวิดีโอใหม่กับพื้นฐานแบบเปิดที่ทำซ้ำได้ ทีมมักจะได้รับผลลัพธ์ที่ดีกว่าเมื่อพวกเขากำหนดเกณฑ์คุณภาพล่วงหน้า รักษาเส้นทางการยกระดับโดยมนุษย์สำหรับกรณี Edge และติดตามทั้งประสิทธิภาพการผลิตที่เพิ่มขึ้นและต้นทุนข้อผิดพลาดเมื่อเวลาผ่านไป
ความเสี่ยงและรั้ว
สิทธิ์และความยินยอมในรูปภาพอาจกลายเป็นความเสี่ยงทางกฎหมายได้หากแหล่งที่มาไม่ชัดเจน
ประสิทธิภาพของโมเดลอาจแตกต่างกันไปตามสภาพแสง ข้อมูลประชากร และสภาพแวดล้อม
ผลบวกลวงอาจไม่สังเกตเห็นเว้นแต่จะมีการตรวจสอบเกณฑ์ความเชื่อมั่น
แผนงานการดำเนินงาน
กำหนดเกณฑ์การยอมรับสำหรับความแม่นยำ การเรียกคืน และต้นทุนข้อผิดพลาด
กำหนดเกณฑ์การยอมรับสำหรับความแม่นยำ การเรียกคืน และต้นทุนข้อผิดพลาด ถือว่าแต่ละขั้นตอนเป็นเหมือนประตูหลักฐาน: หากไม่ตรงตามเกณฑ์ ให้หยุดการเปิดตัวชั่วคราว ปิดช่องว่าง จากนั้นจึงขยายการใช้งานเท่านั้น
ทดสอบด้วยข้อมูลที่ตรงกับเงื่อนไขการผลิตจริง
ทดสอบด้วยข้อมูลที่ตรงกับเงื่อนไขการผลิตจริง ถือว่าแต่ละขั้นตอนเป็นเหมือนประตูหลักฐาน: หากไม่ตรงตามเกณฑ์ ให้หยุดการเปิดตัวชั่วคราว ปิดช่องว่าง จากนั้นจึงขยายการใช้งานเท่านั้น
เพิ่มการตรวจสอบโดยเจ้าหน้าที่สำหรับการคาดการณ์ที่มีความมั่นใจต่ำหรือมีผลกระทบสูง
เพิ่มการตรวจสอบโดยเจ้าหน้าที่สำหรับการคาดการณ์ที่มีความมั่นใจต่ำหรือมีผลกระทบสูง ถือว่าแต่ละขั้นตอนเป็นเหมือนประตูหลักฐาน: หากไม่ตรงตามเกณฑ์ ให้หยุดการเปิดตัวชั่วคราว ปิดช่องว่าง จากนั้นจึงขยายการใช้งานเท่านั้น
ติดตามการเคลื่อนตัวของโมเดลและตรวจสอบความถูกต้องอีกครั้งหลังจากการเปลี่ยนแปลงกล้องหรือชุดข้อมูล
ติดตามการเคลื่อนตัวของโมเดลและตรวจสอบความถูกต้องอีกครั้งหลังจากการเปลี่ยนแปลงกล้องหรือชุดข้อมูล ถือว่าแต่ละขั้นตอนเป็นเหมือนประตูหลักฐาน: หากไม่ตรงตามเกณฑ์ ให้หยุดการเปิดตัวชั่วคราว ปิดช่องว่าง จากนั้นจึงขยายการใช้งานเท่านั้น