คู่มือพื้นฐาน

การลดขนาดมิติ

การลดขนาดจะย่อข้อมูลจากหลายคอลัมน์ (คุณลักษณะ) เหลือเพียงไม่กี่คอลัมน์โดยยังคงรักษาโครงสร้างที่สำคัญไว้

ภาพรวม

การลดขนาดจะย่อข้อมูลจากหลายคอลัมน์ (คุณลักษณะ) เหลือเพียงไม่กี่คอลัมน์โดยยังคงรักษาโครงสร้างที่สำคัญไว้ มันต่อสู้กับ 'คำสาปแห่งมิติ' เพิ่มความเร็วให้กับโมเดล และช่วยให้คุณเห็นภาพข้อมูลที่ซับซ้อนในแบบ 2 มิติหรือ 3 มิติได้อย่างแท้จริง

การลดขนาดมิติอยู่ในชุดเครื่องมือ AI หลัก เมื่อคุณเข้าใจ หัวข้อ AI อื่นๆ จะประเมินและเปรียบเทียบได้ง่ายขึ้น

เจาะลึก

ชุดข้อมูลจริงมักมีคุณสมบัตินับร้อยหรือนับพัน: ทุกพิกเซลในรูปภาพ ทุกคำในคำศัพท์ ทุกเซ็นเซอร์บนเครื่อง ในพื้นที่มิติสูงดังกล่าว จุดข้อมูลจะกระจัดกระจายและห่างกัน การวัดระยะทางไม่น่าเชื่อถือ และแบบจำลองมีแนวโน้มที่จะมีสัญญาณรบกวนมากเกินไป นี่คือคำสาปแห่งมิติ การลดขนาดจะจับคู่ข้อมูลในมิติที่น้อยลงมากโดยยังคงรักษาความสัมพันธ์ที่มีความหมายไว้ PCA ทำสิ่งนี้เป็นเส้นตรงโดยค้นหาทิศทางที่มีความแปรปรวนมากที่สุด t-SNE และ UMAP เป็นแบบไม่เป็นเชิงเส้นและเก่งในการเปิดเผยกลุ่มสำหรับการแสดงภาพ การลดขนาดจะลบคุณลักษณะที่ซ้ำซ้อนหรือเสียงรบกวน ตัดหน่วยความจำและการคำนวณ และบ่อยครั้งจะปรับปรุงความแม่นยำของโมเดลดาวน์สตรีม เนื่องจากมีสัญญาณที่ไม่เกี่ยวข้องน้อยกว่าที่จะสร้างความสับสน

ข้อมูลเชิงลึกทางเทคนิค

PCA ทำงานโดยการคำนวณความแปรปรวนร่วมของคุณลักษณะต่างๆ และค้นหาเวกเตอร์ลักษณะเฉพาะ ซึ่งเป็น 'องค์ประกอบหลัก' ที่ชี้ไปตามทิศทางของความแปรปรวนสูงสุด คุณเก็บส่วนประกอบอันดับต้นๆ และข้อมูลโปรเจ็กต์ไว้บนส่วนประกอบเหล่านั้น โดยละทิ้งทิศทางที่มีความแปรปรวนต่ำซึ่งส่วนใหญ่เป็นสัญญาณรบกวน t-SNE และ UMAP จำลองความสัมพันธ์เพื่อนบ้านแทน โดยพยายามเก็บจุดที่อยู่ใกล้ในมิติสูงไว้ใกล้ในแผนที่มิติต่ำ UMAP สร้างกราฟของจุดใกล้เคียง ซึ่งทำให้เร็วกว่า t-SNE และดีกว่าในการรักษาโครงสร้างระดับโลกที่กว้างขึ้น

การเรียนรู้การลดขนาดมิติ

การลดขนาดจะย่อข้อมูลจากหลายคอลัมน์ (คุณลักษณะ) เหลือเพียงไม่กี่คอลัมน์โดยยังคงรักษาโครงสร้างที่สำคัญไว้ มันต่อสู้กับ 'คำสาปแห่งมิติ' เพิ่มความเร็วให้กับโมเดล และช่วยให้คุณเห็นภาพข้อมูลที่ซับซ้อนในแบบ 2 มิติหรือ 3 มิติได้อย่างแท้จริง การลดขนาดมิติอยู่ในชุดเครื่องมือ AI หลัก เมื่อคุณเข้าใจ หัวข้อ AI อื่นๆ จะประเมินและเปรียบเทียบได้ง่ายขึ้น เพื่อสร้างความเข้าใจอย่างลึกซึ้ง ให้ถือว่าการลดขนาดเป็นรูปแบบการดำเนินงาน ไม่ใช่คุณลักษณะเดียว: กำหนดผลลัพธ์ที่ต้องการ ชี้แจงสมมติฐาน และแยกสิ่งที่ระบบสามารถทำได้อย่างน่าเชื่อถือจากสิ่งที่ยังคงต้องใช้วิจารณญาณจากผู้เชี่ยวชาญ

ในทางปฏิบัติ ทีมที่แข็งแกร่งที่ใช้ Dimensionality Reduction จะสร้างโมเดลเชิงแนวคิดที่แข็งแกร่งก่อน จากนั้นจึงจับคู่โมเดลเหล่านั้นกับข้อจำกัดในการผลิตจริง โดยจะบันทึกเกณฑ์ความสำเร็จที่ชัดเจน ทดสอบกับข้อมูลและขั้นตอนการทำงานที่สมจริง และทำซ้ำตามรูปแบบความล้มเหลวที่สังเกตได้ แทนที่จะชนะการวัดประสิทธิภาพเพียงครั้งเดียว นี่คือจุดที่ความเข้าใจทางทฤษฎีกลายเป็นความสามารถที่คงทนของผลิตภัณฑ์ นโยบาย และการดำเนินงาน

ช่วยให้คุณแยกคำกล่าวอ้างทางเทคนิคที่ชัดเจนออกจากภาษาทางการตลาดได้ ในเวลาเดียวกัน ทีมต่างๆ อาจใช้คำเดียวกันต่างกัน ดังนั้นควรกำหนดขอบเขตตั้งแต่เนิ่นๆ แนวทางที่ยืดหยุ่นที่สุดคือการรวมความเร็วของการทดลองเข้ากับวินัยในการกำกับดูแล: ดำเนินการนำร่อง จับหลักฐาน เผยแพร่บันทึกการตัดสินใจ และอัปเดตการป้องกันอย่างต่อเนื่องเมื่อพฤติกรรมของโมเดล ความคาดหวังของผู้ใช้ และข้อกำหนดด้านกฎระเบียบมีการเปลี่ยนแปลง

ผลกระทบเชิงกลยุทธ์

ช่วยให้คุณแยกคำกล่าวอ้างทางเทคนิคที่ชัดเจนออกจากภาษาทางการตลาดได้

ช่วยให้คุณแยกคำกล่าวอ้างทางเทคนิคที่ชัดเจนออกจากภาษาทางการตลาดได้ ในการปรับใช้คุณภาพสูง สิ่งนี้จะถูกแปลเป็นกฎการปฏิบัติงานที่วัดผลได้ ขอบเขตความเป็นเจ้าของ และขั้นตอนการตรวจสอบที่เกิดซ้ำ เพื่อให้ทีมสามารถปรับขนาดความมั่นใจแทนที่จะปรับขนาดความคลุมเครือ

คุณสามารถถามคำถามการใช้งานที่ดีขึ้นก่อนที่จะใช้เงินหรือเวลา

คุณสามารถถามคำถามการใช้งานที่ดีขึ้นก่อนที่จะใช้เงินหรือเวลา ในการปรับใช้คุณภาพสูง สิ่งนี้จะถูกแปลเป็นกฎการปฏิบัติงานที่วัดผลได้ ขอบเขตความเป็นเจ้าของ และขั้นตอนการตรวจสอบที่เกิดซ้ำ เพื่อให้ทีมสามารถปรับขนาดความมั่นใจแทนที่จะปรับขนาดความคลุมเครือ

ทีมที่มีความเข้าใจร่วมกันจะตัดสินใจเกี่ยวกับผลิตภัณฑ์ นโยบาย และการเรียนรู้ได้ดีขึ้น

ทีมที่มีความเข้าใจร่วมกันจะตัดสินใจเกี่ยวกับผลิตภัณฑ์ นโยบาย และการเรียนรู้ได้ดีขึ้น ในการปรับใช้คุณภาพสูง สิ่งนี้จะถูกแปลเป็นกฎการปฏิบัติงานที่วัดผลได้ ขอบเขตความเป็นเจ้าของ และขั้นตอนการตรวจสอบที่เกิดซ้ำ เพื่อให้ทีมสามารถปรับขนาดความมั่นใจแทนที่จะปรับขนาดความคลุมเครือ

อนาคตของการลดขนาดมิติ

ขณะนี้การลดขนาดเป็นขั้นตอนปกติภายในไปป์ไลน์ AI ขนาดใหญ่ แทนที่จะเป็นงานเดี่ยวๆ UMAP กลายเป็นค่าเริ่มต้นส่วนใหญ่สำหรับการสำรวจการฝังจากภาษาขนาดใหญ่และแบบจำลองการมองเห็น โดยที่วิศวกรฉายภาพหลายพันมิติลงในแผนที่ 2 มิติเพื่อตรวจสอบสิ่งที่แบบจำลองได้เรียนรู้ คาดหวังการผสานรวมที่เข้มงวดยิ่งขึ้นกับแดชบอร์ดแบบโต้ตอบ การใช้งานที่เร่งด้วย GPU ที่เร็วขึ้นสำหรับชุดข้อมูลพันล้านแถว และการใช้งานที่เพิ่มมากขึ้นในงานการตีความ โดยที่นักวิจัยลดการเปิดใช้งานภายในของแบบจำลองเพื่อทำความเข้าใจและแก้ไขข้อบกพร่องของพฤติกรรม

การใช้งานจริงในโลกแห่งความเป็นจริง

พล็อตคำหรือประโยคที่ฝังจากโมเดลภาษาในรูปแบบ 2D ด้วย UMAP เพื่อดูว่าแนวคิดใดที่โมเดลจัดกลุ่มเข้าด้วยกัน

บีบอัดการวัดการแสดงออกของยีนหลายพันรายการต่อผู้ป่วยเป็นองค์ประกอบไม่กี่ส่วน ก่อนที่จะจัดกลุ่มชนิดย่อยของโรค

ลดฟีเจอร์รูปภาพก่อนป้อนเข้าเครื่องแยกประเภท เพื่อให้การฝึกเร็วขึ้นและมีแนวโน้มน้อยที่จะจัดวางมากเกินไป

การแสดงภาพพฤติกรรมของลูกค้าผ่านตัวชี้วัดหลายร้อยรายการในรูปแบบกระจายแบบ 2 มิติเพื่อระบุกลุ่มตลาดที่แตกต่างกัน

รูปแบบการดำเนินงาน

การลดขนาดในทางปฏิบัติ

พล็อตคำหรือประโยคที่ฝังจากโมเดลภาษาในรูปแบบ 2D ด้วย UMAP เพื่อดูว่าแนวคิดใดที่โมเดลจัดกลุ่มไว้ด้วยกัน

การพล็อตคำหรือประโยคที่ฝังจากโมเดลภาษาในแบบ 2 มิติด้วย UMAP เพื่อดูว่าแนวคิดใดที่โมเดลจัดกลุ่มไว้ด้วยกัน ทีมมักจะได้รับผลลัพธ์ที่ดีกว่า เมื่อพวกเขากำหนดเกณฑ์คุณภาพล่วงหน้า รักษาเส้นทางการยกระดับโดยมนุษย์สำหรับกรณี Edge และติดตามทั้งประสิทธิภาพการทำงานที่เพิ่มขึ้นและต้นทุนข้อผิดพลาดเมื่อเวลาผ่านไป

การลดขนาดในทางปฏิบัติ

บีบอัดการวัดการแสดงออกของยีนหลายพันรายการต่อผู้ป่วยเป็นองค์ประกอบไม่กี่ส่วน ก่อนที่จะจัดกลุ่มชนิดย่อยของโรค

การบีบอัดการวัดการแสดงออกของยีนนับพันต่อผู้ป่วยเป็นองค์ประกอบไม่กี่อย่างก่อนที่จะจัดกลุ่มชนิดย่อยของโรค ทีมมักจะได้รับผลลัพธ์ที่ดีกว่าเมื่อพวกเขากำหนดเกณฑ์คุณภาพล่วงหน้า รักษาเส้นทางการยกระดับของมนุษย์สำหรับกรณี Edge และติดตามทั้งผลผลิตที่เพิ่มขึ้นและต้นทุนข้อผิดพลาดเมื่อเวลาผ่านไป

การลดขนาดในทางปฏิบัติ

ลดฟีเจอร์รูปภาพก่อนป้อนเข้าเครื่องแยกประเภท เพื่อให้การฝึกเร็วขึ้นและมีแนวโน้มน้อยที่จะจัดวางมากเกินไป

การลดคุณสมบัติรูปภาพก่อนที่จะส่งไปยังตัวแยกประเภท เพื่อให้การฝึกอบรมเร็วขึ้นและมีแนวโน้มน้อยกว่าที่จะติดตั้งมากเกินไป ทีมมักจะได้รับผลลัพธ์ที่ดีกว่าเมื่อพวกเขากำหนดเกณฑ์คุณภาพล่วงหน้า รักษาเส้นทางการยกระดับโดยมนุษย์สำหรับกรณี Edge และติดตามทั้งประสิทธิภาพการทำงานที่เพิ่มขึ้นและต้นทุนข้อผิดพลาดเมื่อเวลาผ่านไป

การลดขนาดในทางปฏิบัติ

การแสดงภาพพฤติกรรมของลูกค้าผ่านตัวชี้วัดหลายร้อยรายการในรูปแบบกระจายแบบ 2 มิติเพื่อระบุกลุ่มตลาดที่แตกต่างกัน

การแสดงภาพพฤติกรรมของลูกค้าผ่านตัวชี้วัดหลายร้อยรายการในรูปแบบกระจาย 2 มิติเพื่อระบุกลุ่มตลาดที่แตกต่างกัน ทีมมักจะได้รับผลลัพธ์ที่ดีขึ้นเมื่อพวกเขากำหนดเกณฑ์คุณภาพไว้ล่วงหน้า รักษาเส้นทางการยกระดับโดยมนุษย์สำหรับกรณี Edge และติดตามทั้งการเพิ่มผลผลิตและต้นทุนข้อผิดพลาดเมื่อเวลาผ่านไป

ความเสี่ยงและรั้ว

!

แต่ละทีมอาจใช้คำเดียวกันต่างกัน ดังนั้นควรกำหนดขอบเขตตั้งแต่เนิ่นๆ

!

เกณฑ์มาตรฐานอาจดูแข็งแกร่งในขณะที่ประสิทธิภาพในโลกแห่งความเป็นจริงไม่เท่ากัน

!

การเพิกเฉยต่อคุณภาพข้อมูลและแผนการประเมินมักสร้างผลลัพธ์ที่เปราะบาง

แผนงานการดำเนินงาน

1

เริ่มต้นด้วยคำจำกัดความภาษาธรรมดาของผลลัพธ์ที่คุณต้องการ

เริ่มต้นด้วยคำจำกัดความภาษาธรรมดาของผลลัพธ์ที่คุณต้องการ ถือว่าแต่ละขั้นตอนเป็นเหมือนประตูหลักฐาน: หากไม่ตรงตามเกณฑ์ ให้หยุดการเปิดตัวชั่วคราว ปิดช่องว่าง จากนั้นจึงขยายการใช้งานเท่านั้น

2

เลือกเมตริกวัดความสำเร็จหนึ่งรายการและเงื่อนไขความล้มเหลวหนึ่งรายการก่อนการทดสอบ

เลือกเมตริกวัดความสำเร็จหนึ่งรายการและเงื่อนไขความล้มเหลวหนึ่งรายการก่อนการทดสอบ ถือว่าแต่ละขั้นตอนเป็นเหมือนประตูหลักฐาน: หากไม่ตรงตามเกณฑ์ ให้หยุดการเปิดตัวชั่วคราว ปิดช่องว่าง จากนั้นจึงขยายการใช้งานเท่านั้น

3

ดำเนินการนำร่องขนาดเล็กด้วยข้อมูลตัวแทน ไม่ใช่ชุดสาธิตที่สวยงาม

ดำเนินการนำร่องขนาดเล็กด้วยข้อมูลตัวแทน ไม่ใช่ชุดสาธิตที่สวยงาม ถือว่าแต่ละขั้นตอนเป็นเหมือนประตูหลักฐาน: หากไม่ตรงตามเกณฑ์ ให้หยุดการเปิดตัวชั่วคราว ปิดช่องว่าง จากนั้นจึงขยายการใช้งานเท่านั้น

4

เอกสารที่สามารถช่วยเรื่องการลดขนาดได้ และวิธีที่ง่ายกว่าจะดีกว่า

เอกสารที่สามารถช่วยเรื่องการลดขนาดได้ และวิธีที่ง่ายกว่าจะดีกว่า ถือว่าแต่ละขั้นตอนเป็นเหมือนประตูหลักฐาน: หากไม่ตรงตามเกณฑ์ ให้หยุดการเปิดตัวชั่วคราว ปิดช่องว่าง จากนั้นจึงขยายการใช้งานเท่านั้น

สำรวจต่อไป