คู่มือทางเทคนิค

หน่วยความจำแบนด์วิธสูง

หน่วยความจำแบนด์วิธสูง (HBM) คือหน่วยความจำแบบสแต็กที่วางอยู่ข้างๆ GPU ซึ่งส่งข้อมูลได้เร็วกว่า RAM ทั่วไปมาก

ภาพรวม

หน่วยความจำแบนด์วิธสูง (HBM) คือหน่วยความจำแบบสแต็กที่วางอยู่ข้างๆ GPU ซึ่งส่งข้อมูลได้เร็วกว่า RAM ทั่วไปมาก นี่คือสิ่งที่คอยป้อนอาหารให้กับตัวเร่งความเร็ว AI เพื่อป้องกันไม่ให้แกนประมวลผลอันทรงพลังไม่ได้ใช้งานในขณะที่รอน้ำหนักและข้อมูลของโมเดล

หน่วยความจำแบนด์วิธสูงเป็นองค์ประกอบทางเทคนิคที่ส่งผลต่อคุณภาพของโมเดล ต้นทุนโครงสร้างพื้นฐาน เวลาแฝง และความน่าเชื่อถือในวงกว้าง

เจาะลึก

HBM แก้ปัญหาคอขวดขั้นพื้นฐาน: ชิป AI สมัยใหม่สามารถดำเนินการได้นับล้านล้านรายการต่อวินาที แต่เฉพาะในกรณีที่ข้อมูลมาถึงเร็วเพียงพอเท่านั้น หน่วยความจำ GDDR มาตรฐานเชื่อมต่อผ่านบัสที่ค่อนข้างแคบ ในขณะที่ HBM จะซ้อน DRAM หลายตัวในแนวตั้ง และเชื่อมต่อกับสายไฟแนวตั้งเล็กๆ หลายพันเส้นที่เรียกว่า Through-silicon Vias (TSV) สแต็คเหล่านี้ตั้งอยู่บนซิลิคอนอินเตอร์โพเซอร์มิลลิเมตรจาก GPU ซึ่งให้เส้นทางข้อมูลที่กว้างมาก คิดหลายพันบิตในคราวเดียวแทนที่จะเป็นหลายร้อย ผลลัพธ์คือแบนด์วิธวัดเป็นเทราไบต์ต่อวินาที เจเนอเรชั่นต่างๆ ได้พัฒนาจาก HBM2 เป็น HBM2e, HBM3 และ HBM3e ซึ่งแต่ละรุ่นเพิ่มทั้งความจุและความเร็ว สำหรับโมเดลภาษาขนาดใหญ่ที่ต้องสตรีมน้ำหนักอย่างต่อเนื่อง ความจุและแบนด์วิดท์ของ HBM มักมีความสำคัญมากกว่าการประมวลผลแบบดิบ

ข้อมูลเชิงลึกทางเทคนิค

HBM บรรลุความเร็วด้วยความเท่าเทียมที่รุนแรงมากกว่าอัตรานาฬิกาที่สูงขึ้น โดยการสแต็ก DRAM ตายและเชื่อมโยงกับ TSV นับพัน จะทำให้มีอินเทอร์เฟซที่กว้างมาก (1,024 บิตต่อสแต็กขึ้นไป) ไบต์จำนวนมากจึงเคลื่อนที่พร้อมกัน การวางสแต็กบนอินเทอร์โพเซอร์ที่ใช้ร่วมกันข้าง GPU จะทำให้สายไฟสั้น ลดกำลังต่อบิตและเวลาแฝง ตัวเร่งความเร็วเพียงตัวเดียว เช่น NVIDIA H100 หรือ H200 จับคู่สแต็ก HBM หลายสแต็กเพื่อเข้าถึงแบนด์วิธหน่วยความจำทั้งหมดหลายเทราไบต์ต่อวินาที

การเรียนรู้หน่วยความจำแบนด์วิธสูง

หน่วยความจำแบนด์วิธสูง (HBM) คือหน่วยความจำแบบสแต็กที่วางอยู่ข้างๆ GPU ซึ่งส่งข้อมูลได้เร็วกว่า RAM ทั่วไปมาก นี่คือสิ่งที่คอยป้อนอาหารให้กับตัวเร่งความเร็ว AI เพื่อป้องกันไม่ให้แกนประมวลผลอันทรงพลังไม่ได้ใช้งานในขณะที่รอน้ำหนักและข้อมูลของโมเดล หน่วยความจำแบนด์วิธสูงเป็นองค์ประกอบทางเทคนิคที่ส่งผลต่อคุณภาพของโมเดล ต้นทุนโครงสร้างพื้นฐาน เวลาแฝง และความน่าเชื่อถือในวงกว้าง เพื่อสร้างความเข้าใจอย่างลึกซึ้ง ให้ถือว่าหน่วยความจำแบนด์วิดธ์สูงเป็นรูปแบบการทำงาน ไม่ใช่คุณลักษณะเดียว: กำหนดผลลัพธ์ที่ต้องการ ชี้แจงสมมติฐาน และแยกสิ่งที่ระบบสามารถทำได้อย่างน่าเชื่อถือจากสิ่งที่ยังต้องใช้วิจารณญาณจากผู้เชี่ยวชาญ

ในทางปฏิบัติ ทีมที่แข็งแกร่งที่ใช้หน่วยความจำแบนด์วิธสูงจะปรับสถาปัตยกรรม ข้อมูล และตัวเลือกโครงสร้างพื้นฐานให้เหมาะสมโดยเทียบกับความน่าเชื่อถือและต้นทุน โดยจะบันทึกเกณฑ์ความสำเร็จที่ชัดเจน ทดสอบกับข้อมูลและขั้นตอนการทำงานที่สมจริง และทำซ้ำตามรูปแบบความล้มเหลวที่สังเกตได้ แทนที่จะชนะการวัดประสิทธิภาพเพียงครั้งเดียว นี่คือจุดที่ความเข้าใจทางทฤษฎีกลายเป็นความสามารถที่คงทนของผลิตภัณฑ์ นโยบาย และการดำเนินงาน

การตัดสินใจด้านสถาปัตยกรรมขับเคลื่อนประสิทธิภาพและต้นทุนการดำเนินงานเป็นเวลาหลายปี ในเวลาเดียวกัน การเพิ่มประสิทธิภาพเกณฑ์มาตรฐานหนึ่งรายการสามารถซ่อนจุดอ่อนของระบบในวงกว้างได้ แนวทางที่ยืดหยุ่นที่สุดคือการรวมความเร็วของการทดลองเข้ากับวินัยในการกำกับดูแล: ดำเนินการนำร่อง จับหลักฐาน เผยแพร่บันทึกการตัดสินใจ และอัปเดตการป้องกันอย่างต่อเนื่องเมื่อพฤติกรรมของโมเดล ความคาดหวังของผู้ใช้ และข้อกำหนดด้านกฎระเบียบมีการเปลี่ยนแปลง

ผลกระทบเชิงกลยุทธ์

การตัดสินใจด้านสถาปัตยกรรมขับเคลื่อนประสิทธิภาพและต้นทุนการดำเนินงานเป็นเวลาหลายปี

การตัดสินใจด้านสถาปัตยกรรมขับเคลื่อนประสิทธิภาพและต้นทุนการดำเนินงานเป็นเวลาหลายปี ในการปรับใช้คุณภาพสูง สิ่งนี้จะถูกแปลเป็นกฎการปฏิบัติงานที่วัดผลได้ ขอบเขตความเป็นเจ้าของ และขั้นตอนการตรวจสอบที่เกิดซ้ำ เพื่อให้ทีมสามารถปรับขนาดความมั่นใจแทนที่จะปรับขนาดความคลุมเครือ

การศึกษาด้านเทคนิคช่วยให้ทีมเลือกกลุ่มที่เหมาะสม ไม่ใช่แค่กลุ่มใหม่ล่าสุด

การศึกษาด้านเทคนิคช่วยให้ทีมเลือกกลุ่มที่เหมาะสม ไม่ใช่แค่กลุ่มใหม่ล่าสุด ในการปรับใช้คุณภาพสูง สิ่งนี้จะถูกแปลเป็นกฎการปฏิบัติงานที่วัดผลได้ ขอบเขตความเป็นเจ้าของ และขั้นตอนการตรวจสอบที่เกิดซ้ำ เพื่อให้ทีมสามารถปรับขนาดความมั่นใจแทนที่จะปรับขนาดความคลุมเครือ

ตัวเลือกทางวิศวกรรมที่ดีกว่าจะช่วยลดเหตุการณ์ด้านความน่าเชื่อถือในการผลิต

ตัวเลือกทางวิศวกรรมที่ดีกว่าจะช่วยลดเหตุการณ์ด้านความน่าเชื่อถือในการผลิต ในการปรับใช้คุณภาพสูง สิ่งนี้จะถูกแปลเป็นกฎการปฏิบัติงานที่วัดผลได้ ขอบเขตความเป็นเจ้าของ และขั้นตอนการตรวจสอบที่เกิดซ้ำ เพื่อให้ทีมสามารถปรับขนาดความมั่นใจแทนที่จะปรับขนาดความคลุมเครือ

อนาคตของหน่วยความจำแบนด์วิธสูง

แบนด์วิธหน่วยความจำกลายเป็นข้อจำกัดชั้นนำของ AI ดังนั้น HBM จึงก้าวหน้าอย่างรวดเร็ว HBM3e จำหน่ายในรุ่นเรือธง โดยที่ HBM4 คาดว่าจะมีอินเทอร์เฟซที่กว้างขึ้น สแต็กที่สูงขึ้น และความจุต่อแพ็คเกจที่มากขึ้น คาดว่าจะมีการออกแบบร่วมกันที่ใกล้ชิดยิ่งขึ้นระหว่างหน่วยความจำและตรรกะ ซึ่งอาจเป็นไปได้ที่ฐานดายแบบกำหนดเองและการประมวลผลที่ใกล้หน่วยความจำ รวมถึงการแข่งขันที่รุนแรงระหว่างซัพพลายเออร์เช่น SK hynix, Samsung และ Micron เมื่อโมเดลเติบโตขึ้น การได้รับข้อมูลที่ใกล้เคียงกับการประมวลผลมากขึ้น เร็วขึ้น และใช้พลังงานน้อยลง ยังคงเป็นศูนย์กลางของความก้าวหน้าของฮาร์ดแวร์ AI

การใช้งานจริงในโลกแห่งความเป็นจริง

ถือน้ำหนักหลายสิบหรือหลายร้อยกิกะไบต์สำหรับโมเดลภาษาขนาดใหญ่ใกล้กับ GPU เพื่อให้สามารถสตรีมได้ในทุกขั้นตอนการอนุมาน

เปิดใช้งาน GPU ศูนย์ข้อมูล NVIDIA H100 และ H200 เพื่อเข้าถึงแบนด์วิดท์หน่วยความจำหลายเทราไบต์ต่อวินาทีสำหรับการฝึกอบรม

ขับเคลื่อนคลัสเตอร์การฝึกฝน AI โดยที่ GPU จำนวนมากแต่ละตัวอาศัย HBM เพื่อหลีกเลี่ยงการหยุดชะงักระหว่างการดำเนินการแบบเมทริกซ์

รองรับโมเดลรูปภาพและวิดีโอที่มีความละเอียดสูงซึ่งจะต้องย้ายเทนเซอร์การเปิดใช้งานขนาดใหญ่เข้าและออกจากหน่วยความจำอย่างรวดเร็ว

รูปแบบการดำเนินงาน

หน่วยความจำแบนด์วิธสูงในทางปฏิบัติ

ถือน้ำหนักหลายสิบหรือหลายร้อยกิกะไบต์สำหรับโมเดลภาษาขนาดใหญ่ใกล้กับ GPU เพื่อให้สามารถสตรีมได้ในทุกขั้นตอนการอนุมาน

ถือน้ำหนักหลายสิบหรือหลายร้อยกิกะไบต์สำหรับโมเดลภาษาขนาดใหญ่ใกล้กับ GPU เพื่อให้สามารถสตรีมได้ในทุกขั้นตอนการอนุมาน ทีมมักจะได้รับผลลัพธ์ที่ดีกว่าเมื่อพวกเขากำหนดเกณฑ์คุณภาพล่วงหน้า รักษาเส้นทางการยกระดับโดยมนุษย์สำหรับกรณี Edge และติดตามทั้งประสิทธิภาพการทำงานที่เพิ่มขึ้นและต้นทุนข้อผิดพลาดเมื่อเวลาผ่านไป

หน่วยความจำแบนด์วิธสูงในทางปฏิบัติ

เปิดใช้งาน GPU ศูนย์ข้อมูล NVIDIA H100 และ H200 เพื่อเข้าถึงแบนด์วิดท์หน่วยความจำหลายเทราไบต์ต่อวินาทีสำหรับการฝึกอบรม

การเปิดใช้งาน GPU ศูนย์ข้อมูล NVIDIA H100 และ H200 เข้าถึงแบนด์วิดท์หน่วยความจำหลายเทราไบต์ต่อวินาทีสำหรับการฝึกอบรม ทีมมักจะได้รับผลลัพธ์ที่ดีกว่าเมื่อพวกเขากำหนดเกณฑ์คุณภาพล่วงหน้า รักษาเส้นทางการยกระดับโดยมนุษย์สำหรับกรณี Edge และติดตามทั้งประสิทธิภาพการทำงานที่เพิ่มขึ้นและต้นทุนข้อผิดพลาดเมื่อเวลาผ่านไป

หน่วยความจำแบนด์วิธสูงในทางปฏิบัติ

ขับเคลื่อนคลัสเตอร์การฝึกฝน AI โดยที่ GPU จำนวนมากแต่ละตัวอาศัย HBM เพื่อหลีกเลี่ยงการหยุดชะงักระหว่างการดำเนินการแบบเมทริกซ์

ขับเคลื่อนคลัสเตอร์การฝึกอบรม AI โดยที่ GPU จำนวนมากแต่ละตัวพึ่งพา HBM เพื่อหลีกเลี่ยงการหยุดชะงักระหว่างการดำเนินการแบบเมทริกซ์ ทีมมักจะได้รับผลลัพธ์ที่ดีกว่าเมื่อพวกเขากำหนดเกณฑ์คุณภาพล่วงหน้า รักษาเส้นทางการยกระดับโดยมนุษย์สำหรับกรณี Edge และติดตามทั้งประสิทธิภาพการทำงานที่เพิ่มขึ้นและต้นทุนข้อผิดพลาดเมื่อเวลาผ่านไป

หน่วยความจำแบนด์วิธสูงในทางปฏิบัติ

รองรับโมเดลรูปภาพและวิดีโอที่มีความละเอียดสูงซึ่งจะต้องย้ายเทนเซอร์การเปิดใช้งานขนาดใหญ่เข้าและออกจากหน่วยความจำอย่างรวดเร็ว

รองรับโมเดลรูปภาพและวิดีโอที่มีความละเอียดสูงซึ่งจะต้องย้ายเทนเซอร์การเปิดใช้งานจำนวนมากเข้าและออกจากหน่วยความจำอย่างรวดเร็ว โดยปกติแล้วทีมจะได้รับผลลัพธ์ที่ดีกว่าเมื่อพวกเขากำหนดเกณฑ์คุณภาพล่วงหน้า รักษาเส้นทางการยกระดับโดยมนุษย์สำหรับกรณี Edge และติดตามทั้งประสิทธิภาพการทำงานที่เพิ่มขึ้นและต้นทุนข้อผิดพลาดเมื่อเวลาผ่านไป

ความเสี่ยงและรั้ว

!

การเพิ่มประสิทธิภาพเกณฑ์มาตรฐานหนึ่งรายการสามารถซ่อนจุดอ่อนของระบบในวงกว้างได้

!

ต้นทุนโครงสร้างพื้นฐานและการบำรุงรักษามักถูกประเมินต่ำไป

!

ช่องว่างด้านความปลอดภัยและความสามารถในการสังเกตสามารถเพิ่มขึ้นได้เมื่อระบบมีความซับซ้อนมากขึ้น

แผนงานการดำเนินงาน

1

กำหนดเป้าหมายเวลาแฝง คุณภาพ และต้นทุนก่อนนำไปใช้งาน

กำหนดเป้าหมายเวลาแฝง คุณภาพ และต้นทุนก่อนนำไปใช้งาน ถือว่าแต่ละขั้นตอนเป็นเหมือนประตูหลักฐาน: หากไม่ตรงตามเกณฑ์ ให้หยุดการเปิดตัวชั่วคราว ปิดช่องว่าง จากนั้นจึงขยายการใช้งานเท่านั้น

2

เกณฑ์มาตรฐานภายใต้สภาวะโหลดและข้อมูลจริง

เกณฑ์มาตรฐานภายใต้สภาวะโหลดและข้อมูลจริง ถือว่าแต่ละขั้นตอนเป็นเหมือนประตูหลักฐาน: หากไม่ตรงตามเกณฑ์ ให้หยุดการเปิดตัวชั่วคราว ปิดช่องว่าง จากนั้นจึงขยายการใช้งานเท่านั้น

3

การตรวจสอบเครื่องมือเพื่อหาข้อผิดพลาด การเบี่ยงเบน และผลกระทบต่อผู้ใช้

การตรวจสอบเครื่องมือเพื่อหาข้อผิดพลาด การเบี่ยงเบน และผลกระทบต่อผู้ใช้ ถือว่าแต่ละขั้นตอนเป็นเหมือนประตูหลักฐาน: หากไม่ตรงตามเกณฑ์ ให้หยุดการเปิดตัวชั่วคราว ปิดช่องว่าง จากนั้นจึงขยายการใช้งานเท่านั้น

4

เตรียมเส้นทางการย้อนกลับและการตอบสนองต่อเหตุการณ์ก่อนปรับขนาด

เตรียมเส้นทางการย้อนกลับและการตอบสนองต่อเหตุการณ์ก่อนปรับขนาด ถือว่าแต่ละขั้นตอนเป็นเหมือนประตูหลักฐาน: หากไม่ตรงตามเกณฑ์ ให้หยุดการเปิดตัวชั่วคราว ปิดช่องว่าง จากนั้นจึงขยายการใช้งานเท่านั้น

สำรวจต่อไป