技術指南

多執行個體GPU分區

多執行個體 GPU (MIG) 是一項 NVIDIA 技術,可將單一實體 GPU 分割為多個獨立的硬體分割區。

概述

多執行個體 GPU (MIG) 是一項 NVIDIA 技術,可將單一實體 GPU 分割為多個獨立的硬體分割區。這很重要,因為它可以讓一個昂貴的加速器同時處理許多小型工作負載,而不會相互幹擾。

多執行個體 GPU 分區是一個技術構建塊,會大規模影響模型品質、基礎設施成本、延遲和可靠性。

深入探討

MIG 隨 NVIDIA A100 (Ampere) 推出,並在 H100 和更新的資料中心 GPU 上繼續使用,將 GPU 劃分為最多七個獨立實例。與軟體時間切片不同,MIG 提供真正的硬體隔離:每個執行個體都有自己的專用串流多處理器 (SM)、L2 快取切片、記憶體控制器和固定的高頻寬記憶體切片。 40GB 的 A100 可以拆分為七個 5GB 實例,或更少的較大實例。每個分割區的行為就像一個較小的獨立 GPU,因此一個實例中的雜訊或崩潰的作業不會導致另一個實例挨餓或損壞。這種有保證的服務品質使 MIG 非常適合推理服務、多租戶叢集以及許多用戶共享一張卡的開發環境。

技術洞察

MIG 的工作原理是實體門控 GPU 的內部交叉開關,因此每個實例都有一條通往自己的記憶體片和 SM 的固定路徑。 NVIDIA 將設定檔定義為分數,例如 1g.5gb(一個計算切片,5GB)到 7g.40gb。 GPU實例保留記憶體和SM;其中計算實例進一步細分 SM。由於分區是硬體強制的,因此故障、ECC 錯誤和記憶體頻寬僅限於單一實例。

掌握多實例 GPU 分割區

多執行個體 GPU (MIG) 是一項 NVIDIA 技術,可將單一實體 GPU 分割為多個獨立的硬體分割區。這很重要,因為它可以讓一個昂貴的加速器同時處理許多小型工作負載,而不會相互幹擾。多執行個體 GPU 分區是一個技術構建塊,會大規模影響模型品質、基礎設施成本、延遲和可靠性。為了加深理解,請將多執行個體 GPU 分割區視為一種操作模型,而不是單一功能:定義所需的結果、澄清假設,並將系統可以可靠地執行的操作與仍需要專家判斷的操作分開。

在實踐中,強大的團隊使用多執行個體 GPU 分區根據可靠性和成本優化架構、資料和基礎設施選擇。他們記錄明確的成功標準,根據實際數據和工作流程進行測試,並根據觀察到的失敗模式而不是一次性基準測試勝利進行迭代。這就是理論理解轉變為跨產品、政策和營運的持久能力的地方。

多年來,架構決策決定著效能和營運成本。同時,優化一個基準測試可以隱藏更廣泛的系統弱點。最具彈性的方法是將實驗速度與治理規則結合:運行試點、捕獲證據、發布決策日誌,並隨著模型行為、使用者期望和監管要求的發展不斷更新保障措施。

戰略影響

多年來,架構決策決定著效能和營運成本。

多年來,架構決策決定著效能和營運成本。在高品質部署中,這會轉化為可衡量的操作規則、所有權邊界和定期審查儀式,以便團隊可以增強信心,而不是擴大模糊性。

技術教育幫助團隊選擇正確的堆疊,而不僅僅是最新的堆疊。

技術教育幫助團隊選擇正確的堆疊,而不僅僅是最新的堆疊。在高品質部署中,這會轉化為可衡量的操作規則、所有權邊界和定期審查儀式,以便團隊可以增強信心,而不是擴大模糊性。

更好的工程選擇可以減少生產中的可靠性事故。

更好的工程選擇可以減少生產中的可靠性事故。在高品質部署中,這會轉化為可衡量的操作規則、所有權邊界和定期審查儀式,以便團隊可以增強信心,而不是擴大模糊性。

多執行個體 GPU 分割區的未來

隨著 GPU 成長到 80GB、141GB 甚至更高,分割區變得更具吸引力,因為單一型號很少需要整張卡進行推理。期待更緊密的 Kubernetes 和雲端整合、無需耗盡節點的動態重新分區以及更細粒度的設定檔。競爭廠商正在追求類似的 SR-IOV 式 GPU 虛擬化,無伺服器推理平台越來越依賴分區來密集打包許多模型並減少閒置浪費。

現實世界的實施

一家雲端供應商將一個 A100 拆分為七個實例,以便七個客戶每個都獲得一個有保證的、獨立的 GPU 切片用於推理。

大學研究群集為每位博士生提供一個 10GB MIG 實例用於原型設計,而不是獨佔整張卡。

推理服務將多個小型語言和視覺模型打包到一個 H100 上,每個模型都位於自己的分區中,具有可預測的延遲。

Kubernetes 叢集將 MIG 執行個體宣傳為可調度資源,因此 Pod 會像任何其他資源一樣要求「nvidia.com/mig-1g.5gb」。

實施模式

多執行個體 GPU 分割區實踐

一家雲端供應商將一個 A100 拆分為七個實例,以便七個客戶每個都獲得一個有保證的、獨立的 GPU 切片用於推理。

雲端提供者將一台 A100 拆分為 7 個實例,以便每個 7 個客戶獲得一個有保證的、獨立的 GPU 切片用於推理。當團隊預先定義品質閾值、為邊緣情況保留人工升級路徑並追蹤一段時間內的生產力提升和錯誤成本時,通常會獲得更好的結果。

多執行個體 GPU 分割區實踐

大學研究群集為每位博士生提供一個 10GB MIG 實例用於原型設計,而不是獨佔整張卡。

大學研究集群為每個博士生提供一個 10GB MIG 實例用於原型設計,而不是壟斷整個卡。當團隊預先定義品質閾值、為邊緣情況保留人工升級路徑並隨著時間的推移追蹤生產力增益和錯誤成本時,通常會獲得更好的結果。

多執行個體 GPU 分割區實踐

推理服務將多個小型語言和視覺模型打包到一個 H100 上,每個模型都位於自己的分區中,具有可預測的延遲。

推理服務將多個小型語言和視覺模型打包到一個 H100 上,每個模型都位於自己的分區中,並具有可預測的延遲。當團隊預先定義品質閾值、為邊緣情況保留人工升級路徑並隨著時間的推移追蹤生產力增益和錯誤成本時,通常會獲得更好的結果。

多執行個體 GPU 分割區實踐

Kubernetes 叢集將 MIG 執行個體宣傳為可調度資源,因此 Pod 會像任何其他資源一樣要求「nvidia.com/mig-1g.5gb」。

Kubernetes 叢集將 MIG 執行個體宣傳為可調度資源,因此 pod 會像任何其他資源一樣要求「nvidia.com/mig-1g.5gb」。當團隊預先定義品質閾值、為邊緣情況保留人工升級路徑並隨著時間的推移追蹤生產力增益和錯誤成本時,通常會獲得更好的結果。

風險與防護欄

!

優化一項基準測試可以隱藏更廣泛的系統弱點。

!

基礎設施和維護成本常常被低估。

!

隨著系統變得更加複雜,安全性和可觀察性差距可能會擴大。

實施路線圖

1

在實施之前定義延遲、品質和成本目標。

在實施之前定義延遲、品質和成本目標。將每個步驟視為證據門:如果不符合標準,則暫停推出,縮小差距,然後再擴大使用。

2

在實際負載和資料條件下進行基準測試。

在實際負載和資料條件下進行基準測試。將每個步驟視為證據門:如果不符合標準,則暫停推出,縮小差距,然後再擴大使用。

3

儀器監控錯誤、漂移和使用者影響。

儀器監控錯誤、漂移和使用者影響。將每個步驟視為證據門:如果不符合標準,則暫停推出,縮小差距,然後再擴大使用。

4

在擴展之前準備回滾和事件回應路徑。

在擴展之前準備回滾和事件回應路徑。將每個步驟視為證據門:如果不符合標準,則暫停推出,縮小差距,然後再擴大使用。

不斷探索