テクニカルガイド

マルチインスタンス GPU パーティショニング

マルチインスタンス GPU (MIG) は、単一の物理 GPU を複数の分離されたハードウェア パーティションにスライスする NVIDIA テクノロジです。

概要

マルチインスタンス GPU (MIG) は、単一の物理 GPU を複数の分離されたハードウェア パーティションにスライスする NVIDIA テクノロジです。これが重要なのは、1 つの高価なアクセラレータで、相互に干渉することなく、多数の小規模なワークロードを同時に処理できるためです。

マルチインスタンス GPU パーティショニングは、大規模なモデルの品質、インフラストラクチャのコスト、遅延、信頼性に影響を与える技術的な構成要素です。

ディープダイブ

NVIDIA A100 (Ampere) で導入され、H100 以降のデータセンター GPU で継続されている MIG は、GPU を最大 7 つの独立したインスタンスに分割します。ソフトウェア タイム スライスとは異なり、MIG は真のハードウェア分離を提供します。各インスタンスは、独自の専用ストリーミング マルチプロセッサ (SM)、L2 キャッシュ スライス、メモリ コントローラー、および高帯域幅メモリの固定スライスを取得します。 40GB の A100 は、7 つの 5GB インスタンス、またはそれより少数のより大きなインスタンスに分割できます。各パーティションは小型のスタンドアロン GPU のように動作するため、あるインスタンスでノイズの多いジョブやクラッシュするジョブが別のインスタンスを枯渇させたり破損したりすることはありません。この保証されたサービス品質により、MIG は推論サービス、マルチテナント クラスター、および多くのユーザーが 1 つのカードを共有する開発環境に最適です。

技術的な洞察

MIG は、GPU の内部クロスバーを物理的にゲートすることで機能するため、各インスタンスは独自のメモリ スライスと SM への固定パスを持ちます。 NVIDIA は、プロファイルを 1g.5gb (1 つのコンピューティング スライス、5GB) から 7g.40gb までのような端数として定義します。 GPU インスタンスはメモリと SM を予約します。その中で、コンピューティング インスタンスが SM をさらに細分化します。パーティションはハードウェアによって強制されるため、障害、ECC エラー、メモリ帯域幅は単一のインスタンスに限定されます。

マルチインスタンス GPU パーティショニングをマスターする

マルチインスタンス GPU (MIG) は、単一の物理 GPU を複数の分離されたハードウェア パーティションにスライスする NVIDIA テクノロジです。これが重要なのは、1 つの高価なアクセラレータで、相互に干渉することなく、多数の小規模なワークロードを同時に処理できるためです。マルチインスタンス GPU パーティショニングは、大規模なモデルの品質、インフラストラクチャのコスト、遅延、信頼性に影響を与える技術的な構成要素です。深い理解を得るには、マルチインスタンス GPU パーティショニングを単一の機能ではなくオペレーティング モデルとして扱います。望ましい結果を定義し、前提条件を明確にし、システムが確実に実行できることと、依然として専門家の判断が必要なことを区別します。

実際、マルチインスタンス GPU パーティショニングを使用する強力なチームは、信頼性とコストに照らしてアーキテクチャ、データ、インフラストラクチャの選択を最適化します。明示的な成功基準を文書化し、現実的なデータとワークフローに対してテストし、一度限りのベンチマークの成功ではなく、観察された失敗パターンに基づいて反復します。ここで、理論的な理解が、製品、ポリシー、運用全体にわたる永続的な機能に変わります。

アーキテクチャの決定により、パフォーマンスと運用コストが何年にもわたって推進されます。同時に、1 つのベンチマークを最適化すると、より広範なシステムの弱点が隠れる可能性があります。最も回復力のあるアプローチは、実験のスピードとガバナンスの規律を組み合わせることであり、パイロットを実行し、証拠を取得し、意思決定ログを公開し、モデルの動作、ユーザーの期待、規制要件の進化に応じて安全対策を継続的に更新します。

戦略的影響

アーキテクチャの決定により、パフォーマンスと運用コストが何年にもわたって推進されます。

アーキテクチャの決定により、パフォーマンスと運用コストが何年にもわたって推進されます。高品質の導入では、これが測定可能な運用ルール、所有権の境界、定期的なレビューの儀式に変換されるため、チームは曖昧さを拡大するのではなく、自信を拡大することができます。

技術教育は、チームが最新のスタックだけでなく、適切なスタックを選択するのに役立ちます。

技術教育は、チームが最新のスタックだけでなく、適切なスタックを選択するのに役立ちます。高品質の導入では、これが測定可能な運用ルール、所有権の境界、定期的なレビューの儀式に変換されるため、チームは曖昧さを拡大するのではなく、自信を拡大することができます。

より良いエンジニアリングの選択により、本番環境での信頼性に関するインシデントが減少します。

より良いエンジニアリングの選択により、本番環境での信頼性に関するインシデントが減少します。高品質の導入では、これが測定可能な運用ルール、所有権の境界、定期的なレビューの儀式に変換されるため、チームは曖昧さを拡大するのではなく、自信を拡大することができます。

マルチインスタンス GPU パーティショニングの将来

GPU が 80 GB、141 GB とそれ以上に増加すると、個々のモデルが推論にカード全体を必要とすることがほとんどなくなるため、パーティショニングがより魅力的になります。 Kubernetes とクラウドのより緊密な統合、ノードを消耗させない動的な再パーティショニング、およびよりきめの細かいプロファイルが期待されます。競合ベンダーも同様の SR-IOV スタイルの GPU 仮想化を追求しており、サーバーレス推論プラットフォームは、多くのモデルを高密度にパックして無駄な無駄を削減するためにパーティショニングへの依存度を高めています。

現実世界の実装

クラウド プロバイダーは 1 つの A100 を 7 つのインスタンスに分割するため、7 人の顧客がそれぞれ、推論用に保証された分離された GPU スライスを取得します。

大学の研究クラスターでは、カード全体を独占するのではなく、プロトタイピング用に各博士課程の学生に 10 GB の MIG インスタンスを提供しています。

推論サービスは、複数の小さな言語モデルとビジョン モデルを 1 台の H100 にパックし、それぞれが予測可能な遅延を持つ独自のパーティションにパックされます。

Kubernetes クラスターは MIG インスタンスをスケジュール可能なリソースとしてアドバタイズするため、ポッドは他のリソースと同様に「nvidia.com/mig-1g.5gb」をリクエストします。

実装パターン

実際のマルチインスタンス GPU パーティショニング

クラウド プロバイダーは 1 つの A100 を 7 つのインスタンスに分割するため、7 人の顧客がそれぞれ、推論用に保証された分離された GPU スライスを取得します。

クラウド プロバイダーは 1 台の A100 を 7 つのインスタンスに分割し、7 人の顧客がそれぞれ推論用に保証された分離された GPU スライスを取得できるようにします。チームは通常、品質のしきい値を事前に定義し、エッジ ケースに対する人的エスカレーション パスを確保し、生産性の向上とエラー コストの両方を長期的に追跡すると、より良い結果が得られます。

実際のマルチインスタンス GPU パーティショニング

大学の研究クラスターでは、カード全体を独占するのではなく、プロトタイピング用に各博士課程の学生に 10 GB の MIG インスタンスを提供しています。

大学の研究クラスターは、カード全体を独占するのではなく、プロトタイピング用に各博士課程の学生に 10 GB の MIG インスタンスを提供します。チームは通常、品質のしきい値を事前に定義し、エッジ ケースに対する人的エスカレーション パスを維持し、生産性の向上とエラー コストの両方を長期にわたって追跡すると、より良い結果が得られます。

実際のマルチインスタンス GPU パーティショニング

推論サービスは、複数の小さな言語モデルとビジョン モデルを 1 台の H100 にパックし、それぞれが予測可能な遅延を持つ独自のパーティションにパックされます。

推論サービスは、複数の小さな言語モデルとビジョン モデルを 1 つの H100 にパックし、それぞれが予測可能な遅延を持つ独自のパーティションに収められます。チームは通常、品質のしきい値を事前に定義し、エッジ ケースに対する人的エスカレーション パスを維持し、生産性の向上とエラー コストの両方を長期的に追跡すると、より良い結果が得られます。

実際のマルチインスタンス GPU パーティショニング

Kubernetes クラスターは MIG インスタンスをスケジュール可能なリソースとしてアドバタイズするため、ポッドは他のリソースと同様に「nvidia.com/mig-1g.5gb」をリクエストします。

Kubernetes クラスターは MIG インスタンスをスケジュール可能なリソースとしてアドバタイズするため、ポッドは他のリソースと同様に「nvidia.com/mig-1g.5gb」をリクエストします。チームは通常、品質のしきい値を事前に定義し、エッジ ケースに対する人的エスカレーション パスを維持し、生産性の向上とエラー コストの両方を長期的に追跡すると、より良い結果が得られます。

リスクとガードレール

!

1 つのベンチマークを最適化すると、より広範なシステムの弱点が隠れる可能性があります。

!

インフラストラクチャとメンテナンスのコストは過小評価されがちです。

!

システムが複雑になるにつれて、セキュリティと可観測性のギャップが拡大する可能性があります。

実装ロードマップ

1

実装前にレイテンシ、品質、コストの目標を定義します。

実装前にレイテンシ、品質、コストの目標を定義します。各ステップを証拠ゲートとして扱います。基準が満たされない場合は、ロールアウトを一時停止し、ギャップを埋めてから、使用を拡大します。

2

現実的な負荷とデータ条件でのベンチマーク。

現実的な負荷とデータ条件でのベンチマーク。各ステップを証拠ゲートとして扱います。基準が満たされない場合は、ロールアウトを一時停止し、ギャップを埋めてから、使用を拡大します。

3

エラー、ドリフト、ユーザーへの影響を計測器で監視します。

エラー、ドリフト、ユーザーへの影響を計測器で監視します。各ステップを証拠ゲートとして扱います。基準が満たされない場合は、ロールアウトを一時停止し、ギャップを埋めてから、使用を拡大します。

4

スケーリングの前に、ロールバックとインシデント対応のパスを準備します。

スケーリングの前に、ロールバックとインシデント対応のパスを準備します。各ステップを証拠ゲートとして扱います。基準が満たされない場合は、ロールアウトを一時停止し、ギャップを埋めてから、使用を拡大します。

探検を続けましょう