Обзор
Multi-Instance GPU (MIG) — это технология NVIDIA, которая делит один физический графический процессор на несколько изолированных аппаратных разделов. Это важно, поскольку позволяет одному дорогостоящему ускорителю одновременно обслуживать множество небольших рабочих нагрузок, не мешая друг другу.
Разделение нескольких экземпляров графического процессора — это технический строительный блок, который влияет на качество модели, стоимость инфраструктуры, задержку и надежность в масштабе.
Глубокое погружение
Представленная в NVIDIA A100 (Ampere) и продолженная в H100 и более новых графических процессорах для центров обработки данных, MIG разделяет графический процессор на семь независимых экземпляров. В отличие от программного разделения времени, MIG обеспечивает настоящую аппаратную изоляцию: каждый экземпляр получает свои собственные выделенные потоковые мультипроцессоры (SM), срезы кэша L2, контроллеры памяти и фиксированный срез памяти с высокой пропускной способностью. A100 с 40 ГБ можно разделить на семь экземпляров по 5 ГБ или меньше экземпляров большего размера. Каждый раздел ведет себя как отдельный графический процессор меньшего размера, поэтому шумное или аварийное задание в одном экземпляре не может привести к истощению или повреждению другого. Такое гарантированное качество обслуживания делает MIG идеальным для обслуживания логических выводов, многопользовательских кластеров и сред разработки, где многие пользователи используют одну карту.
Техническая информация
MIG работает путем физического закрытия внутренней перемычки графического процессора, поэтому каждый экземпляр имеет фиксированный путь к своему собственному срезу памяти и SM. NVIDIA определяет профили как дроби, например от 1 г, 5 ГБ (один вычислительный срез, 5 ГБ) до 7,40 ГБ. Экземпляр графического процессора резервирует память и SM; внутри него вычислительный экземпляр дополнительно подразделяет SM. Поскольку разделы поддерживаются аппаратно, сбои, ошибки ECC и пропускная способность памяти остаются ограниченными одним экземпляром.
Освоение многоэкземплярного разделения графического процессора
Multi-Instance GPU (MIG) — это технология NVIDIA, которая делит один физический графический процессор на несколько изолированных аппаратных разделов. Это важно, поскольку позволяет одному дорогостоящему ускорителю одновременно обслуживать множество небольших рабочих нагрузок, не мешая друг другу. Разделение нескольких экземпляров графического процессора — это технический строительный блок, который влияет на качество модели, стоимость инфраструктуры, задержку и надежность в масштабе. Чтобы добиться более глубокого понимания, рассматривайте многоэкземплярное разделение графических процессоров как операционную модель, а не как отдельную функцию: определите желаемые результаты, проясните предположения и отделите то, что система может делать надежно, от того, что все еще требует экспертной оценки.
На практике сильные команды, использующие многоэкземплярное разделение графических процессоров, оптимизируют выбор архитектуры, данных и инфраструктуры с точки зрения надежности и стоимости. Они документируют явные критерии успеха, проводят тестирование на основе реалистичных данных и рабочих процессов, а также выполняют итерации на основе наблюдаемых моделей неудач, а не разовых побед в тестах. Именно здесь теоретическое понимание превращается в прочные возможности в отношении продукта, политики и операций.
Архитектурные решения влияют на производительность и эксплуатационные расходы на протяжении многих лет. В то же время оптимизация одного теста может скрыть более широкие недостатки системы. Самый устойчивый подход — сочетать скорость экспериментирования с дисциплиной управления: запускать пилотные проекты, собирать доказательства, публиковать журналы решений и постоянно обновлять меры безопасности по мере развития поведения модели, ожиданий пользователей и нормативных требований.
Стратегическое воздействие
Архитектурные решения влияют на производительность и эксплуатационные расходы на протяжении многих лет.
Архитектурные решения влияют на производительность и эксплуатационные расходы на протяжении многих лет. В высококачественных развертываниях это выражается в измеримых рабочих правилах, границах владения и повторяющихся ритуалах проверки, что позволяет командам повышать уверенность, а не увеличивать двусмысленность.
Техническое образование помогает командам выбрать правильный стек, а не только самый новый.
Техническое образование помогает командам выбрать правильный стек, а не только самый новый. В высококачественных развертываниях это выражается в измеримых рабочих правилах, границах владения и повторяющихся ритуалах проверки, что позволяет командам повышать уверенность, а не увеличивать двусмысленность.
Лучший инженерный выбор снижает вероятность возникновения проблем с надежностью на производстве.
Лучший инженерный выбор снижает вероятность возникновения проблем с надежностью на производстве. В высококачественных развертываниях это выражается в измеримых рабочих правилах, границах владения и повторяющихся ритуалах проверки, что позволяет командам повышать уверенность, а не увеличивать двусмысленность.
Реальная реализация
Поставщик облачных услуг разбивает один A100 на семь экземпляров, поэтому каждый из семи клиентов получает гарантированный изолированный фрагмент графического процессора для вывода.
Университетский исследовательский кластер предоставляет каждому аспиранту экземпляр MIG объемом 10 ГБ для прототипирования вместо того, чтобы монополизировать целые карты.
Служба вывода упаковывает несколько небольших моделей языка и видения в один H100, каждая в своем собственном разделе с предсказуемой задержкой.
Кластер Kubernetes рекламирует экземпляры MIG как планируемые ресурсы, поэтому модули запрашивают nvidia.com/mig-1g.5gb, как и любой другой ресурс.
Шаблоны реализации
Разбиение нескольких экземпляров графического процессора на практике
Поставщик облачных услуг разбивает один A100 на семь экземпляров, поэтому каждый из семи клиентов получает гарантированный изолированный фрагмент графического процессора для вывода.
Поставщик облачных услуг разбивает один A100 на семь экземпляров, поэтому каждый из семи клиентов получает гарантированный изолированный фрагмент графического процессора для вывода. Команды обычно получают лучшие результаты, если заранее определяют пороговые значения качества, сохраняют путь эскалации с участием человека для крайних случаев и отслеживают как прирост производительности, так и затраты на ошибки с течением времени.
Разбиение нескольких экземпляров графического процессора на практике
Университетский исследовательский кластер предоставляет каждому аспиранту экземпляр MIG объемом 10 ГБ для прототипирования вместо того, чтобы монополизировать целые карты.
Университетский исследовательский кластер предоставляет каждому аспиранту экземпляр MIG объемом 10 ГБ для прототипирования вместо монополизации целых карт. Команды обычно получают лучшие результаты, когда заранее определяют пороговые значения качества, сохраняют путь эскалации с участием человека для крайних случаев и отслеживают как рост производительности, так и затраты на ошибки с течением времени.
Разбиение нескольких экземпляров графического процессора на практике
Служба вывода упаковывает несколько небольших моделей языка и видения в один H100, каждая в своем собственном разделе с предсказуемой задержкой.
Служба вывода упаковывает несколько небольших моделей языка и видения в один H100, каждая в своем собственном разделе с предсказуемой задержкой. Команды обычно получают лучшие результаты, когда заранее определяют пороговые значения качества, сохраняют путь эскалации с участием человека для крайних случаев и отслеживают как прирост производительности, так и затраты на ошибки с течением времени.
Разбиение нескольких экземпляров графического процессора на практике
Кластер Kubernetes рекламирует экземпляры MIG как планируемые ресурсы, поэтому модули запрашивают nvidia.com/mig-1g.5gb, как и любой другой ресурс.
Кластер Kubernetes рекламирует экземпляры MIG как планируемые ресурсы, поэтому модули запрашивают nvidia.com/mig-1g.5gb, как и любой другой ресурс. Команды обычно получают лучшие результаты, если заранее определяют пороговые значения качества, сохраняют путь эскалации вручную для крайних случаев и отслеживают как прирост производительности, так и затраты на ошибки с течением времени.
Риски и ограничения
Оптимизация одного теста может скрыть более широкие недостатки системы.
Затраты на инфраструктуру и техническое обслуживание часто недооцениваются.
Пробелы в безопасности и наблюдаемости могут увеличиваться по мере усложнения систем.
Дорожная карта реализации
Определите целевые показатели задержки, качества и стоимости перед внедрением.
Определите целевые показатели задержки, качества и стоимости перед внедрением. Относитесь к каждому шагу как к доказательству: если критерии не выполняются, приостановите внедрение, ликвидируйте пробел и только затем расширяйте использование.
Тестирование при реалистичной нагрузке и условиях данных.
Тестирование при реалистичной нагрузке и условиях данных. Относитесь к каждому шагу как к доказательству: если критерии не выполняются, приостановите внедрение, ликвидируйте пробел и только затем расширяйте использование.
Мониторинг прибора на наличие ошибок, дрейфа и влияния пользователя.
Мониторинг прибора на наличие ошибок, дрейфа и влияния пользователя. Относитесь к каждому шагу как к доказательству: если критерии не выполняются, приостановите внедрение, ликвидируйте пробел и только затем расширяйте использование.
Перед масштабированием подготовьте пути отката и реагирования на инциденты.
Перед масштабированием подготовьте пути отката и реагирования на инциденты. Относитесь к каждому шагу как к доказательству: если критерии не выполняются, приостановите внедрение, ликвидируйте пробел и только затем расширяйте использование.