Обзор
Законы масштабирования Chinchilla, разработанные DeepMind в 2022 году, показали, что большинство крупных языковых моделей сильно недообучены: при фиксированном бюджете вычислений следует масштабировать размер модели и обучающие данные примерно в равной пропорции. Это важно, потому что оно по-новому определило, что означает «оптимальный» размер модели, и изменило то, как лаборатории тратят вычислительные ресурсы.
Законы масштабирования Chinchilla — это часть стека языка и искусственного интеллекта, используемого для чтения, генерации, классификации и преобразования текста и речи в масштабе.
Глубокое погружение
До появления Chinchilla существовала тенденция строить все более крупные модели (например, GPT-3 с параметром 175B) при обучении на относительно скромных объемах данных. DeepMind обучил более 400 моделей разных размеров и бюджетов данных, а затем подобрал кривые, прогнозирующие потери в зависимости от параметров и токенов в рамках фиксированного бюджета вычислений (FLOP). Их вывод: параметры и обучающие токены должны масштабироваться вместе, примерно в соотношении 1 к 1, что означает около 20 токенов обучающих данных на каждый параметр. Чтобы доказать это, они обучили Chinchilla, модель с 70B параметрами, на 1,4 триллионах токенов, которая превзошла гораздо более крупную Gopher с 280B параметрами, несмотря на использование тех же вычислений, поскольку она была обучена на гораздо большем количестве данных.
Техническая информация
Законы возникают в результате подбора параметрической функции потерь L(N, D), где N — параметры, а D — токены, включая условия неуменьшаемых потерь, размера модели и размера данных. Минимизация потерь при условии ограничения вычислений (вычисления примерно пропорциональны N, умноженному на D) дает результат, что оптимальные N и D растут как степень вычислений с одинаковыми показателями, поэтому оптимальное соотношение вычислений остается около 20 токенов на параметр.
Освоение законов масштабирования шиншилл
Законы масштабирования Chinchilla, разработанные DeepMind в 2022 году, показали, что большинство крупных языковых моделей сильно недообучены: при фиксированном бюджете вычислений следует масштабировать размер модели и обучающие данные примерно в равной пропорции. Это важно, потому что оно по-новому определило, что означает «оптимальный» размер модели, и изменило то, как лаборатории тратят вычислительные ресурсы. Законы масштабирования Chinchilla — это часть стека языка и искусственного интеллекта, используемого для чтения, генерации, классификации и преобразования текста и речи в масштабе. Чтобы достичь более глубокого понимания, рассматривайте законы масштабирования Chinchilla как операционную модель, а не как отдельную функцию: определите желаемые результаты, проясните предположения и отделите то, что система может делать надежно, от того, что все еще требует экспертной оценки.
На практике сильные команды, использующие законы масштабирования Chinchilla, разрабатывают циклы подсказок, поиска и просмотра как единую интегрированную коммуникационную систему. Они документируют явные критерии успеха, проводят тестирование на основе реалистичных данных и рабочих процессов, а также выполняют итерации на основе наблюдаемых моделей неудач, а не разовых побед в тестах. Именно здесь теоретическое понимание превращается в прочные возможности в отношении продукта, политики и операций.
Языковые рабочие процессы могут развиваться быстрее, не жертвуя при этом согласованностью. В то же время галлюцинированные факты могут незаметно войти в отчеты, потоки поддержки или результаты исследований. Самый устойчивый подход — сочетать скорость экспериментирования с дисциплиной управления: запускать пилотные проекты, собирать доказательства, публиковать журналы решений и постоянно обновлять меры безопасности по мере развития поведения модели, ожиданий пользователей и нормативных требований.
Стратегическое воздействие
Языковые рабочие процессы могут развиваться быстрее, не жертвуя при этом согласованностью.
Языковые рабочие процессы могут развиваться быстрее, не жертвуя при этом согласованностью. В высококачественных развертываниях это выражается в измеримых рабочих правилах, границах владения и повторяющихся ритуалах проверки, что позволяет командам повышать уверенность, а не увеличивать двусмысленность.
Это расширяет доступ к различным языкам и стилям общения.
Это расширяет доступ к различным языкам и стилям общения. В высококачественных развертываниях это выражается в измеримых рабочих правилах, границах владения и повторяющихся ритуалах проверки, что позволяет командам повышать уверенность, а не увеличивать двусмысленность.
Команды могут тратить больше времени на принятие решений, в то время как автоматизация занимается повторением.
Команды могут тратить больше времени на принятие решений, в то время как автоматизация занимается повторением. В высококачественных развертываниях это выражается в измеримых рабочих правилах, границах владения и повторяющихся ритуалах проверки, что позволяет командам повышать уверенность, а не увеличивать двусмысленность.
Реальная реализация
70B-параметрическая система Chinchilla от DeepMind превосходит 280B Gopher в тестах с использованием равных вычислительных ресурсов, обучаясь на гораздо большем количестве данных
Помощь командам в бюджете примерно 20 токенов обучения на каждый параметр при планировании модели с нуля.
Обоснование небольших моделей с большим объемом данных, таких как LLaMA, которые дешевле запускать во время вывода
Оценка того, является ли запланированная модель «недостаточно обученной» и получит ли она больше пользы от дополнительных данных, чем от дополнительных параметров.
Шаблоны реализации
Законы чешуйки шиншилл на практике
70-битная система Chinchilla от DeepMind превосходит 280-битную систему Gopher в тестах с равными вычислительными возможностями, обучаясь на гораздо большем количестве данных.
Chinchilla от DeepMind с 70B параметрами превосходит Gopher с 280B в тестах с использованием равных вычислительных ресурсов за счет обучения на гораздо большем количестве данных. Команды обычно получают лучшие результаты, когда заранее определяют пороговые значения качества, поддерживают человеческий путь эскалации для крайних случаев и отслеживают как прирост производительности, так и затраты на ошибки с течением времени.
Законы чешуйки шиншилл на практике
Помощь командам в бюджете примерно 20 токенов обучения на каждый параметр при планировании модели с нуля.
Поручение командам выделять примерно 20 токенов обучения на каждый параметр при планировании модели с нуля. Команды обычно получают лучшие результаты, если заранее определяют пороговые значения качества, сохраняют возможность эскалации с участием людей для крайних случаев и отслеживают как рост производительности, так и затраты на ошибки с течением времени.
Законы чешуйки шиншилл на практике
Обоснование меньших моделей с большим объемом данных, таких как LLaMA, которые дешевле запускать во время вывода.
Обоснование небольших моделей с большим объемом данных, таких как LLaMA, которые дешевле запускать во время вывода. Команды обычно получают лучшие результаты, когда заранее определяют пороговые значения качества, сохраняют путь эскалации с участием человека для крайних случаев и отслеживают как рост производительности, так и затраты на ошибки с течением времени.
Законы чешуйки шиншилл на практике
Оценка того, является ли запланированная модель «недостаточно обученной» и получит ли она больше пользы от дополнительных данных, чем от дополнительных параметров.
Оценка того, является ли запланированная модель «недостаточно обученной» и получит ли она больше пользы от дополнительных данных, чем от дополнительных параметров. Команды обычно получают лучшие результаты, когда заранее определяют пороговые значения качества, сохраняют путь человеческой эскалации для крайних случаев и отслеживают как прирост производительности, так и затраты на ошибки с течением времени.
Риски и ограничения
Галлюцинированные факты могут незаметно войти в отчеты, потоки поддержки или результаты исследований.
Незамедлительная чувствительность может привести к противоречивым результатам по схожим запросам.
Конфиденциальные текстовые данные могут быть раскрыты, если контроль доступа слабый.
Дорожная карта реализации
Перед развертыванием определите выходной формат, тон и стандарты качества.
Перед развертыванием определите выходной формат, тон и стандарты качества. Относитесь к каждому шагу как к доказательству: если критерии не выполняются, приостановите внедрение, ликвидируйте пробел и только затем расширяйте использование.
Наземные ответы с помощью надежных источников, когда точность имеет значение.
Наземные ответы с помощью надежных источников, когда точность имеет значение. Относитесь к каждому шагу как к доказательству: если критерии не выполняются, приостановите внедрение, ликвидируйте пробел и только затем расширяйте использование.
Обеспечьте контрольную точку человеческого контроля для получения важных результатов.
Обеспечьте контрольную точку человеческого контроля для получения важных результатов. Относитесь к каждому шагу как к доказательству: если критерии не выполняются, приостановите внедрение, ликвидируйте пробел и только затем расширяйте использование.
Отслеживайте закономерности сбоев и регулярно обновляйте подсказки или рабочие процессы.
Отслеживайте закономерности сбоев и регулярно обновляйте подсказки или рабочие процессы. Относитесь к каждому шагу как к доказательству: если критерии не выполняются, приостановите внедрение, ликвидируйте пробел и только затем расширяйте использование.