概要
2022 年に DeepMind が発表した Chinchilla スケーリングの法則は、大規模な言語モデルのほとんどが著しくトレーニング不足であることを示しました。固定されたコンピューティング予算の場合、モデル サイズとトレーニング データをほぼ同じ割合でスケーリングする必要があります。これは、「最適な」モデル サイズの意味を再定義し、ラボがコンピューティングに費やす方法を再構築したため、重要です。
Chinchilla Scaling Laws は、テキストと音声を大規模に読み取り、生成、分類、変換するために使用される言語 AI スタックの一部です。
ディープダイブ
Chinchilla が登場する前は、比較的少量のデータでトレーニングしながら、より大きなモデル (175B パラメーターの GPT-3 など) を構築する傾向がありました。 DeepMind は、さまざまなサイズとデータ バジェットにわたって 400 以上のモデルをトレーニングし、固定コンピューティング (FLOP) バジェットの下でパラメータとトークンの関数として損失を予測する曲線を当てはめました。彼らの発見: パラメーターとトレーニング トークンは、おおよそ 1 対 1 の比率で一緒にスケールされるはずであり、パラメーターごとにトレーニング データのトークンが約 20 であることを意味します。それを証明するために、彼らは 1.4 兆トークンで 70B パラメーターのモデルである Chinchilla をトレーニングしました。これは、はるかに多くのデータでトレーニングされたため、同じコンピューティングを使用しているにもかかわらず、より大きな 280B パラメーターの Gopher よりも優れたパフォーマンスを発揮しました。
技術的な洞察
法則は、パラメトリック損失関数 L(N, D) のフィッティングから得られます。ここで、N はパラメーター、D は既約損失、モデル サイズ、データ サイズの項を含むトークンです。計算制約 (計算は D の N 倍にほぼ比例) に従って損失を最小限に抑えると、最適な N と D の両方が同様の指数で計算のべき乗として増加するという結果が得られ、計算の最適化比率はパラメーターごとに 20 トークン近くに留まります。
チンチラのスケーリングの法則をマスターする
2022 年に DeepMind が発表した Chinchilla スケーリングの法則は、大規模な言語モデルのほとんどが著しくトレーニング不足であることを示しました。固定されたコンピューティング予算の場合、モデル サイズとトレーニング データをほぼ同じ割合でスケーリングする必要があります。これは、「最適な」モデル サイズの意味を再定義し、ラボがコンピューティングに費やす方法を再構築したため、重要です。 Chinchilla Scaling Laws は、テキストと音声を大規模に読み取り、生成、分類、変換するために使用される言語 AI スタックの一部です。深い理解を得るには、チンチラのスケーリングの法則を単一の機能ではなく、運用モデルとして扱います。望ましい結果を定義し、前提条件を明確にし、システムが確実に実行できることと専門家の判断が必要なことを区別します。
実際、チンチラ スケーリングの法則を使用する強力なチームは、プロンプト、取得、レビューのループを 1 つの統合されたコミュニケーション システムとして設計します。明示的な成功基準を文書化し、現実的なデータとワークフローに対してテストし、一度限りのベンチマークの成功ではなく、観察された失敗パターンに基づいて反復します。ここで、理論的な理解が、製品、ポリシー、運用全体にわたる永続的な機能に変わります。
言語ワークフローは、一貫性を犠牲にすることなく、より高速に移行できます。同時に、幻覚の事実がレポート、サポート フロー、または研究成果に静かに入力される可能性があります。最も回復力のあるアプローチは、実験のスピードとガバナンスの規律を組み合わせることであり、パイロットを実行し、証拠を取得し、意思決定ログを公開し、モデルの動作、ユーザーの期待、規制要件の進化に応じて安全対策を継続的に更新します。
戦略的影響
言語ワークフローは、一貫性を犠牲にすることなく、より高速に移行できます。
言語ワークフローは、一貫性を犠牲にすることなく、より高速に移行できます。高品質の導入では、これが測定可能な運用ルール、所有権の境界、定期的なレビューの儀式に変換されるため、チームは曖昧さを拡大するのではなく、自信を拡大することができます。
言語やコミュニケーション スタイルを超えてアクセスが拡張されます。
言語やコミュニケーション スタイルを超えてアクセスが拡張されます。高品質の導入では、これが測定可能な運用ルール、所有権の境界、定期的なレビューの儀式に変換されるため、チームは曖昧さを拡大するのではなく、自信を拡大することができます。
自動化が繰り返しを処理する間、チームは判断により多くの時間を費やすことができます。
自動化が繰り返しを処理する間、チームは判断により多くの時間を費やすことができます。高品質の導入では、これが測定可能な運用ルール、所有権の境界、定期的なレビューの儀式に変換されるため、チームは曖昧さを拡大するのではなく、自信を拡大することができます。
現実世界の実装
DeepMind の 70B パラメータの Chinchilla が、はるかに多くのデータでトレーニングすることで、同等のコンピューティングを使用したベンチマークで 280B Gopher を破りました
モデルを最初から計画する場合、パラメーターごとに約 20 のトレーニング トークンを予算化するようにチームをガイドする
推論時の実行コストが低い、LLaMA のような小規模でデータが豊富なモデルを正当化する
計画されたモデルが「トレーニング不足」であり、追加のパラメーターよりも追加のデータの方がメリットがあるかどうかを推定する
実装パターン
チンチラのスケーリングの法則の実践
DeepMind の 70B パラメータの Chinchilla は、はるかに多くのデータでトレーニングすることにより、同等のコンピューティングを使用したベンチマークで 280B Gopher を上回りました。
DeepMind の 70B パラメータの Chinchilla が、はるかに多くのデータでトレーニングすることにより、同等のコンピューティングを使用したベンチマークで 280B Gopher を破りました チームは通常、品質のしきい値を事前に定義し、エッジ ケースに対する人間によるエスカレーション パスを維持し、生産性の向上とエラー コストの両方を長期的に追跡すると、より良い結果が得られます。
チンチラのスケーリングの法則の実践
スクラッチからモデルを計画する場合、パラメーターごとに約 20 のトレーニング トークンを予算化するようにチームを導きます。
最初からモデルを計画する場合、パラメーターごとに約 20 のトレーニング トークンを予算化するようにチームをガイドする チームは通常、品質のしきい値を事前に定義し、エッジ ケースに対する人的エスカレーション パスを確保し、生産性の向上とエラー コストの両方を長期的に追跡すると、より良い結果が得られます。
チンチラのスケーリングの法則の実践
推論時の実行コストが安い、LLaMA のような小規模でデータが豊富なモデルを正当化します。
推論時の実行コストが安い、LLaMA のような小規模でデータが豊富なモデルを正当化する チームは通常、品質のしきい値を事前に定義し、エッジ ケースに対する人間によるエスカレーション パスを確保し、生産性の向上とエラー コストの両方を長期にわたって追跡すると、より良い結果が得られます。
チンチラのスケーリングの法則の実践
計画されたモデルが「トレーニング不足」であり、追加のパラメーターよりも追加のデータの方がメリットがあるかどうかを推定します。
計画されたモデルが「トレーニング不足」であり、追加のパラメーターよりも追加のデータの方がメリットがあるかどうかを推定する チームは通常、品質のしきい値を事前に定義し、エッジ ケースに対する人的エスカレーション パスを確保し、生産性の向上とエラー コストの両方を長期にわたって追跡すると、より良い結果が得られます。
リスクとガードレール
幻覚のような事実が、レポート、サポート フロー、または研究結果に静かに組み込まれる可能性があります。
迅速な対応により、同様のリクエスト間で一貫性のない結果が生じる可能性があります。
アクセス制御が弱いと、機密テキスト データが漏洩する可能性があります。
実装ロードマップ
展開する前に、出力形式、トーン、品質基準を定義します。
展開する前に、出力形式、トーン、品質基準を定義します。各ステップを証拠ゲートとして扱います。基準が満たされない場合は、ロールアウトを一時停止し、ギャップを埋めてから、使用を拡大します。
正確さが重要な場合は常に、信頼できる情報源を使って地上対応を行ってください。
正確さが重要な場合は常に、信頼できる情報源を使って地上対応を行ってください。各ステップを証拠ゲートとして扱います。基準が満たされない場合は、ロールアウトを一時停止し、ギャップを埋めてから、使用を拡大します。
一か八かの成果物については人間によるレビュー チェックポイントを維持します。
一か八かの成果物については人間によるレビュー チェックポイントを維持します。各ステップを証拠ゲートとして扱います。基準が満たされない場合は、ロールアウトを一時停止し、ギャップを埋めてから、使用を拡大します。
失敗パターンを追跡し、プロンプトやワークフローを定期的に再トレーニングします。
失敗パターンを追跡し、プロンプトやワークフローを定期的に再トレーニングします。各ステップを証拠ゲートとして扱います。基準が満たされない場合は、ロールアウトを一時停止し、ギャップを埋めてから、使用を拡大します。