概要
Chinchilla は、大規模な言語モデルのほとんどがひどくトレーニングされていないという 2022 年の DeepMind の調査結果です。固定されたコンピューティング予算の場合は、より大きなモデルを構築するだけでなく、パラメーターとデータをほぼ均等にスケールする必要があります。これにより、業界がトレーニング データに対してモデル サイズのバランスを取る方法が再構築されました。
Chinchilla Compute-Optimal Training は、コア AI ツールキットに組み込まれています。それを理解すると、他の AI トピックの評価や比較が容易になります。
ディープダイブ
DeepMind の Chinchilla 論文では、スケーリングを再検討し、400 を超えるモデルをトレーニングして、コンピューティングの最適なバランスを見つけました。見出しの経験則: モデルのサイズとトレーニング トークンは、パラメーターごとに約 20 個のトレーニング トークンとして段階的に増加する必要があります。それを証明するために、彼らは、はるかに少ないトークンでトレーニングされた 2,800 億のパラメーターの Gopher と同じ計算を使用して、1 兆 4,000 億のトークンで 700 億のパラメーターのモデルである Chinchilla をトレーニングしました。チンチラは、体格が 4 分の 1 であるにもかかわらず、ほぼすべてのベンチマークで Gopher、GPT-3、およびその他の巨人を上回りました。このレッスンは、データよりもサイズを優先するという以前の OpenAI の結論を覆し、多くの主力モデルが大きすぎてデータが不足しすぎているためにパフォーマンスが劣っていることを示しました。
技術的な洞察
チンチラの適合損失は L(N,D) = E + A・N^(-α) + B・D^(-β) で、α と β は両方とも 0.34 近くで、パラメーターとデータがほぼ対称的に寄与することを意味します。これを固定の計算制約 (トランスフォーマーの計算 ≈ 6・N・D) の下で最適化すると、等しいスケーリングの結果が得られます。小規模でデータが豊富なモデルは、推論時の実行コストも低いため、トレーニングだけでなくデプロイメントにおいてもその利点がさらに高まります。
チンチラのコンピューティング最適化トレーニングをマスターする
Chinchilla は、大規模な言語モデルのほとんどがひどくトレーニングされていないという 2022 年の DeepMind の調査結果です。固定されたコンピューティング予算の場合は、より大きなモデルを構築するだけでなく、パラメーターとデータをほぼ均等にスケールする必要があります。これにより、業界がトレーニング データに対してモデル サイズのバランスを取る方法が再構築されました。 Chinchilla Compute-Optimal Training は、コア AI ツールキットに組み込まれています。それを理解すると、他の AI トピックの評価や比較が容易になります。深い理解を構築するには、Chinchilla Compute-Optimal Training を単一の機能ではなく、オペレーティング モデルとして扱います。望ましい結果を定義し、前提条件を明確にし、システムが確実に実行できることと、依然として専門家の判断が必要なことを分離します。
実際には、Chinchilla Compute-Optimal Training を使用する強力なチームは、最初に強力な概念モデルを構築し、次にそれらのモデルを実際の運用上の制約にマッピングします。明示的な成功基準を文書化し、現実的なデータとワークフローに対してテストし、一度限りのベンチマークの成功ではなく、観察された失敗パターンに基づいて反復します。ここで、理論的な理解が、製品、ポリシー、運用全体にわたる永続的な機能に変わります。
これは、明確な技術的主張とマーケティング言語を区別するのに役立ちます。同時に、チームが異なると同じ用語を異なる方法で使用する可能性があるため、範囲を早期に定義します。最も回復力のあるアプローチは、実験のスピードとガバナンスの規律を組み合わせることであり、パイロットを実行し、証拠を取得し、意思決定ログを公開し、モデルの動作、ユーザーの期待、規制要件の進化に応じて安全対策を継続的に更新します。
戦略的影響
これは、明確な技術的主張とマーケティング言語を区別するのに役立ちます。
これは、明確な技術的主張とマーケティング言語を区別するのに役立ちます。高品質の導入では、これが測定可能な運用ルール、所有権の境界、定期的なレビューの儀式に変換されるため、チームは曖昧さを拡大するのではなく、自信を拡大することができます。
お金や時間を費やす前に、実装に関するより良い質問をすることができます。
お金や時間を費やす前に、実装に関するより良い質問をすることができます。高品質の導入では、これが測定可能な運用ルール、所有権の境界、定期的なレビューの儀式に変換されるため、チームは曖昧さを拡大するのではなく、自信を拡大することができます。
共通の理解を持ったチームは、製品、ポリシー、学習に関する意思決定をより適切に行うことができます。
共通の理解を持ったチームは、製品、ポリシー、学習に関する意思決定をより適切に行うことができます。高品質の導入では、これが測定可能な運用ルール、所有権の境界、定期的なレビューの儀式に変換されるため、チームは曖昧さを拡大するのではなく、自信を拡大することができます。
現実世界の実装
同じ予算内で、少なすぎるデータで 300 億のモデルをトレーニングするのではなく、2 兆のトークンで 70 億のパラメーターのモデルをトレーニングすることを選択します。
100 億パラメータのモデルでは、コンピューティングに最適なスイート スポットに到達するには約 2,000 億のトークンが必要であると推定されています。
規模の大きなライバルの品質に匹敵しながら、クエリごとの推論コストを削減するために、小規模なデプロイモデルを正当化します。
既存のモデルを監査し、トレーニングが不十分であると結論付け、パラメーターを増やす代わりに、より長いトレーニングの実行を計画します。
実装パターン
チンチラのコンピューティング最適化トレーニングの実践
同じ予算内で、少なすぎるデータで 300 億のモデルをトレーニングするのではなく、2 兆のトークンで 70 億のパラメーターのモデルをトレーニングすることを選択します。
同じ予算内で、少なすぎるデータで 300 億のモデルをトレーニングするのではなく、2 兆のトークンで 70 億のパラメーター モデルをトレーニングすることを選択する チームは通常、品質のしきい値を事前に定義し、エッジ ケースに対する人間によるエスカレーション パスを確保し、生産性の向上とエラー コストの両方を長期的に追跡すると、より良い結果が得られます。
チンチラのコンピューティング最適化トレーニングの実践
100 億パラメータのモデルでは、コンピューティングに最適なスイート スポットに到達するには約 2,000 億のトークンが必要であると推定されています。
100 億パラメータのモデルでは、コンピューティングに最適なスイート スポットに到達するために約 2,000 億のトークンが必要であると推定されています。チームは通常、品質のしきい値を事前に定義し、エッジ ケースに対する人間によるエスカレーション パスを確保し、生産性の向上とエラー コストの両方を長期にわたって追跡すると、より良い結果が得られます。
チンチラのコンピューティング最適化トレーニングの実践
規模の大きなライバルの品質に匹敵しながら、クエリごとの推論コストを削減するために、小規模なデプロイモデルを正当化します。
小規模なデプロイモデルを正当化して、大規模な競合他社の品質に匹敵しながら、クエリごとの推論コストを削減する チームは、通常、品質のしきい値を事前に定義し、エッジケースに対して人的エスカレーションパスを確保し、生産性の向上とエラーコストの両方を長期的に追跡すると、より良い結果が得られます。
チンチラのコンピューティング最適化トレーニングの実践
既存のモデルを監査し、トレーニングが不十分であると結論付け、パラメーターを増やす代わりに、より長いトレーニングの実行を計画します。
既存のモデルを監査して、トレーニングが不十分であると結論付け、パラメーターを増やす代わりに、より長いトレーニングの実行を計画します。チームは通常、品質のしきい値を事前に定義し、エッジ ケースに対する人間によるエスカレーション パスを確保し、生産性の向上とエラー コストの両方を長期的に追跡すると、より良い結果が得られます。
リスクとガードレール
チームが異なれば、同じ用語の使用方法も異なる可能性があるため、範囲を早めに定義してください。
ベンチマークは好調に見えても、実際のパフォーマンスにはばらつきがある場合があります。
データの品質と評価計画を無視すると、多くの場合、脆弱な結果が生じます。
実装ロードマップ
必要な結果を平易な言葉で定義することから始めます。
必要な結果を平易な言葉で定義することから始めます。各ステップを証拠ゲートとして扱います。基準が満たされない場合は、ロールアウトを一時停止し、ギャップを埋めてから、使用を拡大します。
テストする前に、成功指標と失敗条件を 1 つ選択します。
テストする前に、成功指標と失敗条件を 1 つ選択します。各ステップを証拠ゲートとして扱います。基準が満たされない場合は、ロールアウトを一時停止し、ギャップを埋めてから、使用を拡大します。
洗練されたデモセットではなく、代表的なデータを使用して小規模なパイロットを実行します。
洗練されたデモセットではなく、代表的なデータを使用して小規模なパイロットを実行します。各ステップを証拠ゲートとして扱います。基準が満たされない場合は、ロールアウトを一時停止し、ギャップを埋めてから、使用を拡大します。
Chinchilla Compute-Optimal Training がどのような場合に役立つのか、また、よりシンプルな方法の方が優れているのかを文書化します。
Chinchilla Compute-Optimal Training がどのような場合に役立つのか、また、よりシンプルな方法の方が優れているのかを文書化します。各ステップを証拠ゲートとして扱います。基準が満たされない場合は、ロールアウトを一時停止し、ギャップを埋めてから、使用を拡大します。