言語AIガイド

KVキャッシュ

KV キャッシュには、トランスフォーマーが以前のトークンに対してすでに計算したキーベクトルと値ベクトルが格納されているため、生成する新しい単語ごとにそれらを再計算する必要はありません。

概要

KV キャッシュには、トランスフォーマーが以前のトークンに対してすでに計算したキーベクトルと値ベクトルが格納されているため、生成する新しい単語ごとにそれらを再計算する必要はありません。これがテキスト生成が速い唯一の最大の理由であり、長時間の会話中に GPU メモリを消費する主な理由です。

KV キャッシュは、テキストや音声を大規模に読み取り、生成、分類、変換するために使用される言語 AI スタックの一部です。

ディープダイブ

トランスフォーマーは一度に 1 トークンずつテキストを生成し、各新しいトークンのアテンションレイヤーを以前のすべてのトークンと比較する必要があります。アテンションメカニズムは、各トークンをクエリ、キー、および値のベクトルに変換します。キャッシュを使用しない場合、トークン番号 1,000 を生成すると、各ステップで以前の 999 個のトークンすべてのキーと値を再計算することになり、二次的な無駄な作業になります。 KV キャッシュは、最初に計算された後にそれらのキーと値のベクトルを保存して再利用するため、新しい各ステップでは 1 つの最新トークンのベクトルのみを計算し、保存されたキャッシュを処理します。これにより、トークンごとのコストがシーケンス長によるスケーリングからほぼ一定まで縮小されます。トレードオフはメモリです。キャッシュはコンテキストの長さ、レイヤの数、およびアテンションヘッドに応じて直線的に増加し、多くの場合、長いコンテキストのサービスでは主要なメモリ消費者になります。

技術的な洞察

「プレフィル」フェーズでは、モデルはプロンプト全体を処理し、キャッシュを埋めます。「デコード」中に、ステップごとに 1 つのトークンの K/V を追加し、再参加します。キャッシュサイズは、選択した精度で、2 (K および V) × レイヤー × ヘッド × head_dim × sequence_length × バッチとしてスケールされます。これを抑えるために、最新のモデルはグループ化クエリまたはマルチクエリアテンションを使用してヘッド間でキー/値を共有し、vLLM のようなサービスシステムは PagedAttendance を使用して非連続ブロックにキャッシュを割り当て、断片化と無駄を削減します。

KV キャッシュのマスタリング

KV キャッシュには、トランスフォーマーが以前のトークンに対してすでに計算したキーベクトルと値ベクトルが格納されているため、生成する新しい単語ごとにそれらを再計算する必要はありません。これがテキスト生成が速い唯一の最大の理由であり、長時間の会話中に GPU メモリを消費する主な理由です。 KV キャッシュは、テキストや音声を大規模に読み取り、生成、分類、変換するために使用される言語 AI スタックの一部です。深い理解を得るには、KV キャッシュを単一の機能ではなくオペレーティングモデルとして扱います。望ましい結果を定義し、前提条件を明確にし、システムが確実に実行できることと、専門家の判断が必要なことを区別します。

実際には、KV キャッシュを使用する強力なチームは、プロンプト、取得、レビューのループを 1 つの統合された通信システムとして設計します。明示的な成功基準を文書化し、現実的なデータとワークフローに対してテストし、一度限りのベンチマークの成功ではなく、観察された失敗パターンに基づいて反復します。ここで、理論的な理解が、製品、ポリシー、運用全体にわたる永続的な機能に変わります。

言語ワークフローは、一貫性を犠牲にすることなく、より高速に移行できます。同時に、幻覚の事実がレポート、サポートフロー、または研究成果に静かに入力される可能性があります。最も回復力のあるアプローチは、実験のスピードとガバナンスの規律を組み合わせることであり、パイロットを実行し、証拠を取得し、意思決定ログを公開し、モデルの動作、ユーザーの期待、規制要件の進化に応じて安全対策を継続的に更新します。

戦略的影響

言語ワークフローは、一貫性を犠牲にすることなく、より高速に移行できます。

言語ワークフローは、一貫性を犠牲にすることなく、より高速に移行できます。高品質の導入では、これが測定可能な運用ルール、所有権の境界、定期的なレビューの儀式に変換されるため、チームは曖昧さを拡大するのではなく、自信を拡大することができます。

言語やコミュニケーションスタイルを超えてアクセスが拡張されます。

言語やコミュニケーションスタイルを超えてアクセスが拡張されます。高品質の導入では、これが測定可能な運用ルール、所有権の境界、定期的なレビューの儀式に変換されるため、チームは曖昧さを拡大するのではなく、自信を拡大することができます。

自動化が繰り返しを処理する間、チームは判断により多くの時間を費やすことができます。

自動化が繰り返しを処理する間、チームは判断により多くの時間を費やすことができます。高品質の導入では、これが測定可能な運用ルール、所有権の境界、定期的なレビューの儀式に変換されるため、チームは曖昧さを拡大するのではなく、自信を拡大することができます。

KV キャッシュの将来

コンテキストウィンドウが数十万のトークンに拡張されると、KV キャッシュが中心的なボトルネックになるため、8 ビットまたは 4 ビットへのキャッシュ量子化、重要度の低いトークンをドロップするエビクションポリシー、クロスリクエストプレフィックス共有、CPU またはディスクへのオフロードなど、革新が激しく行われています。マルチヘッドの潜在的な注意などのアーキテクチャの変更により、キャッシュ自体が圧縮されます。非常に長いコンテキストを安価かつ高スループットで提供することを目的とした、アテンションのバリアントとメモリシステムの継続的な共同設計が期待されます。

現実世界の実装

会話履歴を毎ターン再処理するのではなく、会話履歴からキャッシュされたキー/値を再利用することで、チャットボットの返信を高速化します。

長いシステムプロンプトのキャッシュを多くのユーザー間で共有するプレフィックスキャッシュにより、コストと遅延が削減されます。

vLLM の PagedAttend は、KV キャッシュをブロック単位で管理し、1 つの GPU で多くの同時リクエストを効率的に処理します。

限られた GPU メモリに長いコンテキストを収めるために、KV キャッシュを量子化して精度を下げます。

実装パターン

KVキャッシュの実際

会話履歴を毎ターン再処理するのではなく、会話履歴からキャッシュされたキー/値を再利用することで、チャットボットの返信を高速化します。

会話履歴を毎ターン再処理するのではなく、会話履歴からキャッシュされたキー/値を再利用することで、チャットボットの返信を高速化します。チームは通常、品質のしきい値を事前に定義し、エッジケースに対する人間によるエスカレーションパスを確保し、生産性の向上とエラーコストの両方を長期的に追跡すると、より良い結果が得られます。

KVキャッシュの実際

長いシステムプロンプトのキャッシュを多くのユーザー間で共有するプレフィックスキャッシュにより、コストと遅延が削減されます。

長いシステムプロンプトのキャッシュを多くのユーザー間で共有するプレフィックスキャッシュにより、コストと遅延が削減されます。チームは通常、品質のしきい値を事前に定義し、エッジケースに対する人的エスカレーションパスを確保し、生産性の向上とエラーコストの両方を長期的に追跡すると、より良い結果が得られます。

KVキャッシュの実際

vLLM の PagedAttend は、KV キャッシュをブロック単位で管理し、1 つの GPU で多くの同時リクエストを効率的に処理します。

vLLM の PagedAttending KV キャッシュをブロック単位で管理し、1 つの GPU で多くの同時リクエストを効率的に処理します。チームは通常、品質のしきい値を事前に定義し、エッジケースに対する人的エスカレーションパスを確保し、生産性の向上とエラーコストの両方を長期的に追跡すると、より良い結果が得られます。

KVキャッシュの実際

限られた GPU メモリに長いコンテキストを収めるために、KV キャッシュを量子化して精度を下げます。

KV キャッシュを量子化して精度を下げ、限られた GPU メモリに長いコンテキストを適合させるチームは通常、品質のしきい値を事前に定義し、エッジケースに対する人的エスカレーションパスを確保し、生産性の向上とエラーコストの両方を長期にわたって追跡すると、より良い結果が得られます。

リスクとガードレール

幻覚のような事実が、レポート、サポートフロー、または研究結果に静かに組み込まれる可能性があります。

迅速な対応により、同様のリクエスト間で一貫性のない結果が生じる可能性があります。

アクセス制御が弱いと、機密テキストデータが漏洩する可能性があります。

実装ロードマップ

展開する前に、出力形式、トーン、品質基準を定義します。

展開する前に、出力形式、トーン、品質基準を定義します。各ステップを証拠ゲートとして扱います。基準が満たされない場合は、ロールアウトを一時停止し、ギャップを埋めてから、使用を拡大します。

正確さが重要な場合は常に、信頼できる情報源を使って地上対応を行ってください。

正確さが重要な場合は常に、信頼できる情報源を使って地上対応を行ってください。各ステップを証拠ゲートとして扱います。基準が満たされない場合は、ロールアウトを一時停止し、ギャップを埋めてから、使用を拡大します。

一か八かの成果物については人間によるレビューチェックポイントを維持します。

一か八かの成果物については人間によるレビューチェックポイントを維持します。各ステップを証拠ゲートとして扱います。基準が満たされない場合は、ロールアウトを一時停止し、ギャップを埋めてから、使用を拡大します。

失敗パターンを追跡し、プロンプトやワークフローを定期的に再トレーニングします。

失敗パターンを追跡し、プロンプトやワークフローを定期的に再トレーニングします。各ステップを証拠ゲートとして扱います。基準が満たされない場合は、ロールアウトを一時停止し、ギャップを埋めてから、使用を拡大します。

探検を続けましょう

ChatGPT と LLM

最新の言語モデルがどのように生成され、推論されるかを見てみましょう。

ガイドを読む

NLPの基礎

これらのツールの背後にある言語処理の基礎を学びます。

ガイドを読む