テクニカルガイド

クラスの不均衡とリサンプリング

クラスの不均衡とは、1 つの結果が別の結果を大幅に上回る場合 (99 など) です。

概要

クラスの不均衡とは、1 つの結果が別の結果を大幅に上回る場合 (99.9% の正当なトランザクションと 0.1% の不正行為など) で、まれではあるが重要なクラスを無視するようにモデルを騙します。リサンプリングによりトレーニング データのバランスが再調整されるため、モデルは実際に少数派を特定することを学習します。

クラスの不均衡とリサンプリングは、大規模なモデルの品質、インフラストラクチャのコスト、遅延、信頼性に影響を与える技術的な構成要素です。

ディープダイブ

クラスが偏っている場合、モデルは常に大多数を予測し、不正行為を 1 つも検出しないことで 99.9% の精度を達成できますが、これは役に立ちません。リサンプリングは、大きく 2 つの方法でトレーニング分布を修正します。オーバーサンプリングは少数派サンプルを複製または合成します。古典的な SMOTE (合成少数派オーバーサンプリング技術) は、少数派サンプルとその最も近い少数派サンプルの間をコピーするのではなく、それらの間を補間することによって新しいポイントを作成します。代わりにアンダーサンプリングでは、データを破棄するという犠牲を払って、大部分のサンプルを (ランダムに、または Tomek リンクや NearMiss などの方法を介して賢明に) 破棄して平準化します。データへの接触を避ける代替案には、クラスの重み付け (損失関数で少数のエラーにさらにペナルティを与える) やトレーニング後の決定しきい値の調整が含まれます。

技術的な洞察

重要なルール: トレーニング セットのみをリサンプリングし、検証セットやテスト セットは決してリサンプリングせず、常に相互検証フォールド内でリサンプリングします。分割前のオーバーサンプリングにより、重複に近い点がテスト セットに漏れ、スコアが膨らみます。ここでは精度は無意味であるため、評価は適合率、再現率、F1、適合率-再現率 AUC、またはマシューズ相関係数 (陽性クラスがまれな場合でも誠実さを保つ指標) に依存する必要があります。

クラスの不均衡とリサンプリングのマスタリング

クラスの不均衡とは、1 つの結果が別の結果を大幅に上回る場合 (99.9% の正当なトランザクションと 0.1% の不正行為など) で、まれではあるが重要なクラスを無視するようにモデルを騙します。リサンプリングによりトレーニング データのバランスが再調整されるため、モデルは実際に少数派を特定することを学習します。クラスの不均衡とリサンプリングは、大規模なモデルの品質、インフラストラクチャのコスト、遅延、信頼性に影響を与える技術的な構成要素です。深い理解を得るには、クラスの不均衡とリサンプリングを単一の機能ではなくオペレーティング モデルとして扱います。目的の結果を定義し、前提条件を明確にし、システムが確実に実行できることと専門家の判断が必要なことを区別します。

実際、クラス不均衡とリサンプリングを使用する強力なチームは、信頼性とコストに照らしてアーキテクチャ、データ、インフラストラクチャの選択を最適化します。明示的な成功基準を文書化し、現実的なデータとワークフローに対してテストし、一度限りのベンチマークの成功ではなく、観察された失敗パターンに基づいて反復します。ここで、理論的な理解が、製品、ポリシー、運用全体にわたる永続的な機能に変わります。

アーキテクチャの決定により、パフォーマンスと運用コストが何年にもわたって推進されます。同時に、1 つのベンチマークを最適化すると、より広範なシステムの弱点が隠れる可能性があります。最も回復力のあるアプローチは、実験のスピードとガバナンスの規律を組み合わせることであり、パイロットを実行し、証拠を取得し、意思決定ログを公開し、モデルの動作、ユーザーの期待、規制要件の進化に応じて安全対策を継続的に更新します。

戦略的影響

アーキテクチャの決定により、パフォーマンスと運用コストが何年にもわたって推進されます。

アーキテクチャの決定により、パフォーマンスと運用コストが何年にもわたって推進されます。高品質の導入では、これが測定可能な運用ルール、所有権の境界、定期的なレビューの儀式に変換されるため、チームは曖昧さを拡大するのではなく、自信を拡大することができます。

技術教育は、チームが最新のスタックだけでなく、適切なスタックを選択するのに役立ちます。

技術教育は、チームが最新のスタックだけでなく、適切なスタックを選択するのに役立ちます。高品質の導入では、これが測定可能な運用ルール、所有権の境界、定期的なレビューの儀式に変換されるため、チームは曖昧さを拡大するのではなく、自信を拡大することができます。

より良いエンジニアリングの選択により、本番環境での信頼性に関するインシデントが減少します。

より良いエンジニアリングの選択により、本番環境での信頼性に関するインシデントが減少します。高品質の導入では、これが測定可能な運用ルール、所有権の境界、定期的なレビューの儀式に変換されるため、チームは曖昧さを拡大するのではなく、自信を拡大することができます。

クラスの不均衡とリサンプリングの未来

リサンプリングは ML パイプライン内でますます自動化されており、不均衡学習のようなライブラリが相互検証に直接統合されています。研究は、コスト重視の学習と、簡単な大多数の例を重み付けする焦点損失などのカスタマイズされた損失関数に移行しており、多くの場合、深いネットワークでの粗雑なリサンプリングよりも優れたパフォーマンスを発揮します。表形式および画像データの場合、現実的な少数サンプルを合成する生成モデルが、SMOTE スタイルの内挿のより洗練された後継モデルとして登場しています。

現実世界の実装

本物の不正行為が取引の 1% 未満であるクレジット カード不正行為検出器をトレーニングし、SMOTE を使用してまれな不正行為を増幅します。

患者の数パーセントのみに存在する希少疾患の医学モデルを構築し、クラスの重み付けを適用して、見逃した症例に大きなペナルティを課す

ほぼすべての製品が検査に合格する製造ラインで不良品を検出し、トレーニングのバランスを取るために「良品」をアンダーサンプリングする

通常のトラフィックが大半を占めるサイバーセキュリティ ログで、まれなネットワーク侵入にフラグを立てます。精度ではなく精度-再現率 AUC で評価されます。

実装パターン

実際のクラスの不均衡とリサンプリング

本物の不正行為が取引の 1% 未満であるクレジット カード不正行為検出器をトレーニングし、SMOTE を使用してまれな不正行為を増幅します。

本物の不正行為が取引の 1% 未満であるクレジット カード不正行為検出器をトレーニングし、SMOTE を使用してまれな不正行為ケースを拡大する チームは通常、品質のしきい値を事前に定義し、エッジ ケースに対する人的エスカレーション パスを維持し、生産性の向上とエラー コストの両方を長期的に追跡すると、より良い結果が得られます。

実際のクラスの不均衡とリサンプリング

患者の数パーセントにしか存在しない希少疾患の医学モデルを構築し、クラスの重み付けを適用して、見逃された症例に大きなペナルティが課されるようにします。

患者の数パーセントのみに存在する希少疾患の医学モデルを構築し、クラスの重み付けを適用して、見逃されたケースに大きなペナルティが課される チームは通常、品質のしきい値を事前に定義し、エッジケースに対する人的エスカレーションパスを維持し、生産性の向上とエラーコストの両方を長期的に追跡すると、より良い結果が得られます。

実際のクラスの不均衡とリサンプリング

ほぼすべての製品が検査に合格する製造ラインで不良品を検出し、トレーニングのバランスをとるために「良品」のアイテムをアンダーサンプリングします。

ほぼすべての製品が検査に合格する製造ラインで欠陥品を検出し、トレーニングのバランスをとるために「良品」品目をアンダーサンプリングする チームは通常、品質のしきい値を事前に定義し、エッジケースに対する人的エスカレーションパスを確保し、生産性の向上とエラーコストの両方を長期にわたって追跡すると、より良い結果が得られます。

実際のクラスの不均衡とリサンプリング

通常のトラフィックが大半を占めるサイバーセキュリティ ログで、まれなネットワーク侵入にフラグを立てます。精度ではなく精度-再現率 AUC で評価されます。

通常のトラフィックが大半を占めるサイバーセキュリティ ログで、まれなネットワーク侵入にフラグを立てます。精度ではなくプレシジョンリコール AUC で評価されます。チームは通常、品質のしきい値を事前に定義し、エッジ ケースに対する人的エスカレーション パスを確保し、生産性の向上とエラー コストの両方を長期的に追跡すると、より良い結果が得られます。

リスクとガードレール

!

1 つのベンチマークを最適化すると、より広範なシステムの弱点が隠れる可能性があります。

!

インフラストラクチャとメンテナンスのコストは過小評価されがちです。

!

システムが複雑になるにつれて、セキュリティと可観測性のギャップが拡大する可能性があります。

実装ロードマップ

1

実装前にレイテンシ、品質、コストの目標を定義します。

実装前にレイテンシ、品質、コストの目標を定義します。各ステップを証拠ゲートとして扱います。基準が満たされない場合は、ロールアウトを一時停止し、ギャップを埋めてから、使用を拡大します。

2

現実的な負荷とデータ条件でのベンチマーク。

現実的な負荷とデータ条件でのベンチマーク。各ステップを証拠ゲートとして扱います。基準が満たされない場合は、ロールアウトを一時停止し、ギャップを埋めてから、使用を拡大します。

3

エラー、ドリフト、ユーザーへの影響を計測器で監視します。

エラー、ドリフト、ユーザーへの影響を計測器で監視します。各ステップを証拠ゲートとして扱います。基準が満たされない場合は、ロールアウトを一時停止し、ギャップを埋めてから、使用を拡大します。

4

スケーリングの前に、ロールバックとインシデント対応のパスを準備します。

スケーリングの前に、ロールバックとインシデント対応のパスを準備します。各ステップを証拠ゲートとして扱います。基準が満たされない場合は、ロールアウトを一時停止し、ギャップを埋めてから、使用を拡大します。

探検を続けましょう