テクニカルガイド

Mixup と CutMix の拡張

Mixup と CutMix は、2 つの画像とそのラベルをブレンドすることで新しいトレーニング サンプルを作成するデータ拡張メソッドです。

概要

Mixup と CutMix は、2 つの画像とそのラベルをブレンドすることで新しいトレーニング サンプルを作成するデータ拡張メソッドです。 Mixup は画像とラベル全体を線形補間しますが、CutMix はある画像から別の画像に長方形のパッチを貼り付け、パッチ領域ごとにラベルを混合します。どちらも過剰適合を軽減し、堅牢性を向上させます。

Mixup と CutMix Augmentation は、大規模なモデルの品質、インフラストラクチャのコスト、レイテンシー、信頼性に影響を与える技術的な構成要素です。

ディープダイブ

Mixup (Zhang et al., 2017) は、ラベル ỹ を同じ λ で混合した x̃ = λ・x_a + (1−λ)・x_b として新しいサンプルを形成します。ここで、λ はベータ分布から抽出されます。これにより、モデルがサンプル間で線形に動作するようになり、決定境界が平滑化され、キャリブレーションが向上します。 CutMix (Yun et al., 2019) は代わりに、画像 B から長方形の領域を切り取り、それを画像 A に貼り付けます。ラベルの重みは、各画像が寄与するピクセルの割合によって設定されます。 CutMix は (ゴースト的なブレンドではなく) 局所的に一貫した画像領域を維持するため、モデルに複数のオブジェクトやパーツを強制的に適用しながら、有用な空間構造を維持します。どちらの手法も強力な正則化機能として機能し、ImageNet スケールのベンチマークの精度を高め、破損や敵対的な入力に対する堅牢性を著しく向上させます。

技術的な洞察

どちらの方法でも、入力だけでなく損失ターゲットも変更されます。ラベルはソフトな混合ターゲットになるため、クロスエントロピー損失は 2 つのクラスの λ 重み付けされた組み合わせになります。これは、事実上、ピクセル混合比に関連付けられたラベル平滑化の一種です。 CutMix では、λ は、カット ボックス領域を画像領域全体で割って計算される、変更されていないピクセルの割合に等しく、これにより、表示される各画像の量とラベルの比率の一貫性が保たれます。

ミックスアップとカットミックス拡張をマスタリングする

Mixup と CutMix は、2 つの画像とそのラベルをブレンドすることで新しいトレーニング サンプルを作成するデータ拡張メソッドです。 Mixup は画像とラベル全体を線形補間しますが、CutMix はある画像から別の画像に長方形のパッチを貼り付け、パッチ領域ごとにラベルを混合します。どちらも過剰適合を軽減し、堅牢性を向上させます。 Mixup と CutMix Augmentation は、大規模なモデルの品質、インフラストラクチャのコスト、レイテンシー、信頼性に影響を与える技術的な構成要素です。深い理解を得るには、Mixup と CutMix Augmentation を単一の機能ではなく、オペレーティング モデルとして扱います。望ましい結果を定義し、前提条件を明確にし、システムが確実に実行できることと専門家の判断が必要なことを区別します。

実際、Mixup と CutMix Augmentation を使用する強力なチームは、信頼性とコストに照らしてアーキテクチャ、データ、インフラストラクチャの選択を最適化します。明示的な成功基準を文書化し、現実的なデータとワークフローに対してテストし、一度限りのベンチマークの成功ではなく、観察された失敗パターンに基づいて反復します。ここで、理論的な理解が、製品、ポリシー、運用全体にわたる永続的な機能に変わります。

アーキテクチャの決定により、パフォーマンスと運用コストが何年にもわたって推進されます。同時に、1 つのベンチマークを最適化すると、より広範なシステムの弱点が隠れる可能性があります。最も回復力のあるアプローチは、実験のスピードとガバナンスの規律を組み合わせることであり、パイロットを実行し、証拠を取得し、意思決定ログを公開し、モデルの動作、ユーザーの期待、規制要件の進化に応じて安全対策を継続的に更新します。

戦略的影響

アーキテクチャの決定により、パフォーマンスと運用コストが何年にもわたって推進されます。

アーキテクチャの決定により、パフォーマンスと運用コストが何年にもわたって推進されます。高品質の導入では、これが測定可能な運用ルール、所有権の境界、定期的なレビューの儀式に変換されるため、チームは曖昧さを拡大するのではなく、自信を拡大することができます。

技術教育は、チームが最新のスタックだけでなく、適切なスタックを選択するのに役立ちます。

技術教育は、チームが最新のスタックだけでなく、適切なスタックを選択するのに役立ちます。高品質の導入では、これが測定可能な運用ルール、所有権の境界、定期的なレビューの儀式に変換されるため、チームは曖昧さを拡大するのではなく、自信を拡大することができます。

より良いエンジニアリングの選択により、本番環境での信頼性に関するインシデントが減少します。

より良いエンジニアリングの選択により、本番環境での信頼性に関するインシデントが減少します。高品質の導入では、これが測定可能な運用ルール、所有権の境界、定期的なレビューの儀式に変換されるため、チームは曖昧さを拡大するのではなく、自信を拡大することができます。

Mixup と CutMix Augmentation の未来

ミックスベースの拡張は現在、強力な画像分類レシピの標準となっており、多くの場合高度な正則化が必要なビジョン トランスフォーマーの最新のトレーニング パイプラインを支えています。顕著性を意識したバリアント (情報領域にカットを配置するなど)、トランスフォーマーのトークンレベルのミキシング、オーディオ、テキスト、および 3D データの拡張に関する研究が続けられています。アーキテクチャがより多くのデータを必要とするようになるにつれて、混合戦略は精度、キャリブレーション、堅牢性を高めるための低コストの手段であり続けることが予想されます。

現実世界の実装

CutMix を使用して ImageNet 分類子をトレーニングして、トップ 1 の精度を高め、オブジェクトの位置特定を改善します。

Mixup を適用してモデルのキャリブレーションを改善し、予測された信頼度が実際の精度とより一致するようにします。

限られたデータでトレーニングするために、Mixup と CutMix を組み合わせたビジョン トランスフォーマー (DeiT など) を大幅に正則化します。

セーフティクリティカルなビジョンシステムにおける画像の破損や分布外の入力に対する堅牢性が向上します。

実装パターン

Mixup と CutMix Augmentation の実践

CutMix を使用して ImageNet 分類子をトレーニングして、トップ 1 の精度を高め、オブジェクトの位置特定を改善します。

CutMix を使用して ImageNet 分類器をトレーニングしてトップ 1 の精度を高め、オブジェクトの位置特定を改善する チームは通常、品質のしきい値を事前に定義し、エッジ ケースに対する人的エスカレーション パスを維持し、生産性の向上とエラー コストの両方を長期的に追跡すると、より良い結果が得られます。

Mixup と CutMix Augmentation の実践

Mixup を適用してモデルのキャリブレーションを改善し、予測された信頼度が実際の精度とより一致するようにします。

Mixup を適用してモデルのキャリブレーションを改善し、予測された信頼度が実際の精度とより一致するようにする 通常、チームは、品質のしきい値を事前に定義し、エッジ ケースに対する人的エスカレーション パスを維持し、生産性の向上とエラー コストの両方を長期にわたって追跡すると、より良い結果が得られます。

Mixup と CutMix Augmentation の実践

限られたデータでトレーニングするために、Mixup と CutMix を組み合わせたビジョン トランスフォーマー (DeiT など) を大幅に正則化します。

Mixup と CutMix を組み合わせてビジョン トランスフォーマー (DeiT など) を大幅に正規化し、限られたデータでトレーニングする チームは通常、品質のしきい値を事前に定義し、エッジ ケースに対する人的エスカレーション パスを維持し、生産性の向上とエラー コストの両方を長期的に追跡すると、より良い結果が得られます。

Mixup と CutMix Augmentation の実践

セーフティクリティカルなビジョンシステムにおける画像の破損や分布外の入力に対する堅牢性が向上します。

セーフティ クリティカルなビジョン システムにおける画像破損や配分外入力に対する堅牢性の向上 通常、チームは、品質のしきい値を事前に定義し、エッジ ケースに対する人的エスカレーション パスを確保し、生産性の向上とエラー コストの両方を長期にわたって追跡すると、より良い結果が得られます。

リスクとガードレール

!

1 つのベンチマークを最適化すると、より広範なシステムの弱点が隠れる可能性があります。

!

インフラストラクチャとメンテナンスのコストは過小評価されがちです。

!

システムが複雑になるにつれて、セキュリティと可観測性のギャップが拡大する可能性があります。

実装ロードマップ

1

実装前にレイテンシ、品質、コストの目標を定義します。

実装前にレイテンシ、品質、コストの目標を定義します。各ステップを証拠ゲートとして扱います。基準が満たされない場合は、ロールアウトを一時停止し、ギャップを埋めてから、使用を拡大します。

2

現実的な負荷とデータ条件でのベンチマーク。

現実的な負荷とデータ条件でのベンチマーク。各ステップを証拠ゲートとして扱います。基準が満たされない場合は、ロールアウトを一時停止し、ギャップを埋めてから、使用を拡大します。

3

エラー、ドリフト、ユーザーへの影響を計測器で監視します。

エラー、ドリフト、ユーザーへの影響を計測器で監視します。各ステップを証拠ゲートとして扱います。基準が満たされない場合は、ロールアウトを一時停止し、ギャップを埋めてから、使用を拡大します。

4

スケーリングの前に、ロールバックとインシデント対応のパスを準備します。

スケーリングの前に、ロールバックとインシデント対応のパスを準備します。各ステップを証拠ゲートとして扱います。基準が満たされない場合は、ロールアウトを一時停止し、ギャップを埋めてから、使用を拡大します。

探検を続けましょう