基本ガイド

敵対的生成ネットワーク

Generative Adversarial Network (GAN) は、2 つのニューラルネットワークを競争させることで、現実的な新しいデータを作成します。

概要

Generative Adversarial Network (GAN) は、2 つのニューラルネットワークを競争させることで、現実的な新しいデータを作成します。これらは、AI によって生成された説得力のある顔の最初の波を生み出し、今でも生成 AI における画期的なアイデアです。

Generative Adversarial Networks は、コア AI ツールキットに組み込まれています。それを理解すると、他の AI トピックの評価や比較が容易になります。

ディープダイブ

2014 年にイアングッドフェローによって導入された GAN は、2 つのネットワークを同時にトレーニングします。ジェネレーターは、ランダムノイズから始めて、画像などの偽のサンプルを作成します。ディスクリミネーターは、各サンプルが本物 (トレーニングデータから) か偽物 (ジェネレーターから) かを判断します。それらは競争します。生成者はディスクリミネーターをだまそうとしますが、ディスクリミネーターはだまされないよう努めます。両方が改善されると、偽物は驚くほど現実的になります。 GAN は、StyleGAN が高解像度ポートレートの標準を設定し、「This People Does Not Exist」のフォトリアリスティックな顔を実現しました。これらはトレーニングが難しいことで有名で、不安定性や、ジェネレーターが少数の繰り返し出力しか生成しない「モード崩壊」が起こりやすいです。それ以来、多くの画像タスクでは拡散モデルが普及モデルを追い越しましたが、GAN は依然として生成が速く、影響力を持っています。

技術的な洞察

トレーニングは、反対の目標を持つ 2 つのネットワーク間のミニマックスゲームです。弁別器は、実際のデータには高いスコアを出力し、生成されたデータには低いスコアを出力するようにトレーニングされています。ジェネレーターは、ディスクリミネーターが偽物に対して高いスコアを出力するようにトレーニングされています。重要なのは、ジェネレーターは実際の画像を直接見ることはなく、ディスクリミネーターを介して返された勾配信号からのみ学習します。理論的平衡では、ジェネレーターの出力分布は実際のデータと一致し、ディスクリミネーターは推測以上のことはできません。

敵対的生成ネットワークをマスターする

深い理解を得るには、敵対的生成ネットワークを単一の機能ではなく、オペレーティングモデルとして扱います。望ましい結果を定義し、前提条件を明確にし、システムが確実に実行できることと、依然として専門家の判断が必要なことを分離します。

実際には、敵対的生成ネットワークを使用する強力なチームは、最初に強力な概念モデルを構築し、次にそれらのモデルを実際の運用上の制約にマッピングします。明示的な成功基準を文書化し、現実的なデータとワークフローに対してテストし、一度限りのベンチマークの成功ではなく、観察された失敗パターンに基づいて反復します。ここで、理論的な理解が、製品、ポリシー、運用全体にわたる永続的な機能に変わります。

これは、明確な技術的主張とマーケティング言語を区別するのに役立ちます。同時に、チームが異なると同じ用語を異なる方法で使用する可能性があるため、範囲を早期に定義します。最も回復力のあるアプローチは、実験のスピードとガバナンスの規律を組み合わせることであり、パイロットを実行し、証拠を取得し、意思決定ログを公開し、モデルの動作、ユーザーの期待、規制要件の進化に応じて安全対策を継続的に更新します。

戦略的影響

これは、明確な技術的主張とマーケティング言語を区別するのに役立ちます。

これは、明確な技術的主張とマーケティング言語を区別するのに役立ちます。高品質の導入では、これが測定可能な運用ルール、所有権の境界、定期的なレビューの儀式に変換されるため、チームは曖昧さを拡大するのではなく、自信を拡大することができます。

お金や時間を費やす前に、実装に関するより良い質問をすることができます。

お金や時間を費やす前に、実装に関するより良い質問をすることができます。高品質の導入では、これが測定可能な運用ルール、所有権の境界、定期的なレビューの儀式に変換されるため、チームは曖昧さを拡大するのではなく、自信を拡大することができます。

共通の理解を持ったチームは、製品、ポリシー、学習に関する意思決定をより適切に行うことができます。

共通の理解を持ったチームは、製品、ポリシー、学習に関する意思決定をより適切に行うことができます。高品質の導入では、これが測定可能な運用ルール、所有権の境界、定期的なレビューの儀式に変換されるため、チームは曖昧さを拡大するのではなく、自信を拡大することができます。

敵対的生成ネットワークの未来

現在、高品質の画像生成は拡散モデルが主流となっているため、純粋な GAN は多くのクリエイティブなタスクにおいて王冠を失いました。 GAN の利点は速度です。GAN は 1 回の順方向パスで画像を生成しますが、拡散には多くのステップが必要であるため、GAN はリアルタイム使用、超解像度、オンデバイス生成で持続します。ハイブリッドシステムでは、他のモデルからの出力を鮮明にするために GAN スタイルの敵対的損失を使用することが増えています。 GAN はヘッドラインジェネレーターではなく、高速で軽量なコンポーネントとして存続すると予想されます。

現実世界の実装

ThisPersonDoesNotExist.com のように、存在しない人々の写実的な顔を生成する

低解像度画像や古いビデオのアップスケーリングと鮮明化 (超解像度)

実際のデータが不足している、またはプライベートなフィールド向けに合成トレーニングデータを作成する

スタイル転送と写真編集（スケッチをリアルな画像に変換したり、顔を老化させたりするなど）

実装パターン

実際の敵対的生成ネットワーク

ThisPersonDoesNotExist.com のように、存在しない人々の写実的な顔を生成します。

通常、チームは、品質のしきい値を事前に定義し、エッジケースに対して人によるエスカレーションパスを確保し、生産性の向上とエラーコストの両方を長期的に追跡することで、より良い結果を得ることができます。

実際の敵対的生成ネットワーク

低解像度の画像や古いビデオ（超解像度）をアップスケーリングして鮮明にします。

実際の敵対的生成ネットワーク

実際のデータが不足している、またはプライベートなフィールド向けに合成トレーニングデータを作成します。

実際の敵対的生成ネットワーク

スケッチをリアルな画像に変換したり、顔を老化させたりするなど、スタイルの転送と写真の編集。

リスクとガードレール

チームが異なれば、同じ用語の使用方法も異なる可能性があるため、範囲を早めに定義してください。

ベンチマークは好調に見えても、実際のパフォーマンスにはばらつきがある場合があります。

データの品質と評価計画を無視すると、多くの場合、脆弱な結果が生じます。

実装ロードマップ

必要な結果を平易な言葉で定義することから始めます。

これを証拠ゲートとして扱います。基準が満たされない場合は、ロールアウトを一時停止し、ギャップを埋めてから、使用を拡大します。

テストする前に、成功指標と失敗条件を 1 つ選択します。

これを証拠ゲートとして扱います。基準が満たされない場合は、ロールアウトを一時停止し、ギャップを埋めてから、使用を拡大します。

洗練されたデモセットではなく、代表的なデータを使用して小規模なパイロットを実行します。

これを証拠ゲートとして扱います。基準が満たされない場合は、ロールアウトを一時停止し、ギャップを埋めてから、使用を拡大します。

Generative Adversarial Networks が役立つ部分と、より単純な方法の方が優れている部分を文書化します。

これを証拠ゲートとして扱います。基準が満たされない場合は、ロールアウトを一時停止し、ギャップを埋めてから、使用を拡大します。

探検を続けましょう

AIとは何ですか?

さらに深く掘り下げる前に、重要な概念を理解してください。

ガイドを読む

AIはどのように学習するのか

最新のシステムの背後にあるトレーニングプロセスを理解します。

ガイドを読む

Check your understanding

Test yourself: take the Generative Adversarial Networks quiz

Start quiz →

敵対的生成ネットワーク

概要

ディープダイブ

技術的な洞察

敵対的生成ネットワークをマスターする

戦略的影響

敵対的生成ネットワークの未来

現実世界の実装

実装パターン

実際の敵対的生成ネットワーク

実際の敵対的生成ネットワーク

実際の敵対的生成ネットワーク

実際の敵対的生成ネットワーク

リスクとガードレール

実装ロードマップ

探検を続けましょう

AIとは何ですか?

AIはどのように学習するのか

Related guides