ビジュアルAIガイド

DreamFusion とスコア蒸留サンプリング

DreamFusion は、2D 画像拡散モデルを批評家として使用し、3D データでトレーニングすることはなく、テキストから 3D オブジェクトを生成します。

概要

DreamFusion は、2D 画像拡散モデルを批評家として使用し、3D データでトレーニングすることはなく、テキストから 3D オブジェクトを生成します。その中心となる発明であるスコア蒸留サンプリングは、テキストから 3D への分野全体の基礎となるレシピになりました。

DreamFusion と Score Distillation Sampling は、分析、操作、創造性のためにビジュアル メディアを解釈または生成するコンピューター ビジョン ワークフローに属します。

ディープダイブ

2022 年の Google からの DreamFusion は、「2D テキストから画像へのモデルは、3D シーンにあらゆる角度から正しく見えるように教えることができますか?」と質問しました。 NeRF (Neural Radiance Field) を最適化することで、ランダムなカメラ視点からのレンダリングが、ノイズを加えてフリーズ拡散モデル (Imagen) に表示されたときに、テキスト プロンプトに対して妥当な画像としてスコアが付けられます。重要なのは、3D トレーニング データを使用しないことです。画期的な点はスコア蒸留サンプリング (SDS) です。SDS は、拡散モデルの高価な U-Net を介して逆伝播する代わりに、モデルの予測ノイズをレンダリングされたピクセル上の勾配信号として直接使用します。これを何千もの視点にわたって繰り返すことで、ジオメトリとビュー依存の外観を備えた一貫した 3D アセットが 1 つの文から彫刻されます。

技術的な洞察

SDS は、拡散モデルを凍結されたスコアリング関数として扱います。 NeRF をレンダリングし、ノイズを追加し、拡散 U-Net にそのノイズを予測するように依頼し、レンダリングされたイメージにプッシュバックされる (予測されたノイズから追加されたノイズを引いたもの) として勾配を計算し、したがって NeRF の重みを計算します。 U-Net ヤコビアンをスキップすると扱いやすくなります。鮮明な結果を得るには、分類子を使用しない高度なガイダンス (約 100) が必要です。これにより、特徴的な過飽和で、場合によってはぼやけた「DreamFusion の外観」が発生します。

DreamFusion とスコア蒸留サンプリングをマスターする

DreamFusion は、2D 画像拡散モデルを批評家として使用し、3D データでトレーニングすることはなく、テキストから 3D オブジェクトを生成します。その中心となる発明であるスコア蒸留サンプリングは、テキストから 3D への分野全体の基礎となるレシピになりました。 DreamFusion と Score Distillation Sampling は、分析、操作、創造性のためにビジュアル メディアを解釈または生成するコンピューター ビジョン ワークフローに属します。深い理解を得るには、DreamFusion とスコア蒸留サンプリングを単一の機能ではなく、オペレーティング モデルとして扱います。望ましい結果を定義し、前提条件を明確にし、システムが確実に実行できることと、依然として専門家の判断が必要なことを区別します。

実際、DreamFusion とスコア蒸留サンプリングを使用する強力なチームは、精度と、データ品質、照明の差異、ラベル付けの一貫性などの運用上の現実のバランスを保っています。明示的な成功基準を文書化し、現実的なデータとワークフローに対してテストし、一度限りのベンチマークの成功ではなく、観察された失敗パターンに基づいて反復します。ここで、理論的な理解が、製品、ポリシー、運用全体にわたる永続的な機能に変わります。

Visual AI は、検査、検出、タグ付けタスクを大規模に自動化できます。同時に、出所が不明瞭な場合、肖像権と同意が法的リスクになる可能性があります。最も回復力のあるアプローチは、実験のスピードとガバナンスの規律を組み合わせることであり、パイロットを実行し、証拠を取得し、意思決定ログを公開し、モデルの動作、ユーザーの期待、規制要件の進化に応じて安全対策を継続的に更新します。

戦略的影響

Visual AI は、検査、検出、タグ付けタスクを大規模に自動化できます。

Visual AI は、検査、検出、タグ付けタスクを大規模に自動化できます。高品質の導入では、これが測定可能な運用ルール、所有権の境界、定期的なレビューの儀式に変換されるため、チームは曖昧さを拡大するのではなく、自信を拡大することができます。

クリエイティブ チームは、手動での修正を減らし、より迅速にコンセプトのプロトタイプを作成できます。

クリエイティブ チームは、手動での修正を減らし、より迅速にコンセプトのプロトタイプを作成できます。高品質の導入では、これが測定可能な運用ルール、所有権の境界、定期的なレビューの儀式に変換されるため、チームは曖昧さを拡大するのではなく、自信を拡大することができます。

以前は処理が困難であった画像信号やビデオ信号を操作に使用できるようになります。

以前は処理が困難であった画像信号やビデオ信号を操作に使用できるようになります。高品質の導入では、これが測定可能な運用ルール、所有権の境界、定期的なレビューの儀式に変換されるため、チームは曖昧さを拡大するのではなく、自信を拡大することができます。

DreamFusion とスコア蒸留サンプリングの未来

SDS は、解像度と速度のための Magic3D、よりシャープで多様な出力のための ProlificDreamer の変分スコア蒸留、そして「Janus」多面アーティファクトを攻撃するメソッドなど、その弱点を修正する豊富な一連の作業を生み出しました。この分野では、SDS をマルチビュー拡散プリアやガウス スプラッティングなどの高速 3D 表現と組み合わせるケースが増えています。テキストから 3D への変換はより速く、より幾何学的に忠実になり、手作業でモデル化されたアセットとの差が縮まることが期待されます。

現実世界の実装

テキストのみから「小さな帽子をかぶったリスのデジタル一眼レフ写真」の 3D モデルを生成する

手動の 3D スカルプトを使用せずにドラフト ゲームおよび AR アセットを作成する

ゼロから構築するのではなく、アーティストが改良したエクスポート可能なメッシュを生成する

SDS に対して新しいテキストから 3D への変換手法を評価するための研究ベースライン

実装パターン

DreamFusion とスコア蒸留サンプリングの実践

テキストのみから「小さな帽子をかぶったリスのデジタル一眼レフ写真」の 3D モデルを生成します。

テキストのみから「小さな帽子をかぶったリスのデジタル一眼レフ写真」の 3D モデルを生成する チームは通常、品質のしきい値を事前に定義し、エッジ ケースに対する人的エスカレーション パスを維持し、生産性の向上とエラー コストの両方を長期にわたって追跡すると、より良い結果が得られます。

DreamFusion とスコア蒸留サンプリングの実践

手動の 3D スカルプトを使用せずにドラフト ゲームおよび AR アセットを作成します。

手動の 3D スカルプトを使用せずにドラフト ゲームおよび AR アセットを作成する チームは通常、品質のしきい値を事前に定義し、エッジ ケースに対する人的エスカレーション パスを維持し、生産性の向上とエラー コストの両方を長期的に追跡すると、より良い結果が得られます。

DreamFusion とスコア蒸留サンプリングの実践

ゼロから構築するのではなく、アーティストが洗練したエクスポート可能なメッシュを生成します。

ゼロから構築するのではなく、アーティストが洗練したエクスポート可能なメッシュを作成する チームは、通常、品質のしきい値を事前に定義し、エッジ ケースに対する人間によるエスカレーション パスを維持し、生産性の向上とエラー コストの両方を長期にわたって追跡すると、より良い結果が得られます。

DreamFusion とスコア蒸留サンプリングの実践

SDS に対して新しいテキストから 3D への変換方法を評価するためのベースラインを調査します。

SDS に対して新しいテキストから 3D への手法を評価するためのベースラインを調査する チームは通常、品質のしきい値を事前に定義し、エッジ ケースに対して人的エスカレーション パスを維持し、生産性の向上とエラー コストの両方を長期にわたって追跡することで、より良い結果を得ることができます。

リスクとガードレール

!

出所が不明瞭な場合、肖像権と同意が法的リスクとなる可能性があります。

!

モデルのパフォーマンスは、照明、人口統計、環境によって異なる場合があります。

!

信頼度のしきい値が監視されない限り、誤検知は気付かれない可能性があります。

実装ロードマップ

1

精度、再現率、エラーコストの許容基準を定義します。

精度、再現率、エラーコストの許容基準を定義します。各ステップを証拠ゲートとして扱います。基準が満たされない場合は、ロールアウトを一時停止し、ギャップを埋めてから、使用を拡大します。

2

実際の生産条件に一致するデータを使用してテストします。

実際の生産条件に一致するデータを使用してテストします。各ステップを証拠ゲートとして扱います。基準が満たされない場合は、ロールアウトを一時停止し、ギャップを埋めてから、使用を拡大します。

3

信頼性の低い予測や影響の大きい予測については、人間によるレビューを追加します。

信頼性の低い予測や影響の大きい予測については、人間によるレビューを追加します。各ステップを証拠ゲートとして扱います。基準が満たされない場合は、ロールアウトを一時停止し、ギャップを埋めてから、使用を拡大します。

4

モデルのドリフトを追跡し、カメラまたはデータセットの変更後に再検証します。

モデルのドリフトを追跡し、カメラまたはデータセットの変更後に再検証します。各ステップを証拠ゲートとして扱います。基準が満たされない場合は、ロールアウトを一時停止し、ギャップを埋めてから、使用を拡大します。

探検を続けましょう