テクニカルガイド

生成エージェントと模擬社会

生成エージェントは、信頼できる人間のように記憶、計画、反応する言語モデルを利用した AI キャラクターです。

概要

生成エージェントは、信頼できる人間のように記憶、計画、反応する言語モデルを利用した AI キャラクターです。彼らはシミュレーションされた世界に一緒に配置され、社会的行動が独自に現れる小さな社会を形成します。

生成エージェントとシミュレートされた社会は、大規模なモデルの品質、インフラストラクチャのコスト、待ち時間、信頼性に影響を与える技術的な構成要素です。

ディープダイブ

2023 年のスタンフォード大学と Google プロジェクト「Smallville」では、研究者らは GPT-3.5 によって駆動される 25 人のエージェントをサンドボックスタウンに配置し、彼らがコミュニティのように行動するのを観察しました。各エージェントには短い経歴があり、朝起きて朝食を作り、仕事に行き、近所の人たちと雑談しました。重要なのは、行動が台本化されていなかったことです。あるエージェントがバレンタインデーパーティーを開催することに決め、模擬 2 日間にわたって招待が口コミで広がり、エージェントが時間を調整し、数人が一緒に現れました。このアーキテクチャはメモリストリーム、取得、反映、計画を組み合わせているため、エージェントは数分前に何が起こったかを忘れることなく、長期間にわたって一貫して動作します。

技術的な洞察

中心となるトリックはメモリストリームです。これは、エージェントが観察したすべてのタイムスタンプ付きの長いログです。行動するために、エージェントは最新性、重要性、および現在の状況との類似性によってスコア付けされた関連する記憶を取得し、それらを言語モデルプロンプトに入力します。定期的な振り返りのステップにより、生の記憶がより高いレベルの洞察に要約され (たとえば、誰かが研究に熱心であると推測する)、それが保管され、将来の計画や対話の指針となります。

生成エージェントと模擬社会をマスターする

生成エージェントは、信頼できる人間のように記憶、計画、反応する言語モデルを利用した AI キャラクターです。彼らはシミュレーションされた世界に一緒に配置され、社会的行動が独自に現れる小さな社会を形成します。生成エージェントとシミュレートされた社会は、大規模なモデルの品質、インフラストラクチャのコスト、待ち時間、信頼性に影響を与える技術的な構成要素です。深い理解を構築するには、生成エージェントとシミュレートされた社会を単一の機能ではなくオペレーティングモデルとして扱います。望ましい結果を定義し、前提条件を明確にし、システムが確実に実行できることと、依然として専門家の判断が必要なことを分離します。

実際には、生成エージェントとシミュレートされた社会を使用する強力なチームが、信頼性とコストに照らしてアーキテクチャ、データ、インフラストラクチャの選択を最適化します。明示的な成功基準を文書化し、現実的なデータとワークフローに対してテストし、一度限りのベンチマークの成功ではなく、観察された失敗パターンに基づいて反復します。ここで、理論的な理解が、製品、ポリシー、運用全体にわたる永続的な機能に変わります。

アーキテクチャの決定により、パフォーマンスと運用コストが何年にもわたって推進されます。同時に、1 つのベンチマークを最適化すると、より広範なシステムの弱点が隠れる可能性があります。最も回復力のあるアプローチは、実験のスピードとガバナンスの規律を組み合わせることであり、パイロットを実行し、証拠を取得し、意思決定ログを公開し、モデルの動作、ユーザーの期待、規制要件の進化に応じて安全対策を継続的に更新します。

戦略的影響

アーキテクチャの決定により、パフォーマンスと運用コストが何年にもわたって推進されます。

アーキテクチャの決定により、パフォーマンスと運用コストが何年にもわたって推進されます。高品質の導入では、これが測定可能な運用ルール、所有権の境界、定期的なレビューの儀式に変換されるため、チームは曖昧さを拡大するのではなく、自信を拡大することができます。

技術教育は、チームが最新のスタックだけでなく、適切なスタックを選択するのに役立ちます。

技術教育は、チームが最新のスタックだけでなく、適切なスタックを選択するのに役立ちます。高品質の導入では、これが測定可能な運用ルール、所有権の境界、定期的なレビューの儀式に変換されるため、チームは曖昧さを拡大するのではなく、自信を拡大することができます。

より良いエンジニアリングの選択により、本番環境での信頼性に関するインシデントが減少します。

より良いエンジニアリングの選択により、本番環境での信頼性に関するインシデントが減少します。高品質の導入では、これが測定可能な運用ルール、所有権の境界、定期的なレビューの儀式に変換されるため、チームは曖昧さを拡大するのではなく、自信を拡大することができます。

生成エージェントと模擬社会の未来

生成エージェントは、ゲーム内のより豊かなノンプレイヤーキャラクター、交渉や危機対応のためのトレーニングシミュレーション、および現実世界への展開前に噂、価格、政策がどのように広がるかを研究するための合成テスト母集団を強化することを期待しています。モデルが安価になり、コンテキストウィンドウが拡大するにつれて、シミュレーションは数十から数千のエージェントにスケールアップされます。研究者らはまた、これらのおもちゃの社会が社会科学の実験室として調査している一方で、偏見や操作、そしてこれらのおもちゃの社会がどれほど忠実に人間を反映しているのかについて未解決の疑問を提起している。

現実世界の実装

スタンフォード大学の Smallville シミュレーションでは、25 人のエージェントが自律的にバレンタインデーパーティーを企画し、参加しました。

過去のプレイヤーとのやり取りを記憶し、恨みや友情を抱いている、ビデオゲーム内の信頼できる記憶主導型 NPC

マーケティングメッセージや製品機能を事前にテストするために、多様な顧客ペルソナのロールプレイングを行う総合的なフォーカスグループ

災害対応や外交演習中に訓練生の決定に AI の町民が反応する訓練シミュレーター

実装パターン

生成エージェントと模擬社会の実践

スタンフォード大学の Smallville シミュレーションでは、25 人のエージェントが自律的にバレンタインデーパーティーを企画し、参加しました。

スタンフォード大学の Smallville シミュレーションでは、25 人のエージェントが自律的にバレンタインデーパーティーを企画し、参加しました。チームは通常、品質のしきい値を事前に定義し、エッジケースに対する人的エスカレーションパスを確保し、生産性の向上とエラーコストの両方を長期的に追跡すると、より良い結果が得られます。

生成エージェントと模擬社会の実践

過去のプレイヤーとのやり取りを記憶し、恨みや友情を抱いている、ビデオゲームに登場する信頼できる記憶主導の NPC。

過去のプレイヤーのやり取りを覚えていて、恨みや友情を抱いている、ビデオゲームの記憶主導型の信じられない NPC チームは通常、品質のしきい値を事前に定義し、エッジケースに対する人間によるエスカレーションパスを確保し、生産性の向上とエラーコストの両方を長期的に追跡すると、より良い結果を得ることができます。

生成エージェントと模擬社会の実践

マーケティングメッセージや製品機能を事前にテストするために、多様な顧客ペルソナのロールプレイングを行う総合的なフォーカスグループ。

マーケティングメッセージや製品機能を事前にテストするために、多様な顧客ペルソナをロールプレイングする統合フォーカスグループ通常、チームは、品質のしきい値を事前に定義し、エッジケースに対する人的エスカレーションパスを確保し、生産性の向上とエラーコストの両方を長期的に追跡すると、より良い結果が得られます。

生成エージェントと模擬社会の実践

災害対応や外交演習中に AI の町民が訓練生の決定に反応する訓練シミュレーター。

災害対応や外交演習中に AI の町民が訓練生の決定に反応する訓練シミュレーターチームは通常、品質のしきい値を事前に定義し、エッジケースに対する人間によるエスカレーションパスを確保し、生産性の向上とエラーコストの両方を長期にわたって追跡すると、より良い結果が得られます。

リスクとガードレール

1 つのベンチマークを最適化すると、より広範なシステムの弱点が隠れる可能性があります。

インフラストラクチャとメンテナンスのコストは過小評価されがちです。

システムが複雑になるにつれて、セキュリティと可観測性のギャップが拡大する可能性があります。

実装ロードマップ

実装前にレイテンシ、品質、コストの目標を定義します。

実装前にレイテンシ、品質、コストの目標を定義します。各ステップを証拠ゲートとして扱います。基準が満たされない場合は、ロールアウトを一時停止し、ギャップを埋めてから、使用を拡大します。

現実的な負荷とデータ条件でのベンチマーク。

現実的な負荷とデータ条件でのベンチマーク。各ステップを証拠ゲートとして扱います。基準が満たされない場合は、ロールアウトを一時停止し、ギャップを埋めてから、使用を拡大します。

エラー、ドリフト、ユーザーへの影響を計測器で監視します。

エラー、ドリフト、ユーザーへの影響を計測器で監視します。各ステップを証拠ゲートとして扱います。基準が満たされない場合は、ロールアウトを一時停止し、ギャップを埋めてから、使用を拡大します。

スケーリングの前に、ロールバックとインシデント対応のパスを準備します。

スケーリングの前に、ロールバックとインシデント対応のパスを準備します。各ステップを証拠ゲートとして扱います。基準が満たされない場合は、ロールアウトを一時停止し、ギャップを埋めてから、使用を拡大します。

探検を続けましょう

AI ベンチマーク

技術的なオプションを比較するときは、評価を適切に使用してください。

ガイドを読む

強化学習

技術的なトレーニング戦略をさらに深く掘り下げます。

ガイドを読む