概要
Moshi は、Kyutai が開発したオープンソースのリアルタイム音声 AI で、厳密に順番を変えるのではなく、話したり聞いたりを同時に (全二重) 行います。これにより、従来の音声アシスタントの厄介なラグや厳格な順番が取り除かれます。
Moshi Full-Duplex Speech は、コミュニケーション、アクセシビリティ、メディア制作のために音声、音楽、サウンドを変換するオーディオ AI ワークフローに組み込まれています。
ディープダイブ
2024 年にフランスの研究機関 Kyutai によってリリースされた Moshi は、自然で低遅延の会話を実現するために構築された音声合成の基礎モデルです。音声からテキストへ、次に言語モデル、そしてテキストから音声へと連鎖するパイプライン アシスタントとは異なり、Moshi はオーディオを直接かつ継続的に処理します。その重要なアイデアは全二重です。ユーザーと自分自身の 2 つのオーディオ ストリームを同時にモデル化するので、話しながら聞き、割り込みを処理し、「うーん」と相槌を打ち、人間と同じように自然にオーバーラップすることができます。遅延は約 160 ~ 200 ミリ秒に達し、一般的なアシスタントの遅延をはるかに下回ります。内部では、7B パラメーターのテキストおよびオーディオ言語モデル (Helium) と、音声をモデルが生成できる個別のトークンに圧縮するニューラル オーディオ コーデックである Mimi を組み合わせています。九体は重みとコードをオープンに公開した。
技術的な洞察
Moshi のトリックは、Mimi コーデックで、連続オーディオを、蒸留されたセマンティック トークンを含む 12.5 Hz の離散トークンの低ビットレート ストリームに変換します。言語モデルは、独自の音声トークンとユーザーの並行した時間調整されたストリームを予測するため、「聞く」ために生成を停止する必要はありません。 「インナー・モノローグ」手法は音声の前にテキストを予測し、モシが実際に言うことの言語品質と一貫性を向上させます。
Moshi 全二重スピーチをマスターする
Moshi は、Kyutai が開発したオープンソースのリアルタイム音声 AI で、厳密に順番を変えるのではなく、話したり聞いたりを同時に (全二重) 行います。これにより、従来の音声アシスタントの厄介なラグや厳格な順番が取り除かれます。 Moshi Full-Duplex Speech は、コミュニケーション、アクセシビリティ、メディア制作のために音声、音楽、サウンドを変換するオーディオ AI ワークフローに組み込まれています。深い理解を得るには、Moshi Full-Duplex Speech を単一の機能ではなくオペレーティング モデルとして扱います。望ましい結果を定義し、前提条件を明確にし、システムが確実に実行できることと、依然として専門家の判断が必要なことを区別します。
実際、Moshi 全二重スピーチを使用する強力なチームは、品質、遅延、同意を展開戦略の同様に重要な部分として扱います。明示的な成功基準を文書化し、現実的なデータとワークフローに対してテストし、一度限りのベンチマークの成功ではなく、観察された失敗パターンに基づいて反復します。ここで、理論的な理解が、製品、ポリシー、運用全体にわたる永続的な機能に変わります。
文字起こし、ナレーション、音声インターフェイスを通じてアクセシビリティを向上させます。同時に、同意がない場合、Voice の悪用やなりすましのリスクが高まります。最も回復力のあるアプローチは、実験のスピードとガバナンスの規律を組み合わせることであり、パイロットを実行し、証拠を取得し、意思決定ログを公開し、モデルの動作、ユーザーの期待、規制要件の進化に応じて安全対策を継続的に更新します。
戦略的影響
文字起こし、ナレーション、音声インターフェイスを通じてアクセシビリティを向上させます。
文字起こし、ナレーション、音声インターフェイスを通じてアクセシビリティを向上させます。高品質の導入では、これが測定可能な運用ルール、所有権の境界、定期的なレビューの儀式に変換されるため、チームは曖昧さを拡大するのではなく、自信を拡大することができます。
メディア チームは、より少ない予算で洗練されたオーディオをより迅速に出荷できます。
メディア チームは、より少ない予算で洗練されたオーディオをより迅速に出荷できます。高品質の導入では、これが測定可能な運用ルール、所有権の境界、定期的なレビューの儀式に変換されるため、チームは曖昧さを拡大するのではなく、自信を拡大することができます。
顧客対応システムは、音声対話を大規模に処理できます。
顧客対応システムは、音声対話を大規模に処理できます。高品質の導入では、これが測定可能な運用ルール、所有権の境界、定期的なレビューの儀式に変換されるため、チームは曖昧さを拡大するのではなく、自信を拡大することができます。
現実世界の実装
ハンズフリーの音声コンパニオンにより、文章の途中で中断でき、200 ミリ秒以内に応答します。
独自のブラック ボックスを使用せずに、リアルタイムの全二重音声対話を研究するためのオープンな研究ベースライン。
アクセシビリティ アシスタントは、迅速かつ自然なやり取りを必要とするユーザーと流動的に会話します。
発信者が話している間にバックチャネルして反応する、中断可能な顧客サービス音声ボットのプロトタイプを作成します。
実装パターン
Moshi 全二重スピーチの実践
ハンズフリーの音声コンパニオンにより、文章の途中で中断でき、200 ミリ秒以内に応答します。
文の途中で中断できるハンズフリーの音声コンパニオン。200 ミリ秒以内に応答します。チームは通常、品質のしきい値を事前に定義し、エッジ ケースに対する人間によるエスカレーション パスを確保し、生産性の向上とエラー コストの両方を長期的に追跡すると、より良い結果が得られます。
Moshi 全二重スピーチの実践
独自のブラック ボックスを使用せずに、リアルタイムの全二重音声対話を研究するためのオープンな研究ベースライン。
独自のブラック ボックスを使用せずに、リアルタイムの全二重音声対話を研究するためのオープンな研究ベースライン チームは通常、品質のしきい値を事前に定義し、エッジ ケースに対する人間によるエスカレーション パスを維持し、生産性の向上とエラー コストの両方を長期的に追跡すると、より良い結果が得られます。
Moshi 全二重スピーチの実践
アクセシビリティ アシスタントは、迅速かつ自然なやり取りを必要とするユーザーと流動的に会話します。
迅速かつ自然なチームのやり取りを必要とするユーザーと流動的に会話するアクセシビリティ アシスタントは、通常、品質のしきい値を事前に定義し、エッジ ケースに対する人的エスカレーション パスを維持し、生産性の向上とエラー コストの両方を長期にわたって追跡することで、より良い結果をもたらします。
Moshi 全二重スピーチの実践
発信者が話している間にバックチャネルして反応する、中断可能な顧客サービス音声ボットのプロトタイプを作成します。
発信者がまだ話している間にバックチャネルして反応する、中断可能なカスタマー サービス音声ボットのプロトタイプを作成する チームは通常、品質のしきい値を事前に定義し、エッジ ケースに対する人間によるエスカレーション パスを確保し、生産性の向上とエラー コストの両方を長期にわたって追跡すると、より良い結果が得られます。
リスクとガードレール
同意がない場合、音声の悪用やなりすましのリスクが高まります。
アクセント、方言、または騒がしい環境では精度が低下する可能性があります。
合成音声は、明確なラベルが付けられていないと、本物の音声と間違われる可能性があります。
実装ロードマップ
音声のキャプチャ、複製、再利用については明示的な同意を取得してください。
音声のキャプチャ、複製、再利用については明示的な同意を取得してください。各ステップを証拠ゲートとして扱います。基準が満たされない場合は、ロールアウトを一時停止し、ギャップを埋めてから、使用を拡大します。
さまざまな話者や背景条件で品質をテストします。
さまざまな話者や背景条件で品質をテストします。各ステップを証拠ゲートとして扱います。基準が満たされない場合は、ロールアウトを一時停止し、ギャップを埋めてから、使用を拡大します。
人間がいつ出力をレビューまたは承認する必要があるかを定義します。
人間がいつ出力をレビューまたは承認する必要があるかを定義します。各ステップを証拠ゲートとして扱います。基準が満たされない場合は、ロールアウトを一時停止し、ギャップを埋めてから、使用を拡大します。
合成音声にラベルを付け、出所記録を保管して説明責任を果たします。
合成音声にラベルを付け、出所記録を保管して説明責任を果たします。各ステップを証拠ゲートとして扱います。基準が満たされない場合は、ロールアウトを一時停止し、ギャップを埋めてから、使用を拡大します。