音声認識機能の強化エンハンスド・スピーチ・レコグニッション

私たちは、音声認識システムを完全に再構築し、ユーザーにより良い体験を提供できることをお知らせします。

この新機能はホステッドエクスペリエンスとSDK（NPMパッケージ）と共に利用できます。

🆕 このアップデートにより、以下の機能向上を期待できます 🆕

動音声検出機能により、デジタルヒューマンに話しかける際にプッシュ・トゥ・トークを使用する必要がなく、スペースキーを押すこともありません。

音声認識の精度が向上しました。遅延のある環境でも精度の低下はありません。

マイク音声は、話し始めるまでデバイスから送信されないため、プライバシーが保護されています。

マイクのミュート/アンミュートや、騒がしい環境ではプッシュ・トゥ・トーク機能をシミュレートするオプションがあります。

当社のボイスアクティビティ検出システムは、ノイズ（バックグラウンドノイズ、咳、音楽など）ではなく、音声の検出に特化してトレーニングされています。

デジタルヒューマンの発話中に割り込むことができ、その際にはキャラクターは話すのを止めます。ただし、バックグラウンドノイズだけではキャラクターの発話を中断することはありません。

安定性が向上し、より信頼性の高いデジタルヒューマン体験が可能になりました。

このインプットUIの場合はエンハンスド・スピーチ・レコグニッションで動作しています。

ホステッドエクペリエンス

移行ガイド

ホスト体験では、全てのビュー（レイアウト）で音声認識モードをサポートしています：

マイクをミュート/アンミュートするボタン。

マイクステータス（ミュート、聞き取り中、アクティブスピーチ、拒否）の表示。

ユーザーの発話を文字認識して表示するキャプション・字幕が画面に表示されます。

音声認識モードに切り替えるには、uneeqInteractionsOptionsの設定を使用して、voiceInputModeを"SPEECH_RECOGNITION"に設定します。

window.uneeqInteractionsOptions = {
    personaShareId: "ペルソナShareID",
    showUserInputInterface: true,
    voiceInputMode: "SPEECH_RECOGNITION"
}

メソッドの変更

Uneeqメソッドを使用して音声録音をプログラムで制御する場合、以下の変更に注意する必要があります：

uneeqStartRecordingとuneeqStopRecordingは、音声認識モードを使用している場合、何もしません。これらのメソッドはもはや必要ありません。

メッセージの変更

以前は、プッシュ・トゥ・トークを使用する場合、プッシュ・トゥ・トークのオン/オフを示すメッセージRecordingStartedとRecordingStoppedを受信していました。音声認識モードを使用すると、これらのメッセージを受け取ることはなくなります。

音声認識モード使用時に送信される新しいメッセージがあります：

UserStartedSpeaking：音声アクティビティ検出により、ユーザーが話し始めたことが認識されました。

UserStoppedSpeaking：音声アクティビティ検出により、ユーザーが発話を停止したと認識されました。

SpeechTranscription：新しい中間または最終の書き起こし結果が利用可能です。メッセージ内容の詳細はこちらをご覧ください。

BYOエクスペリエンス（NPMパッケージ）

移行ガイド

NPMパッケージを使用して独自のエクスペリエンスとUIを構築した場合、voiceInputModeを "SPEECH_RECOGNITION"に設定する必要があります。

new Uneeq({
  url: "uneeqConnectionUrl,"
  conversationId: "personaId",
  voiceInputMode: "SPEECH_RECOGNITION"
});

メソッドの変更

音声録音をプログラムで制御する場合、Uneeqメソッドの変更に注意してください：

uneeqStartRecordingとuneeqStopRecordingは、音声認識モードを使用している場合、何も行いません。これらのメソッドはもはや必要ありません。

メッセージの変更

以前は、プッシュ・トゥ・トークを使用する場合、RecordingStartedとRecordingStoppedというメッセージを受け取っていました。しかし、音声認識モードを使用すると、これらのメッセージは受け取られなくなります。

代わりに、音声認識モード使用時に以下の新しいメッセージが送信されます：

UserStartedSpeaking：音声アクティビティ検出により、ユーザーが話し始めたことが認識されました。

UserStoppedSpeaking：音声アクティビティ検出により、ユーザーが話すのを停止したことが認識されました。

SpeechTranscription：新しい中間または最終の書き起こし結果が利用可能です。メッセージの詳細はこちらをご覧ください。

お役に立ちましたか？

😞

😐

🤩

最終更新日 November 1, 2023

音声認識機能の強化 エンハンスド・スピーチ・レコグニッション

ホステッドエクペリエンス

移行ガイド

メソッドの変更

メッセージの変更

BYOエクスペリエンス（NPMパッケージ）

移行ガイド

メソッドの変更

メッセージの変更

音声認識機能の強化エンハンスド・スピーチ・レコグニッション