音声認識機能の強化 エンハンスド・スピーチ・レコグニッション
私たちは、音声認識システムを完全に再構築し、ユーザーにより良い体験を提供できることをお知らせします。
この新機能はホステッドエクスペリエンスとSDK(NPMパッケージ)と共に利用できます。
🆕 このアップデートにより、以下の機能向上を期待できます 🆕
- 動音声検出機能により、デジタルヒューマンに話しかける際にプッシュ・トゥ・トークを使用する必要がなく、スペースキーを押すこともありません。
- 音声認識の精度が向上しました。遅延のある環境でも精度の低下はありません。
- マイク音声は、話し始めるまでデバイスから送信されないため、プライバシーが保護されています。
- マイクのミュート/アンミュートや、騒がしい環境ではプッシュ・トゥ・トーク機能をシミュレートするオプションがあります。
- 当社のボイスアクティビティ検出システムは、ノイズ(バックグラウンドノイズ、咳、音楽など)ではなく、音声の検出に特化してトレーニングされています。
- デジタルヒューマンの発話中に割り込むことができ、その際にはキャラクターは話すのを止めます。ただし、バックグラウンドノイズだけではキャラクターの発話を中断することはありません。
- 安定性が向上し、より信頼性の高いデジタルヒューマン体験が可能になりました。
ホステッドエクペリエンス
移行ガイド
ホスト体験では、全てのビュー(レイアウト)で音声認識モードをサポートしています:
- マイクをミュート/アンミュートするボタン。
- マイクステータス(ミュート、聞き取り中、アクティブスピーチ、拒否)の表示。
- ユーザーの発話を文字認識して表示するキャプション・字幕が画面に表示されます。
音声認識モードに切り替えるには、uneeqInteractionsOptions
の設定を使用して、voiceInputMode
を"SPEECH_RECOGNITION"
に設定します。
window.uneeqInteractionsOptions = { personaShareId: "ペルソナShareID", showUserInputInterface: true, voiceInputMode: "SPEECH_RECOGNITION" }
メソッドの変更
Uneeqメソッドを使用して音声録音をプログラムで制御する場合、以下の変更に注意する必要があります:
uneeqStartRecording
とuneeqStopRecording
は、音声認識モードを使用している場合、何もしません。これらのメソッドはもはや必要ありません。
メッセージの変更
以前は、プッシュ・トゥ・トークを使用する場合、プッシュ・トゥ・トークのオン/オフを示すメッセージRecordingStarted
とRecordingStopped
を受信していました。音声認識モードを使用すると、これらのメッセージを受け取ることはなくなります。
音声認識モード使用時に送信される新しいメッセージがあります:
UserStartedSpeaking
: 音声アクティビティ検出により、ユーザーが話し始めたことが認識されました。
UserStoppedSpeaking
: 音声アクティビティ検出により、ユーザーが発話を停止したと認識されました。
SpeechTranscription
: 新しい中間または最終の書き起こし結果が利用可能です。メッセージ内容の詳細はこちらをご覧ください。
BYOエクスペリエンス(NPMパッケージ)
移行ガイド
NPMパッケージを使用して独自のエクスペリエンスとUIを構築した場合、voiceInputMode
を "SPEECH_RECOGNITION"
に設定する必要があります。
new Uneeq({ url: "uneeqConnectionUrl," conversationId: "personaId", voiceInputMode: "SPEECH_RECOGNITION" });
メソッドの変更
音声録音をプログラムで制御する場合、Uneeqメソッドの変更に注意してください:
uneeqStartRecordingとuneeqStopRecordingは、音声認識モードを使用している場合、何も行いません。これらのメソッドはもはや必要ありません。
メッセージの変更
以前は、プッシュ・トゥ・トークを使用する場合、RecordingStartedとRecordingStoppedというメッセージを受け取っていました。しかし、音声認識モードを使用すると、これらのメッセージは受け取られなくなります。
代わりに、音声認識モード使用時に以下の新しいメッセージが送信されます:
UserStartedSpeaking
: 音声アクティビティ検出により、ユーザーが話し始めたことが認識されました。
UserStoppedSpeaking
: 音声アクティビティ検出により、ユーザーが話すのを停止したことが認識されました。
SpeechTranscription
: 新しい中間または最終の書き起こし結果が利用可能です。メッセージの詳細はこちらをご覧ください。
最終更新日 November 1, 2023