発話制御:SSMLの利用
SSML
<speak><uneeq:emotion_joy_normal />Hello!</speak><!-- Azure Speech Serviceで使用するSSMLコード - 音声合成のためのマークアップ言語 -->
<speak xmlns="http://www.w3.org/2001/10/synthesis"
xmlns:mstts="http://www.w3.org/2001/mstts"
xmlns:emo="http://www.w3.org/2009/10/emotionml"
version="1.0" xml:lang="en-US">
<!-- セクション1: 挨拶と手を振る動作 -->
<voice name="en-US-JennyMultilingualNeural">
<uneeq:action_wavingcalm/><!-- アクション: 穏やかに手を振る動作を実行 -->
Hey!<!-- 「やあ!」という挨拶 -->
</voice>
<!-- セクション2: 喜びの感情で歓迎の言葉 -->
<voice name="en-US-JennyMultilingualNeural">
<uneeq:emotion_joy_normal /><!-- 感情: 通常レベルの喜びを表現 -->
<prosody rate="+5.00%" pitch="+2.00%" contour="(0%,-0%)">
<!-- 音声調整: 話速を5%速く、ピッチを2%高く、イントネーションは平坦 -->
<lang xml:lang="en-US">It's great to see you.</lang><!-- 「お会いできて嬉しいです」 -->
</prosody>
</voice>
<!-- セクション3: 期待感を持った自己紹介 -->
<voice name="en-US-JennyMultilingualNeural">
<uneeq:emotion_anticipation_normal /><!-- 感情: 通常レベルの期待感を表現 -->
<prosody rate="+5.00%" pitch="+2.00%" contour="(0%,-0%)">
<!-- 音声調整: 話速を5%速く、ピッチを2%高く、イントネーションは平坦 -->
<lang xml:lang="en-US">I'm Sophie.</lang><!-- 「私はソフィーです」 -->
</prosody>
</voice>
<!-- セクション4: 強い喜びの感情で役割説明 -->
<voice name="en-US-JennyMultilingualNeural">
<uneeq:emotion_joy_strong/><!-- 感情: 強い喜びの感情を表現 -->
I'm here to help out with some recommendations.<!-- 「いくつかのおすすめ情報をご案内します」 -->
</voice>
<!-- セクション5: 通常の喜びの感情で質問 -->
<voice name="en-US-JennyMultilingualNeural">
<uneeq:emotion_joy_normal /><!-- 感情: 通常レベルの喜びを表現 -->
<prosody rate="+5.00%" pitch="+2.00%" contour="(70%, -0%) (80%,-30%) (100%,+50%)">
<!-- 音声調整: 話速を5%速く、ピッチを2%高く、複雑なイントネーションパターンを適用
- 文の70%地点では通常のピッチ
- 文の80%地点ではピッチを30%下げる
- 文の終わり(100%)ではピッチを50%上げる(質問のイントネーション) -->
<lang xml:lang="en-US">How can I help today?</lang><!-- 「今日はどのようにお手伝いできますか?」 -->
</prosody>
</voice>
</speak>各社のSSML仕様ページ
Google TTSを使用する場合
Azure TTSを使用する場合
その他のTTSプロバイダー
最終更新
