# 利用できる言語と音声認識・音声合成

## 多言語対応

デジタルヒューマンのプラットフォームで標準的に利用できる言語は下記の通りです。多言語対応させるには会話AI等によって様々なアプローチがありますので、エキスパートにご相談ください。

{% hint style="info" %}
システムとしては、標準的に以下の機能に対応していますが、拡張すると[対応可能言語](https://cloud.google.com/speech-to-text/docs/speech-to-text-supported-languages?hl=ja)が利用可能です。ご利用になる音声認識（STT）や音声合成（TTS）の多言語対応状況、バックエンドの会話AI（NLP・LLM）の多言語対応状況によって利用できるかどうかが変わります。
{% endhint %}

## 使用出来る音声認識、音声合成

日本語向け拡張として、以下のサードパーティー音声認識と音声合成との接続実績があります。その他のサービスでもAPIが公開されている場合、ほとんどの場合で接続が可能です。

**音声認識（音声文字変換）**

| プラットフォーム標準   | <p>Google Cloud Speech-to-Text （標準）<br><a href="https://cloud.google.com/speech-to-text/docs/languages?hl=ja">対応している言語</a> ※ホステッドエクスペリエンスで使用する場合は<a href="https://gitlab.digitalhumans.jp/docs/docs-digitalhumansjp/-/blob/main/development/README.md#speechtotextlocalesstring">speechToTextLocales</a>パラメータにロケールコード（言語タグ）を設定してください。</p> |
| ------------ | ----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------- |
| オプション・接続実績あり | <p>Microsoft Azure Speech-to-Text<br>AmiVoice API<br>NTTドコモ AIエージェントAPI 音声認識<br>NTTレゾナント AISuite 音声認識<br>OpenAI Speech to text（含むRealtimeAPI）</p>                                                                                                                                                                                         |

**音声合成（文字音声変換）**

P2では現時点では音声合成は[Microsoft Azure / Text to Speech](https://learn.microsoft.com/ja-jp/azure/ai-services/speech-service/language-support?tabs=stt#prebuilt-neural-voices)と[Google Cloud Platform / Text-to-Speech](https://cloud.google.com/text-to-speech?hl=ja) 、[ElevenLabs](https://elevenlabs.io/)にのみ対応しています。

| プラットフォーム標準 | <p><a href="https://learn.microsoft.com/ja-jp/azure/ai-services/speech-service/language-support?tabs=stt#prebuilt-neural-voices">Microsoft Azure / Text to Speech</a><br><a href="https://cloud.google.com/text-to-speech?hl=ja">Google Cloud Platform / Text-to-Speech</a><br><a href="https://elevenlabs.io/">ElevenLabs</a></p> |
| ---------- | ---------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------- |
| P2対応状況     | <p><del>NAVER Cloud Platform / CLOVA Voice</del><br><del>IBM Watson / Text to Speech</del><br><del>CoeFontAITalk® WebAPI</del><br><del>VoiceText Web API</del><br><del>ReadSpeaker</del><br><a href="https://www.futurevoice.jp/">**NTT FutureVoice Crayon</a> (SynAnim対応）**</p>                                                   |

![TTSアカウント追加](/files/xnt9MRawVnBHUFntEVKt)

TTSアカウント追加

![プラットフォーム標準TTS設定](/files/kfQEcEetECkF083q3NlA)

プラットフォーム標準TTS設定


---

# Agent Instructions: Querying This Documentation

If you need additional information that is not directly available in this page, you can query the documentation dynamically by asking a question.

Perform an HTTP GET request on the current page URL with the `ask` query parameter:

```
GET https://docs.digitalhumans.jp/ops/persona-dip/languages-and-speech-synthesis.md?ask=<question>
```

The question should be specific, self-contained, and written in natural language.
The response will contain a direct answer to the question and relevant excerpts and sources from the documentation.

Use this mechanism when the answer is not explicitly present in the current page, you need clarification or additional context, or you want to retrieve related documentation sections.
