システムの構成
quickstart-system-overview
デジタルヒューマンのデータの流れと各コンポーネントの役割を説明します。
※デモ環境の方は、DIP・会話AIの設定変更はできません。設定変更が必要な場合はサポートセンターからご連絡ください。

データの流れ
1. ユーザーが音声またはテキストで質問
(音声入力の場合)音声認識でテキスト化
2. 会話AIにテキストを送信
3. 会話AIがテキストから返答を生成
4. 音声合成が返答を音声化
5. キャラクターが音声に合わせてリップシンク、動き、発話
この一連の流れがスムーズに連携することで、自然な会話体験を実現しています。
各コンポーネントの役割
WEBサイト/アプリ
ホステッドエクスペリエンスを使って、お客さまのWebサイトやWebアプリへ設置いただくことを想定しています。 ユーザーが操作するWebページ、キャラクター表示、マイク入力、テキスト入力などのUIを提供します。 デモでは簡単に体験いただけるように、ホステッドエクスペリエンス デモコンフィグレーターを提供しています。
デジタルヒューマンプラットフォーム(DIP: Digital Humans Identity Portal)
デジタルヒューマンのキャラクターの描画、音声認識や音声合成を行います。 そのほか、背景の管理や会話AIとの接続も行います。
- キャラクター: いわゆるデジタルヒューマンです。会話AIの返答に合わせて表情やジェスチャーを表現
- 音声認識(STT)/音声合成(TTS): ユーザーの音声をテキスト化(音声認識)し、会話AIの返答を音声に変換(音声合成)
- 設定変更: DIPを使用
会話AI(対話AI)
デジタルヒューマンの頭脳にあたり、ユーザーの質問を理解し、適切な返答を生成します。ChatGPT、Google Gemini等の大規模言語モデル(LLM)を使用しますが、LLMや会話フロー管理用にDifyを使います。Dify以外にも様々な会話AIやチャットボットに対応しています。
サービス・アプリケーション・カスタマークラウドサービス
デモには含まれておりません。
必要に応じて、会話AIやDifyなどから接続してください。
お役に立ちましたか?
😞
😐
🤩
最終更新日 March 17, 2026