システムの構成

quickstart-system-overview

デジタルヒューマンのデータの流れと各コンポーネントの役割を説明します。

※デモ環境の方は、DIP・会話AIの設定変更はできません。設定変更が必要な場合はサポートセンターからご連絡ください。

インテグレーションイメージ
インテグレーションイメージ

データの流れ

1. ユーザーが音声またはテキストで質問 

(音声入力の場合)音声認識でテキスト化

2. 会話AIにテキストを送信

3. 会話AIがテキストから返答を生成

4. 音声合成が返答を音声化

5. キャラクターが音声に合わせてリップシンク、動き、発話

この一連の流れがスムーズに連携することで、自然な会話体験を実現しています。

各コンポーネントの役割

WEBサイト/アプリ

ホステッドエクスペリエンスを使って、お客さまのWebサイトやWebアプリへ設置いただくことを想定しています。 ユーザーが操作するWebページ、キャラクター表示、マイク入力、テキスト入力などのUIを提供します。 デモでは簡単に体験いただけるように、ホステッドエクスペリエンス デモコンフィグレーターを提供しています。

デジタルヒューマンプラットフォーム(DIP: Digital Humans Identity Portal)

デジタルヒューマンのキャラクターの描画、音声認識や音声合成を行います。 そのほか、背景の管理や会話AIとの接続も行います。

  • キャラクター: いわゆるデジタルヒューマンです。会話AIの返答に合わせて表情やジェスチャーを表現
  • 音声認識(STT)/音声合成(TTS): ユーザーの音声をテキスト化(音声認識)し、会話AIの返答を音声に変換(音声合成)
  • 設定変更: DIPを使用

会話AI(対話AI)

デジタルヒューマンの頭脳にあたり、ユーザーの質問を理解し、適切な返答を生成します。ChatGPT、Google Gemini等の大規模言語モデル(LLM)を使用しますが、LLMや会話フロー管理用にDifyを使います。Dify以外にも様々な会話AIやチャットボットに対応しています。

サービス・アプリケーション・カスタマークラウドサービス

デモには含まれておりません。

必要に応じて、会話AIやDifyなどから接続してください。

お役に立ちましたか?
😞
😐
🤩

最終更新日 March 17, 2026