システムの構成

デジタルヒューマンのデータの流れと各コンポーネントの役割を説明します。

※デモ環境の方は、DIP・会話AIの設定変更はできません。設定変更が必要な場合はサポートセンターからご連絡ください。

https://support.digitalhumans.jp/_hcms/mem/login?redirect_url=https%3A%2F%2Fsupport.digitalhumans.jp%2Ftickets%2Fnewarrow-up-right

インテグレーションイメージ

インテグレーションイメージ

データの流れ

  1. ユーザーが音声またはテキストで質問 

(音声入力の場合)音声認識でテキスト化

  1. 会話AIにテキストを送信

  2. 会話AIがテキストから返答を生成

  3. 音声合成が返答を音声化

  4. キャラクターが音声に合わせてリップシンク、動き、発話

この一連の流れがスムーズに連携することで、自然な会話体験を実現しています。

各コンポーネントの役割

WEBサイト/アプリ

ホステッドエクスペリエンスarrow-up-rightを使って、お客さまのWebサイトやWebアプリへ設置いただくことを想定しています。 ユーザーが操作するWebページ、キャラクター表示、マイク入力、テキスト入力などのUIを提供します。 デモでは簡単に体験いただけるように、ホステッドエクスペリエンス デモコンフィグレーターを提供しています。

Webサイト / アプリ(フロントエンド)

デジタルヒューマンプラットフォーム(DIP: Digital Humans Identity Portal)

https://dip.digitalhumans.ne.jp/arrow-up-right

デジタルヒューマンのキャラクターの描画、音声認識や音声合成を行います。 そのほか、背景の管理や会話AIとの接続も行います。

  • キャラクター: いわゆるデジタルヒューマンです。会話AIの返答に合わせて表情やジェスチャーを表現

  • 音声認識(STT)/音声合成(TTS): ユーザーの音声をテキスト化(音声認識)し、会話AIの返答を音声に変換(音声合成)

  • 設定変更: DIPを使用

キャラクターの変更とオリジナルキャラクターの作成

会話AI(対話AI)

デジタルヒューマンの頭脳にあたり、ユーザーの質問を理解し、適切な返答を生成します。ChatGPT、Google Gemini等の大規模言語モデル(LLM)を使用しますが、LLMや会話フロー管理用にDifyを使います。Dify以外にも様々な会話AIやチャットボットに対応しています。

会話AIの設定

サービス・アプリケーション・カスタマークラウドサービス

デモには含まれておりません。

必要に応じて、会話AIやDifyなどから接続してください。

最終更新