設定・制御できる要素

このページの目的

デジタルヒューマンおよびデジタルヒューマンプラットフォームは、自由度が高いプラットフォームです。このページでは、変更、設定、制御できる要素を一覧しています。

プラットフォーム概要図

アニメーションプラットフォーム

標準設定項目

デジタルヒューマンのキャラクターや背景の変更、接続する会話AI/チャットボットなどの設定をまとめた単位(インスタンス)を「ペルソナ」と呼んでいます。以下は標準の設定項目です。

項目

タイプ

備考

管理用名

文字列

ペルソナの管理用名

キャラクターの外見

文字列

プランによって利用できるキャラクターが異なります。キャラクターレベルを設定することで指定できます。

背景

文字列

背景画像を選択可能です。背景URLを設定することで背景を変更できます。

API URL

文字列

会話AIのAPIエンドポイントか、会話AIが接続されたオーケストレーション・ゲートウェイのエンドポイントを設定します。

音声認識(STT)

選択

音声合成(TTS)

選択

Google Cloud, Microsoft Azure, ElevenLabs の話者が設定できます。

カスタム設定項目

標準設定できない拡張設定は以下の通りです。設定はすべて弊社にて行います。

項目

タイプ

備考

キャラクターの外見

カスタム設定

弊社側で設定します。

カスタム音声認識(BYO STT)

カスタム設定

BYO/サードパーティー音声認識を利用できます。標準で使えるSTTプロバイダーでもアニメーションプラットフォームを経由させたく無い場合にも利用できます。

カスタム音声合成(BYO TTS)

カスタム設定

BYO/サードパーティー音声合成を利用できます。 P2ではAzureのカスタムニューラルボイスのみ対応します。

フロントエンド

会話AIやチャットボットから制御可能な項目

フロントエンドは表示の形によって利用できる機能が変わります。ビューの種類はこちらをご覧下さい。デジタルヒューマンは自律的にアニメーションを生成しますが、チャットボットやNLPから制御できる項目は以下です。

項目

タイプ

備考

発話内容

文字列

デジタルヒューマンに喋らせたい内容

デジタルヒューマンが発話する際の、声の早さ、ピッチ、ブレイク、読み方などはSSMLで制御可能です。SSMLは合成音声プロバイダーである程度共通化されていますが、完全に統一されていませんので、利用するプロバイダーによって利用できるSSMLタグが変わります。

感情表現

デジタルヒューマンの表情は自律的に生成されますが、幸せや興奮等の感情を付与して表現する事が出来ます。

手足等のアクション制御

デジタルヒューマンGen3からは、空間の概念がうまれ3D移動(対応予定)や手足を使ったアクション表現等が制御出来るようになりました。

カメラ制御(アバターの表示位置)

デジタルヒューマンを撮影しているカメラが利用出来、ズーム・ズームアウト・パンチルトが利用出来るようになります。

ビューのコンポーネント

コマンド

各ビューに依存します。ビューの種類はこちらをご覧下さい。

ユーザや環境認識用のWebカメラ

環境依存

話者を撮影するカメラ、またはカメラを使った解析・認識・認証の機能はデジタルヒューマンプラットフォームとして提供しておらず、外部のサービスとの連携になります。詳しくはお問い合わせください。

対話AI/チャットボット

ChatGPTをはじめ、さまざまな対話AIやチャットボットが接続可能です。接続するための仕様は下記をこちらをご覧下さい。

接続実績のある会話AI・チャットボット

会話AI・チャットボットとのプラットフォームインテグレーションの概要

最終更新