ユーザー（一般利用者）向け
- よくあるお問い合わせ
  - デジタルヒューマンを快適に利用するための端末要件
  - インターネット接続は必須ですか？
- トラブルシューティング
  - デジタルヒューマン株式会社のウェブサイト上のソフィーが私の声を聞いていない様です（デジタルヒューマンに声が届かないようです）
  - デジタルヒューマンが私の声を聞いていない様です（デジタルヒューマンに声が届かないようです）
  - デジタルヒューマンが表示されません
  - 画面上にデジタルヒューマン以外のコンテンツが表示されない
  - デジタルヒューマンが画面に表示されていますが、質問しても応答しません
  - 特定の端末や環境で文字化けする
クイックスタートガイド
- はじめに
  - はじめに
  - あなたの環境タイプは？
- デモ環境
  - クイックスタート
  - システムの構成
  - Webサイト / アプリ（フロントエンド）
- フリートライアル
  - 会話AIの設定
  - キャラクターの変更とオリジナルキャラクターの作成
- 本番導入
  - 独自ドメインへの設置と追加カスタマイズ
デモコンフィグレーター｜利用ガイド
- はじめに
  - はじめに
  - ログインと認証
  - プロフィール設定
- デモの管理と設定
  - ダッシュボード
  - デモの作成と管理
  - 基本情報とテンプレート
  - 公開設定
  - 設定オプション
  - ライブコンソール
- 管理者ガイド
  - ワークスペースデフォルト設定
  - ダッシュボードとWS管理
  - ユーザー管理
  - グローバルデフォルトと監査ログ
Dify｜会話AI構築ガイド
- はじめに
  - このドキュメントの目的と対象読者
  - Difyとは
  - デジタルヒューマンにおけるDifyの役割
- 初期設定
  - アカウント作成とログイン
  - ワークスペースの作成と設定
  - メンバー招待と権限管理
  - モデルプロバイダーの設定
- ナレッジベースの設定
  - ナレッジベースの概要と設計方針
  - ナレッジベースの作成
  - 知識パイプラインから作成する
  - 外部ナレッジベースと連携
  - チャンク分割とインデックス設定
  - 埋め込みモデルの選択
  - ハイブリッド検索とRerankの活用
  - ナレッジベースのテストと確認
  - テストと精度改善
  - チャットフローへの組み込み方
  - デジタルヒューマン向け最適化のポイント
- チャットフローの作成
  - チャットフローとワークフローの違い
  - チャットフローの新規作成
  - 開始ノードの設定
  - LLMノードの設定
  - ナレッジ検索ノードの設定
  - 質問分類器ノードの活用
  - 条件分岐ノードの設定
  - 変数とコンテキスト管理
  - 会話履歴（メモリ）の設定
  - ペルソナとシステムプロンプト設計
  - デバッグとテスト
  - 公開とAPI連携
- プラグインの拡張
  - プラグインの種類と概要
  - ツールプラグインの導入と設定
  - カスタムプラグインの開発基礎
- 運用・監視・改善
  - ログとトレースの確認
  - アノテーション（注釈）機能
  - 利用状況モニタリング
  - コスト管理とトークン最適化
  - バージョン管理と更新手順
  - トラブルシューティング
- 付録・その他
  - 用語集
  - 推奨設定一覧
  - デジタルヒューマン向けチャットフローテンプレート集
  - プロンプトサンプル
  - よくある質問（FAQ）
  - APIサンプルコード
設定・運用
- 概要
  - プラットフォームの概要
  - 世代（Gen1,Gen2,Gen3 / P1,P2）
- ペルソナを設定する（DIP）
  - 設定・制御できる要素
  - 利用できる言語と音声認識・音声合成
  - はじめに
  - ペルソナ一覧
  - ペルソナの追加
  - ペルソナの設定
  - ワークスペース
  - セッションログ
  - サポート
  - 付録
- 制御する
  - ふるまい：概要
  - ふるまい：アクション
  - ふるまい：感情表現
  - ふるまい：カメラ制御
  - ふるまい：生成AI向けサンプルプロンプト
  - 発話制御：SSMLの利用
  - 強制発話：SpeakAPI（スピークAPI）
- 体験をつくる
  - コンテンツ：表示する
  - コンテンツ：使用可能なHTMLタグ
  - コンテンツ：エディタ（コマンドエディタ）
  - スタートボタン：オリジナルのボタンを実装する
  - カスタムメタデータ：フロントエンドと会話AI間で情報をやり取りする
  - PTT：プッシュトゥトークモードを使用する
  - サジェステッドレスポンス:表示する
- 会話AI チャットボットと接続する
  - 接続実績のある会話AI・チャットボット
  - 会話AIやチャットボットとの接続を変更する
  - NLP プロファイル共通パラメータ
  - Dify と接続する
  - Dify で使える実装Tips集
  - miibo と接続する
  - Kore.ai と接続する
  - Allganize Alli と接続する
- トラブルシューティング
  - ログの確認方法、ログイベント一覧、セッションIDの取得
  - デジタルヒューマンプラットフォームの稼働状況
  - 解像度・通信量・帯域幅を確認する
  - WebRTCネットワーク診断ガイド（パケットロス調査）
  - デジタルヒューマンが画面に表示されません
  - デジタルヒューマンがフリーズしたり、同期が取れなくなりました
開発・設置
- 概要とネットワーク
  - プラットフォームの概要
  - ファイアウォール・ネットワーキングとWebRTC + TURN
- ホステッドエクスペリエンス
  - 概要
  - ビューの種類
  - 設置手順
  - 設定オプション
  - 表示文字列（多言語対応）
  - コードスニペットサンプル
  - イベント
  - メソッド
  - セキュリティ保護
  - マルチプル表示
- ミニプレム（MiniPrem）
  - 必ずお読みください
  - 環境準備
  - ファイアウォール設定
  - インストール
  - 操作ガイド
  - トラブルシュート
  - アップデート
- 会話AI・チャットボットとの接続
  - 会話AI・チャットボットとのプラットフォームインテグレーションの概要
  - 会話AI・チャットボットに求めるレスポンス例・機能
  - 独自LLMとデジタルヒューマンを接続する
  - 接続元IPアドレス
- BYO STTとTTS
  - BYO TTSを利用する（DHKKゲートウェイ）
カスタマー・パートナー向け
- リリースノート
  - リリースノート
- 契約・申込み
  - デジタルヒューマンを試してみたい（デモと2週間の無料試用が可能です）
  - アニメ・2Dのキャラクターをデジタルヒューマンのプラットフォームで利用できますか？
  - オリジナルキャラクター/クローンキャラクターを作成するには
  - ユーザー・カスタマー・パートナー・ベンダー・サプライヤーの位置づけについて
  - 導入支援してほしい
Terms, Privacy and Legal
- 文書一覧
  - 利用規約
  - フリートライアル利用規約
  - サービスレベルアグリーメント
  - プライバシーポリシー（個人情報保護方針）
  - 情報セキュリティ方針
More

コスト管理とトークン最適化

dify-docs-cost-management-and-token-optimization

⚠️

UIや詳細な料金体系はプロバイダごとに頻繁に変更されるため、運用時は必ず公式ドキュメントを確認してください。

1. コストの仕組み（最新トレンド対応）

1.1 課金要素の細分化

従来の「入力/出力」に加え、最新モデルでは以下の要素がコストに影響します。

入力トークン（Input）：ユーザー入力やRAGコンテキスト。

キャッシュ済み入力（Cached Input）：AnthropicやOpenAI、Gemini等で導入。一度送信した共通コンテキスト（システムプロンプトや長い文書）を再利用する場合、入力料金が50%〜90%割引される機能。RAGや長文タスクで極めて重要。

出力トークン（Output）：生成された回答。

推論トークン（Reasoning Tokens）：OpenAI o1/o3シリーズなどで導入。回答生成前の「思考プロセス」として消費されるトークン。出力トークンとして課金されるが見えない場合があるため、想定以上のコスト消費に注意が必要。

1.2 トークン効率の変化

最新のトークナイザ（例：GPT-4oのo200k_base）では、日本語のトークン効率が改善傾向（以前より少ないトークン数で表現可能）にあります。

とはいえ、依然として英語に比べれば割高なため、実測（ログ）ベースでの管理が必須である点に変わりはありません。

⚠️

料金は変動するため、各プロバイダの公式サイトをご確認ください。

2. コストの確認方法と管理体系

2.1 請求体系の変化（プリペイド化）

Credit Balance（前払い式）の普及：OpenAI等は、API利用において「後払い（月次請求）」から「プリペイド（クレジット購入）」へ移行しています。

管理ポイント：

「月次予算（Budget）」の設定に加え、「オートリチャージ（自動入金）」の設定が重要です。

残高不足によるサービス停止（APIエラー）を防ぐため、残高アラートのしきい値を適切に設定してください。

2.2 Dify / アプリケーション側での確認

トークン消費の内訳：入力、出力に加え、「コンテキストキャッシュがヒットしたかどうか（Cache Hit/Miss）」が確認できる場合は活用します。

トレース：RAG検索ノードやツール実行ノードでの消費量が、全体の何割を占めているかを確認します。

3. トークン最適化の方法（最新技術の活用）

3.1 プロンプトキャッシュ（Context Caching）の活用

現在、最もコスト削減効果が高い手法の一つです。

仕組み：システムプロンプト、数ショットの例、RAGで取得したドキュメントなど、「変わらない部分」をキャッシュします。

適用箇所：

長大なシステムプロンプトを持つエージェント

多くのドキュメントを参照するチャットボット

効果：キャッシュヒット時の入力コストが大幅に削減（例：1/10など）され、応答速度（レイテンシ）も向上します。

3.2 モデル選択とルーティング

(1) モデルの使い分け

推論モデル（o1/o3等）：複雑な論理的思考が必要な場合のみ使用。コストと時間がかかるため、通常のチャットには不向き。

高性能モデル（GPT-4o, Claude 3.5 Sonnet等）：文脈理解が必要な難易度の高いタスク用。

高効率モデル（GPT-4o mini, Claude 3.5 Haiku, Gemini Flash等）：日常会話、要約、単純な分類タスク用。基本はこのクラスを使用し、コストを抑制します。

(2) AIによるルーティング

ユーザーの質問内容を軽量モデル（または分類器）で判定し、難問だけを高性能モデルに送る構成を推奨します。

3.3 プロンプトとRAGの最適化

System Promptの圧縮

冗長な表現を削るだけでなく、マークダウン記法を活用して構造化し、トークン数を節約します。

簡潔なプロンプト

削減前（トークン多）：

あなたは親切で丁寧なアシスタントです。
ユーザーからの質問に対して、丁寧に回答してください。
回答はわかりやすく、具体的に行ってください。

削減後（トークン少）：

丁寧に回答。

不要なコンテキストの削除

削減ポイント：

重複した指示を削除

例文は必要最小限に

「できれば」「可能な限り」などの曖昧な表現を削除

RAGの検索精度向上（Re-ranking）

検索ヒット数（Top K）を多く取った後、Re-rankモデルで関連度が高い上位数件のみをLLMに渡すことで、コンテキスト量を絞りつつ回答精度を維持できます。

3.4 アノテーション（定型QA）の活用

頻出質問（FAQ）や固定的な案内（営業時間、手続きURLなど）は、LLMを使わずキーワード一致や類似度検索のみで回答を表示させることで、LLMコストをゼロにします。

4. 予算管理と運用フロー

4.1 コスト予測式（キャッシュ考慮版）

月間コスト = ( (新規入力 × 単価) + (キャッシュ入力 × 割引単価) + (出力 × 単価) ) × 会話数

キャッシュ活用時は入力単価が大きく下がるため、これを計算に入れないと過大な見積もりになります。

4.2 運用チェックリスト

モデル更新：より安価で高性能な新モデル（例：mini版の更新）が出ていないか四半期ごとに確認。

キャッシュ設定：システムプロンプトや固定コンテキストが正しくキャッシュされているか（Cache Hit率）を確認。

推論トークン監視：o1等の推論モデルを使用している場合、思考トークンが暴走していないか確認。

プリペイド残高：オートチャージ設定が有効か、クレジットカード期限が切れていないか。

5. デジタルヒューマン向け推奨設定

デフォルト：GPT-4o mini / Gemini Flash などの高速・低コストモデル。

キャッシュ：キャラクター設定（ペルソナ）や基本知識をプロンプトキャッシュに載せる。

応答制御：音声合成の待機時間を減らすためにも、回答は短文・箇条書きを強制するプロンプトを含める（出力トークン削減にも寄与）。

お役に立ちましたか？

😞

😐

🤩

最終更新日 March 3, 2026

利用状況モニタリングバージョン管理と更新手順