推奨設定一覧

デジタルヒューマンの実装において重要となる「応答速度(低遅延)」「人格の一貫性」「コストパフォーマンス」を考慮した Dify 推奨設定です。

1. LLM 設定

1.1 モデル選定(2025-2026年の標準)

従来の GPT-3.5 / GPT-4 から、より高速・安価・高性能なモデルへの移行を強く推奨します。

  • GPT-4o (OpenAI):

    • 推奨用途: メインの会話モデル。応答速度が非常に速く、感情表現も豊か。日本語の流暢さと速度のバランスが現在最適です。

  • GPT-4o-mini (OpenAI):

    • 推奨用途: コスト重視、または挨拶や単純な応答。

    • 理由: GPT-3.5-turbo よりも安価で高性能かつ高速です。

  • Claude 3.5 Sonnet (Anthropic):

    • 推奨用途: より人間らしく、温かみのある対話が必要な場合。

1.2 推奨パラメータ

デジタルヒューマンは「即答性」と「キャラ崩壊の防止」が重要です。

  • Temperature: 0.5〜0.7

    • 解説: 0.3だと機械的になりすぎるため、少し揺らぎを持たせます。人格プロンプトで制御できている前提です。

  • max_tokens: 300〜500

    • 解説: 長文回答は音声合成(TTS)の待ち時間を増やし、ユーザーを飽きさせます。短くテンポの良い会話を強制するため、あえて少なめに設定することを推奨します。

2. ナレッジベース設定(RAG)

2.1 埋め込みモデル(Embedding)

古いモデル(ada-002等)は精度・コスト面で推奨されなくなっています。

  • 推奨モデル:

    • text-embedding-3-large (OpenAI): 精度重視。

    • text-embedding-3-small (OpenAI): 速度・コスト重視。

    • multilingual-e5-large: 日本語特化の精度が必要な場合。

2.2 検索設定

  • Top K: 3〜5

    • 解説: コンテキストが長くなると LLM の処理時間(TTFT)が増加します。必要最小限に絞ります。

  • Score Threshold: 0.6〜0.7

    • 解説: 無関係な知識を無理やり話させないために、閾値はやや高めを設定します。

3. API 連携・応答モード設定(重要)

デジタルヒューマンにおいて最も重要な設定項目です。

  • 応答モード: Streaming(ストリーミング)推奨

    • 理由: blockingモードでは、文章生成が完了するまで音声合成を開始できず、数秒の「無言時間」が発生します。streamingを使用し、最初の数文字が届いた時点で音声合成やモーション生成を開始するパイプラインを構築するのが、現代のデジタルヒューマンの基本実装です。

  • 会話履歴(Memory): Window Memory(直近 5〜10 ターン)

    • 解説: 履歴が長すぎるとプロンプト処理が重くなります。また、話題転換への追従性を高めるためにも、あまり古い履歴は引きずらない設定が好ましいです。

4. プロンプト設計のヒント

設定値だけでなく、システムプロンプトで以下の制約を加えると品質が安定します。

  • 「回答は1〜2文で簡潔に答えてください。」(TTS生成時間の短縮)

  • 「あなたは〜です。〜という口調で話してください。」(役割の固定)

  • 「分からないことは無理に答えず、正直に分からないと言ってください。」(ハルシネーション対策)

5. ユースケース別プリセット

用途
モデル
Temperature
応答モード
特記事項

受付・案内

GPT-4o-mini

0.3

Streaming

速度と正確性最優先。RAG必須。

雑談・フリートーク

GPT-4o / Claude 3.5 Sonnet

0.7

Streaming

共感性重視。メモリ多め。

専門コンサル

GPT-4o

0.5

Streaming

正確性重視。Rerank有効化。


最終更新