チャンク分割とインデックス設定
ドキュメントのチャンク分割方法とインデックス設定について解説します。
チャンクとは
チャンクは、ドキュメントを検索可能な小さな単位に分割したものです。
チャンク分割の重要性
- LLMには入力長の制限がある
- 適切な単位で分割することで検索精度が向上
- 大きすぎるとノイズ混入、小さすぎると文脈喜失
チャンクモード
Difyには3つのチャンクモードがあります:
1. General(汎用)
項目 | 説明 |
用途 | 標準的な文書 |
分割方法 | 文字数ベース |
推奨 | ほとんどのケースで最適 |
2. Parent-child(親子)
項目 | 説明 |
用途 | 構造化データ、CSV |
分割方法 | 親チャンクと子チャンクに分離 |
メリット | 文脈を保持しつつ細かく検索 |
3. Q&A
項目 | 説明 |
用途 | FAQ、よくある質問 |
分割方法 | 質問と回答のペア |
メリット | Q&A形式のデータに最適 |
チャンク設定項目
チャンク長(Chunk Size)
設定値 | 用途 |
300〜500文字 | FAQ、短い情報 |
500〜1000文字 | 一般的な文書(推奨) |
1000〜2000文字 | 詳細な説明文書 |
オーバーラップ(Chunk Overlap)
チャンク間で重複させる文字数:
設定値 | 効果 |
10〜20% | 文脈の継続性を確保(推奨) |
0% | 完全に分離、コスト削減 |
30%以上 | 重複が多すぎ、非効率 |
インデックス方法
High-Quality(高品質)
項目 | 内容 |
仕組み | 埋め込みモデルでベクトル化 |
検索方式 | セマンティック検索可能 |
精度 | 高い |
コスト | 埋め込みモデルの利用料がかかる |
推奨 | デジタルヒューマンではこちらを推奨 |
Economical(経済的)
項目 | 内容 |
仕組み | キーワードベースのインデックス |
検索方式 | キーワードマッチング |
精度 | 低い |
コスト | 無料 |
デジタルヒューマン向け推奈設定
インデックス: High-Quality
チャンクモード: General
チャンクサイズ: 500〜1000文字
オーバーラップ: 10〜20%参考URL
お役に立ちましたか?
😞
😐
🤩
最終更新日 December 23, 2025