チャンク(セグメント)分割とインデックス設定

dify-docs-chunking-and-index-settings

ドキュメントをナレッジベースにアップロードした後、ドキュメントを検索可能な単位(チャンク)に分割し、インデックス化を行います。 適切な設定を行うことで、RAGの回答精度を大きく向上させることができます。

📦

チャンクとは

チャンクは、ドキュメントを検索可能な小さな単位に分割したものです。 LLMには入力長の制限があるので、適切な単位で分割することで検索精度が向上します。 単位が大きすぎるとノイズが混じり、小さすぎると文脈が消失するおそれがあります。

1. チャンク設定 (Chunk Settings)

ドキュメントの特性に合わせて、以下の3つのモードから分割方法を選択します。

汎用(汎用テキスト分割モード)

Notion image

一般的なほとんどのドキュメントで使用できる分割方法です。

例: マニュアル、議事録、記事など

Automatic: Difyが推奨するルールで自動的に分割およびクリーニングを行います。

Custom: チャンクの最大長(文字数)、区切り文字(デフォルトは \n(改行)で段落ごとに分割)、オーバーラップ(重複部分)の長さを手動で設定できます。正規表現を使い、分割ルールを変更できます。

親子(親子分割モード / 階層分割モード)

Notion image

ドキュメントを「親(大きな文脈)」と「子(小さな断片)」の関係で管理するモードです。文脈を保持しつつ細かく検索できます。

例: 構造化データ、CSVファイル、FAQ、商品データベースなど

検索時は「子チャンク」で、マッチングを行います。LLMへの入力(コンテキスト提供)は「親チャンク」を使います。「検索のヒット率を高めつつ、回答に必要な前後の文脈も失わない」という両立が可能です。

Q&A(質問と回答モード)

テキストデータから「質問(Q)」と「回答(A)」のペアを抽出してチャンク化します。 テキストファイルから自動的にQ&A形式を学習・分割するほか、CSVファイル等の構造化データを取り込む際にも有効です。

例: FAQ、カスタマーサポートの履歴、規約集など

チャンク設定項目

チャンク長(Chunk Size)

設定値
用途
300〜500文字
FAQ、短い情報
500〜1000文字
一般的な文書(推奨
1000〜2000文字
詳細な説明文書

オーバーラップ(Chunk Overlap) チャンク間で重複させる文字数

設定値
効果
0%
完全に分離、コスト削減
10〜20%
文脈の継続性を確保(推奨
30%以上
重複が多すぎ、非効率

2. インデックス方法 (Index Mode)

データの保存と検索のベースとなる仕組みを選択します。

  • High Quality(高品質・推奨)
    • Embeddingモデル(OpenAI text-embedding-3など)を使用してテキストをベクトル化します。
    • 文脈や意味内容に基づいた検索が可能になります。
    • トークン消費によるコストが発生します。
  • Economical(経済的)
    • 従来のキーワード検索(転置インデックス)のみを使用します。
    • オフラインで動作し、トークンコストがかかりません。
    • 意味検索(同義語や類似表現などで検索)はできません。
    •  

選択基準

用途
推奨インデックス
本番環境・デジタルヒューマン
High-Quality
開発・テスト環境
Economical(コスト節約)
専門用語が多い技術文書
High-Quality + 適切な埋め込みモデル

3. 検索設定 (Retrieval Settings)

「High Quality」インデックスを選択した場合、検索時にどの技術を使用するかを設定します。

  • Vector Search(ベクトル検索)
    • クエリとドキュメントの意味的な類似度(Cosine Similarityなど)で検索します。
    • キーワードが完全に一致しなくても、意味が近い情報をヒットさせることができます。
  • Full-text Search(全文検索)
    • ドキュメント内のキーワードがクエリに含まれているかどうかで検索します。
    • 固有名詞、型番、エラーコードなどの完全一致が必要な場合に有効です。
  • Hybrid Search(ハイブリッド検索)
    • 推奨設定: ベクトル検索と全文検索を同時に行い、結果を統合します。
    • Rerank(再ランク付け)モデルの活用: Hybrid検索を使用する場合、Rerankモデルの設定が強く推奨されます。検索結果の候補に対して、質問との関連度を再評価して並べ替えることで、精度の高い情報をトップに持ってきます。

デジタルヒューマン・対話AI向け推奨設定

自然な対話を実現するための推奨設定です。

  1. インデックス: 必ず High Quality を使用する。
  1. チャンク: 文脈切れを防ぐため、親子分割モードの利用を検討するか、汎用モードで十分な オーバーラップを設定する。
  1. 検索方法: Hybrid Search + Rerankモデル を採用し、意味理解と固有名詞の正確さを両立させる。
  1. クリーニング: ヘッダー、フッター、無意味な記号などはアップロード前に可能な限り除去する。

参考情報

お役に立ちましたか?
😞
😐
🤩

最終更新日 February 20, 2026