知識パイプラインから作成する

通常のナレッジベース作成では、ファイルをアップロードして設定するだけで完了します。知識パイプラインでは、取り込み・分割・整形の各処理をノードで個別に設定できる点が通常と異なります。

知識パイプライン(Knowledge Pipeline)は、ドキュメントの取り込み → 抽出 → 分割/整形 → ナレッジベース登録 までの一連の処理を、ノードをつないでビジュアルにカスタマイズできる機能です。 従来の簡易的なナレッジベース作成よりも細かな制御が可能で、複雑な前処理や構造化データへの対応に適しています。

circle-exclamation

アクセス方法

Difyの管理画面より、以下の手順でアクセスします。

  1. メニューから [ナレッジ (Knowledge)] を選択

  2. [知識パイプラインから作成する] ボタンをクリック

テンプレートの種類

テンプレート
概要
使用場面

空白のナレッジパイプライン

データ処理と構造を完全に制御できるカスタムパイプラインをゼロから作る。

独自のエキスパートフローの構築 特殊なデータ処理

一般文書処理(汎用)

ドキュメントを汎用的な段落ブロックに分割し、経済的なインデックス設定を使う。

大量のドキュメント処理(高速かつ低コストの条件下)

長文書処理(親子)

親子階層型のチャンキング(Parent-Child Chunking)戦略を使う。

長文資料(技術文書、契約書、研究レポートなど)

Q&A表データ抽出(Q&A)

表形式のデータから指定列を抽出し、構造化された質問/回答(Q&A)ペアを生成する。

ExcelやCSVのデータ(自然言語検索に適した形式に変換する場合)

文書形式変換(親子)

DOCX / XLSX / PPTX などのOffice形式ファイルをMarkdownテキストに変換する。

LLMが理解しやすい形式に統一 (処理効率と互換性を向上)

インテリジェントQ&A生成

ドキュメントから重要な情報を自動的に抽出し、質問と回答のペアを生成する。

長文のドキュメントを検索しやすい「知識ポイント」単位に分解・整理

パイプライン編集画面の構成

テンプレートを選択すると編集画面が開きます。この画面では、各処理を担う「ノード」を組み合わせてフローを構築します。

一般文書処理 サンプル

一般文書処理 サンプル

長文書処理 サンプル

長文書処理 サンプル

主なノード

  • データソース (Data Source)

    • パイプラインの開始点です。ドキュメントのインポート元(ファイルアップロード、Webスクレイピング等)を設定します。

  • エクストラクター (Extractor)

    • ドキュメントからテキストやメタデータを抽出します。

  • クリーナー / 分割 (Clean / Split)

    • 不要な文字の削除や、トークン数・区切り文字に基づくチャンク分割を行います。

  • 知識ベース (Knowledge Base)

    • パイプラインの終了点です。インデックス方式(ベクトル検索、キーワード検索等)や格納先を設定します。

チャンク構造の選択

Difyナレッジベースでは、主に以下のチャンク構造がサポートされています。

  • 汎用: 標準的なチャンク分割で、文脈の連続性をある程度維持します。

  • 親子: 詳細な「子チャンク」と、子チャンクを含む「親チャンク」を関連付けた階層構造を持ち、検索精度を向上させます。

  • Q&A: ユーザーの想定質問と回答のペア形式。FAQ的な検索に最適です。

主な操作ボタン

  • テストラン: 公開前にパイプラインを試行し、出力結果を確認します。

  • 公開する: パイプラインを有効化し、実際のドキュメント処理を開始します。

  • DSLファイルからインポート: 外部で作成・保存したパイプライン設定ファイル(DSL)を読み込みます。

参考URL

Dify 公式ドキュメント (Knowledge): https://docs.dify.ai/ja/use-dify/knowledgearrow-up-right

最新の仕様については上記公式ドキュメントの「Knowledge」セクションをご確認ください。

最終更新