Contents
1. 管理者アカウントでのログイン手順
| 手順 | 操作内容 |
|---|---|
| 1‑1 | ブラウザで https://dify.ai にアクセスし、右上の Sign In をクリック。 |
| 1‑2 | 管理者ロールが付与されたユーザー名とパスワードを入力。 |
| 1‑3 | 組織で二要素認証(OTP アプリ・メール)や SSO が有効化されている場合は、画面の指示に従って認証を完了。 |
| 1‑4 | ダッシュボード左上のユーザーアイコン → Profile を開き、Roles に「Administrator」と表示されていることを確認。 |
ポイント
- 管理者権限が無いと「Knowledge」タブ以下の設定項目は非表示になります。
- SSO が有効の場合は社内 IdP(Okta、Azure AD など)の認証画面が出ますので、通常通りログインしてください。
2. 左サイドバーからパイプライン設定画面へ移動
- 左サイドバーの「Knowledge」アイコン(本棚マーク)をクリック。
- 表示されるメニューに Datasets, Pipelines, Observability が並びます。その中の Pipelines を選択すると、RAG 用パイプライン一覧が表示されます。
2024 年版 UI では「Knowledge」タブがナビゲーションの中心となり、従来の「Data」や「Index」メニューは統合されています。
3. データソースの追加とインデックス作成
3‑1. 「Add Data」からデータを取り込む流れ
| 種類 | 手順 |
|---|---|
| テキストファイル | Add Data → Upload Text → ファイル選択またはテキストエリアに貼り付け → Next(文字コードは自動判別) |
Add Data → Upload PDF → 複数ページでもドラッグ&ドロップでアップロード → OCR が必要な場合はチェックボックスをオン |
|
| Web URL | Add Data → Crawl Website → 対象 URL を入力し、クロール深度や除外パターンを設定 → Start Crawl |
3‑2. インデックス(Embedding)設定の推奨構成
| 項目 | 推奨設定例 | 補足 |
|---|---|---|
| チャンク分割方式 | Semantic Split(自動トピック抽出) | 文脈を保持しやすく、検索精度が向上します。 |
| チャンクサイズ | 800〜1,000 トークン程度 | 大き過ぎるとベクトル化コストが増大、小さすぎると情報が散逸します。 |
| 埋め込みモデル | text-embedding-ada-002(OpenAI)または e5-large-v2(EleutherAI) |
現行のベクトル検索で広く利用されているモデルです。コストと精度のバランスが良好です。 |
| 次元数 | 1,536 次元(OpenAI) または 1,024 次元(EleutherAI) |
インデックス作成時に「Embedding Dim」をモデルに合わせて設定してください。 |
注意:埋め込みモデルを変更した場合は、既存インデックスの再構築が必要です。
4. Knowledge Pipeline の主要オプション(v1.9.0 以降)
| オプション | 概要 | 設定例 |
|---|---|---|
| Rerank(再ランキング) | 初期ベクトル検索結果を LLM に再評価させ、上位 N 件だけを返す。 | Top‑5、モデルは同じ埋め込みモデルか軽量の gpt-4o-mini など |
| Metadata Filtering(メタデータフィルタ) | データに付与したタグやカテゴリで検索対象を絞り込む。 | department = "sales" のようにクエリ条件を設定 |
| Custom Score Weight(スコア重み調整) | ベクトル類似度と BM25 スコアの比率を自由に変更できる。 | vector_weight=0.7, bm25_weight=0.3 がデフォルト |
設定手順(概要)
- Knowledge → Pipelines で対象パイプラインを選択
- 右上の Edit ボタンをクリック
- 各タブ(Rerank、Metadata、Scoring)でスイッチをオンにし、数値や条件を入力
- Save → 設定が即座に反映されます
5. 検索モードの切替え
| モード | 特徴 |
|---|---|
| Hybrid Search(ベクトル + BM25) | デフォルト。ベクトル検索が 80%、BM25 が 20% の重みで統合され、キーワードマッチと意味的類似の両方を活かす。 |
| Vector Only | 完全にベクトル検索のみ。レイテンシは最小化できるが、正確なキーワード検索が必要なケースでは情報取得率が低下することがあります。 |
設定画面の Search Settings タブで Search Mode を選択し、スライダーで重みを微調整できます。プレビュー欄にヒット件数と関連度がリアルタイムで表示されるので、目的に合わせて最適化してください。
6. Observability(可観測性)ツールとの連携
| ツール | 設定手順 |
|---|---|
| Opik | Observability → Add Integration → Opik を選択 → ダッシュボードで取得した OPIK_API_KEY と PROJECT_ID を入力 → Save |
| Langfuse | 同上で Langfuse を選び、PUBLIC_KEY と SECRET_KEY を入力 |
| Arize Phoenix | Add Integration → Arize Phoenix → ARIZE_API_KEY と MODEL_ID を設定 |
- すべてのツールは「Test Connection」ボタンで接続確認が可能です。
- API キーは有効期限や権限が変更された場合に更新してください。
7. よくあるエラーと対処法
| エラーコード | 主な原因 | 推奨対策 |
|---|---|---|
| 504 Gateway Timeout | 大容量データのインデックス作成中にタイムアウトが発生 | データを 5 GB 未満に分割し、Chunk Size を 800‑1,000 トークンへ縮小 |
| 400 Vector Dimension Mismatch | 埋め込みモデルとインデックスの次元数が一致していない | Index Settings → Embedding Dim を使用中モデルに合わせて修正し、インデックスを再作成 |
| 401 Unauthorized (Observability) | API キーの期限切れ・権限不足 | 各ツールの管理コンソールで新しいキーを発行し、Dify に再設定 |
| 429 Too Many Requests | 無料プランやレートリミット超過 | クエリ頻度を Rate Limit 設定で抑えるか、有料プランへアップグレード |
8. パフォーマンスチューニングのポイント
- CPU / GPU の割り当て
-
ベクトル検索は GPU が有効な場合、同等の CPU 設定より約 3 倍高速化します。
Compute Resources→GPU: A10Gなどを選択してください。 -
キャッシュ層の活用
-
Redis キャッシュをオンにすると、直近で参照されたチャンクがメモリ上に保持され、平均レイテンシが 120 ms → 約 45 ms に低減します。
-
バッチインデックス
-
大量データは 1,000 件単位のバッチ投入と並列処理数
4(デフォルト)を設定すると、インデックス作成時間が約 30% 短縮されます。 -
ログレベルの調整
- 本番環境では
INFOレベルに抑え、デバッグ時のみDEBUGに切り替えることで不要な I/O を削減できます。
9. まとめ(最終要点)
- 管理者権限でログイン → 二要素認証・SSO が有効でも手順は変わらず、ロール確認を忘れないこと。
- 左サイドバーの「Knowledge」→「Pipelines」 からパイプライン設定画面へ簡単にアクセスできる。
- Add Data でテキスト・PDF・Web を取り込み、Index Settings では Semantic Split と現在主流の埋め込みモデル(例:
text‑embedding‑ada‑002)を選択すると検索精度が向上する。 - Pipeline のオプション(Rerank、Metadata Filter、Score Weight)は v1.9.0 以降に利用可能で、ハイブリッド検索と組み合わせて業務要件に最適化できる。
- Observability ツール(Opik・Langfuse・Arize Phoenix)との連携は API キー入力だけで完了し、エラーコードごとの対処法を把握しておくと障害時の復旧が迅速になる。
- パフォーマンス改善 は GPU 利用、Redis キャッシュ、バッチインデックスの3点に注力すると効果的。
以上の手順とポイントを踏むことで、Dify の管理画面から安全かつ効率的に RAG パイプラインを構築・運用できるようになります。公式ドキュメントやリリースノートは随時確認し、環境変化に合わせたメンテナンスを行ってください。
参考情報
- Dify 公式サイト(https://dify.ai)
- OpenAI Embedding API ドキュメント(2024 年版)
- 各 Observability ツールの公式ガイド(Opik、Langfuse、Arize Phoenix)
※本稿で紹介した外部リンクは執筆時点で確認できた情報に基づいていますが、内容の変更・削除については各サイトの責任範囲です。必要に応じて最新情報をご参照ください。