家庭で構築するローカルLLM統合システム設計
ChatGPTに匹敵する体験を自作する技術同人誌

ozy's labo.

はじめに
第1章ハードウェア設計
第2章 LLM運用設計
- 2.1 モデル戦略
- 2.2 コンテキスト設計
第3章 RAGシステム設計
第4章 Web知識自動拡充
第5章 Open WebUI互換APIとElisp統合
第6章 UX設計がすべてを決める
第7章現実的な完成形
おわりに

はじめに

本書は，家庭環境においてローカルLLMを運用し，
商用クラウドLLMに匹敵する体験を構築するための設計指針をまとめた技術同人誌です．

ここで言う「匹敵」とは，推論性能そのものではなく，
統合体験（UX・RAG・Web連携・履歴管理）を含めた総合的な使い勝手を指します．

第1章ハードウェア設計

1.1 GPU選定

家庭用途における現実的な選択肢は以下です．

12GBクラス（例：RTX 3060）
16GB〜24GBクラス（将来拡張向け）

12GBあれば7Bモデルが安定します．
24GBあれば14Bモデルや長コンテキストが現実的になります．

1.2 VRAM消費の内訳

VRAMを消費する主因は以下です．

モデル本体
KVキャッシュ（コンテキスト長依存）
推論バッファ

重要なのは，ベクトルDBは通常VRAMを消費しないという点です．
ベクトルDBは主にRAMまたはSSDを使用します．

1.3 推奨最小構成

GPU: 12GB以上
RAM: 32GB
SSD: NVMe 1TB
CPU: 6コア以上

この構成で実用的な環境が構築可能です．

第2章 LLM運用設計

2.1 モデル戦略

軽量モデル（常用）:

7Bクラス

高品質モデル（用途限定）:

14Bクラス

用途別に切り替える設計が合理的です．

2.2 コンテキスト設計

長コンテキストはVRAMを消費します．

8k: 安定
16k: やや重い
32k: 上位GPU向け

長文対応はRAGで補う方が効率的です．

第3章 RAGシステム設計

3.1 基本構造

RAGは以下で構成されます．

文書保存
チャンク分割
Embedding生成
ベクトルDB登録
類似検索
LLMへ注入

3.2 文書更新戦略

ローカル文書が頻繁に更新される場合：

変更ファイルのみ再インデックス
ハッシュ管理による差分検出

全再構築は不要です．

3.3 自動更新デーモン

標準UIにはファイル監視機能がありません．
そのため以下を実装します．

ファイル監視
差分検出
再Embedding
DB更新

これにより常に最新状態を維持できます．

第4章 Web知識自動拡充

4.1 基本アーキテクチャ

Web取得 → 本文抽出 → チャンク化 → Embedding → DB登録

4.2 実装方針

推奨：

RSS駆動型
特定ドメイン限定
定期バッチ処理

無差別クロールは非推奨です．

4.3 法的配慮

robots.txt遵守
著作権確認
利用規約確認

個人利用でも注意が必要です．

第5章 Open WebUI互換APIとElisp統合

5.1 APIの特性

OpenAI互換APIはステートレスです．
毎回以下を送信します．

system
user
assistant履歴

5.2 システムプロンプト管理

systemプロンプトはリクエストごとに送信します．
Elisp側で可変変数として管理します．

ロール変更時は履歴をクリアする設計が望ましいです．

5.3 セッション設計

バッファローカルsystem変数
履歴管理
ストリーミング対応

これにより柔軟な人格切替が可能になります．

第6章 UX設計がすべてを決める

家庭環境で「匹敵する」体験を作る鍵はUXです．

重要要素：

ストリーミング出力
履歴要約
RAG統合
Web検索統合
モデル自動切替

推論能力だけではなく，
統合設計こそが体験品質を決定します．

第7章現実的な完成形

推奨構成例：

GPU: 12GB
モデル: 7B Q4
コンテキスト: 8192
ベクトルDB: ローカル常駐
Web検索: 必要時のみ
UI: Chat風インターフェース
Emacs統合: API経由制御

この構成で実用的かつ拡張可能なシステムが完成します．

おわりに

家庭でのローカルLLM構築は，
単なるモデル実行ではなく「統合設計」の問題です．

本書がその設計の指針となれば幸いです．

家庭で構築するローカルLLM統合システム設計 ChatGPTに匹敵する体験を自作する技術同人誌