TDP最低で常用LLMは動くのか?中古GPUで省電力AIサーバを作る実験
TDP最低で常用LLMを動かしたい
家庭用でLLMを常時稼働させたいと考えると,最初にぶつかるのがこの問題です.
電気代.
特にフィルタ用途や自動処理用途の場合,
- 24時間稼働
- 常時待機
- 小さなモデルで十分
というケースが多くなります.
つまり重要なのは
性能 ↓ よりも ↓ TDP
そこで今回は
「TDP最低で常用LLMを動かせるGPU」
をテーマに,中古GPUを中心に調べてみました.
SEO的にも人気のある
- 低消費電力AIサーバ
- 自宅LLMサーバ
- 省電力GPU
といったキーワードに関係する内容です.
基準になる省電力GPU
まず比較の基準になるカードです.
NVIDIA GeForce GT 1030
- TDP
- 30W
- CUDAコア
- 384
- VRAM
- 2GB
省電力GPUとして有名なカードです.
ただし重要な注意点があります.
GT1030には
GDDR5版 GDDR4版(地雷)
の2種類があります.
| モデル | メモリ帯域 |
|---|---|
| GDDR5 | 約48GB/s |
| GDDR4 | 約16GB/s |
DDR4版は性能がかなり落ちるため,
中古で購入する場合は
GDDR5版を選ぶ
ことが重要です.
さらに低TDPを狙う
次に候補になるのがこちらです.
NVIDIA GeForce GT 710
- TDP
- 19W
- CUDAコア
- 192
- VRAM
- 1GB / 2GB
- メモリ
- DDR3
GT1030より古い世代ですが,
TDP 30W → 19W
と大幅に下がります.
しかし問題もあります.
| GPU | メモリ帯域 |
|---|---|
| GT710 | 約14GB/s |
| GT1030 | 約48GB/s |
メモリ帯域がかなり低いのです.
LLM推論では
メモリ帯域 = 性能
になることが多いため,
GT710 ↓ CPUより遅い可能性
も普通にあります.
- CPUという伏兵
ちなみにCPUの場合,
例として
Intel Core i5-6600T
- TDP
- 35W
- コア
- 4
- AVX2
- 対応
メモリ帯域は
DDR4-2133 dual 約34GB/s
になります.
つまり
| デバイス | メモリ帯域 |
|---|---|
| GT710 | 14GB/s |
| i5-6600T | 34GB/s |
という逆転現象が起きます.
その結果
小型LLM ↓ CPUの方が速い
という状況がよく発生します.
GPUの歴史をさらに掘る
ここからが今回の本題です.
中古GPUをさらに古い世代まで調べていくと,
とんでもないカードが見つかります.
NVIDIA NVS 295
- 発売
- 2009年
- CUDAコア
- 8
- VRAM
- 256MB
- メモリ
- GDDR3
- TDP
- 23W
CUDAコア数を見てください.
8
RTX4090のような
16384 CUDA cores
と比べると
8
です.
二度見します.
CUDAコア8という世界
ここまで来ると
GPUというよりCUDAが使える何か
です.
ただし仕様としては
- CUDA対応
- PCIe
- ロープロファイル
- 補助電源なし
という,意外と優秀な特徴があります.
つまり理論上は
LLM推論 実行可能
です.
もちろん速度は期待してはいけません.
TPS予測
1B Q4モデルでのざっくり推定です.
| デバイス | 推定TPS |
|---|---|
| i5-6600T | 40〜60 |
| GT1030 | 15〜30 |
| GT710 | 5〜12 |
| NVS295 | 3〜6 |
つまり
CUDAコア8でも LLMは一応動く
ということになります.
低消費電力AIサーバの結論
今回の調査から見えてきた現実的ラインです.
| GPU | TDP | コメント |
|---|---|---|
| GT1030 | 30W | 安定 |
| GT710 | 19W | 省電力 |
| NVS295 | 23W | ネタ枠 |
ただし最近は
小型LLM + CPU AVX2
がかなり高速になっているため,
GPU不要
なケースも増えています.
実際に,GT730 VRAM1GB をわざわざ手に入れて,1bモデルを動かす実験をしてみました.
GT730には二種類あって,私が手に入れたのは新しいほうの Keplerコアのものでしたが,llama.cpp のビルドは cuda-11.4 で通るものの,
モデルの読み込みに失敗し,どうやっても解決する事は出来ませんでした.
cuda 環境そのものからしてダウングレードするなど,まだ,やりようはあったと思いますが,そこまでしたところで性能は知れてるので,追求する意味はないと判断しました.
重要:
GT1030 2GB からがLLM用として実用出来る最低ラインだと思われます.
但し,モデルの賢さから考えると,役に立つかどうかは正直微妙です.
GTX1050Ti 4GB であれば,Qwen-4b が 4kコンテキストで常時安定動作出来るので,一気に実用性は高まります.
(実際,稼働させてます)
まとめ
今回わかったことです.
- 省電力GPUの下限はだいたい20W
- GPUを古代まで掘るとCUDAコア8に出会う
- 小型LLMはCPUでも意外と速い
自宅LLMサーバや省電力AI環境を作る場合は,
GPUよりもTDPとメモリ帯域
を重視するのがポイントです.
中古GPUの世界は,まだまだ面白い化石が眠っています.