TDP最低で常用LLMは動くのか？中古GPUで省電力AIサーバを作る実験

ozy's labo.

TDP最低で常用LLMを動かしたい
基準になる省電力GPU
- NVIDIA GeForce GT 1030
さらに低TDPを狙う
- NVIDIA GeForce GT 710
- Intel Core i5-6600T
GPUの歴史をさらに掘る
- NVIDIA NVS 295
CUDAコア8という世界
TPS予測
低消費電力AIサーバの結論
まとめ

TDP最低で常用LLMを動かしたい

家庭用でLLMを常時稼働させたいと考えると，最初にぶつかるのがこの問題です．

電気代．

特にフィルタ用途や自動処理用途の場合，

24時間稼働
常時待機
小さなモデルで十分

というケースが多くなります．

つまり重要なのは

性能
↓
よりも
↓
TDP

そこで今回は

「TDP最低で常用LLMを動かせるGPU」

をテーマに，中古GPUを中心に調べてみました．

SEO的にも人気のある

低消費電力AIサーバ
自宅LLMサーバ
省電力GPU

といったキーワードに関係する内容です．

基準になる省電力GPU

まず比較の基準になるカードです．

NVIDIA GeForce GT 1030

TDP: 30W
CUDAコア: 384
VRAM: 2GB

省電力GPUとして有名なカードです．

ただし重要な注意点があります．

GT1030には

GDDR5版
GDDR4版（地雷）

の2種類があります．

モデル	メモリ帯域
GDDR5	約48GB/s
GDDR4	約16GB/s

DDR4版は性能がかなり落ちるため，
中古で購入する場合は

GDDR5版を選ぶ

ことが重要です．

さらに低TDPを狙う

次に候補になるのがこちらです．

NVIDIA GeForce GT 710

TDP: 19W
CUDAコア: 192
VRAM: 1GB / 2GB
メモリ: DDR3

GT1030より古い世代ですが，

TDP 30W → 19W

と大幅に下がります．

しかし問題もあります．

GPU	メモリ帯域
GT710	約14GB/s
GT1030	約48GB/s

メモリ帯域がかなり低いのです．

LLM推論では

メモリ帯域 = 性能

になることが多いため，

GT710
↓
CPUより遅い可能性

も普通にあります．

CPUという伏兵

ちなみにCPUの場合，

例として

Intel Core i5-6600T

TDP: 35W
コア: 4
AVX2: 対応

メモリ帯域は

DDR4-2133 dual
約34GB/s

になります．

つまり

デバイス	メモリ帯域
GT710	14GB/s
i5-6600T	34GB/s

という逆転現象が起きます．

その結果

小型LLM
↓
CPUの方が速い

という状況がよく発生します．

GPUの歴史をさらに掘る

ここからが今回の本題です．

中古GPUをさらに古い世代まで調べていくと，
とんでもないカードが見つかります．

NVIDIA NVS 295

発売: 2009年
CUDAコア: 8
VRAM: 256MB
メモリ: GDDR3
TDP: 23W

CUDAコア数を見てください．

RTX4090のような

16384 CUDA cores

と比べると

です．

二度見します．

CUDAコア8という世界

ここまで来ると

GPUというよりCUDAが使える何か

です．

ただし仕様としては

CUDA対応
PCIe
ロープロファイル
補助電源なし

という，意外と優秀な特徴があります．

つまり理論上は

LLM推論
実行可能

です．

もちろん速度は期待してはいけません．

TPS予測

1B Q4モデルでのざっくり推定です．

デバイス	推定TPS
i5-6600T	40〜60
GT1030	15〜30
GT710	5〜12
NVS295	3〜6

つまり

CUDAコア8でも
LLMは一応動く

ということになります．

低消費電力AIサーバの結論

今回の調査から見えてきた現実的ラインです．

GPU	TDP	コメント
GT1030	30W	安定
GT710	19W	省電力
NVS295	23W	ネタ枠

ただし最近は

小型LLM
+
CPU AVX2

がかなり高速になっているため，

GPU不要

なケースも増えています．

実際に，GT730 VRAM1GB をわざわざ手に入れて，1bモデルを動かす実験をしてみました．
GT730には二種類あって，私が手に入れたのは新しいほうの Keplerコアのものでしたが，llama.cpp のビルドは cuda-11.4 で通るものの，
モデルの読み込みに失敗し，どうやっても解決する事は出来ませんでした．
cuda 環境そのものからしてダウングレードするなど，まだ，やりようはあったと思いますが，そこまでしたところで性能は知れてるので，追求する意味はないと判断しました．

重要:
GT1030 2GB からがLLM用として実用出来る最低ラインだと思われます．
但し，モデルの賢さから考えると，役に立つかどうかは正直微妙です．

GTX1050Ti 4GB であれば，Qwen-4b が 4kコンテキストで常時安定動作出来るので，一気に実用性は高まります．
(実際，稼働させてます)

まとめ

今回わかったことです．

省電力GPUの下限はだいたい20W
GPUを古代まで掘るとCUDAコア8に出会う
小型LLMはCPUでも意外と速い

自宅LLMサーバや省電力AI環境を作る場合は，

GPUよりもTDPとメモリ帯域

を重視するのがポイントです．

中古GPUの世界は，まだまだ面白い化石が眠っています．