TDP最低で常用LLMは動くのか?中古GPUで省電力AIサーバを作る実験

ozy's labo.


TDP最低で常用LLMを動かしたい

家庭用でLLMを常時稼働させたいと考えると,最初にぶつかるのがこの問題です.

電気代.

特にフィルタ用途や自動処理用途の場合,

  • 24時間稼働
  • 常時待機
  • 小さなモデルで十分

というケースが多くなります.

つまり重要なのは

性能
↓
よりも
↓
TDP

そこで今回は

「TDP最低で常用LLMを動かせるGPU」

をテーマに,中古GPUを中心に調べてみました.

SEO的にも人気のある

  • 低消費電力AIサーバ
  • 自宅LLMサーバ
  • 省電力GPU

といったキーワードに関係する内容です.

基準になる省電力GPU

まず比較の基準になるカードです.

NVIDIA GeForce GT 1030

TDP
30W
CUDAコア
384
VRAM
2GB

省電力GPUとして有名なカードです.

ただし重要な注意点があります.

GT1030には

GDDR5版
GDDR4版(地雷)

の2種類があります.

モデル メモリ帯域
GDDR5 約48GB/s
GDDR4 約16GB/s

DDR4版は性能がかなり落ちるため,
中古で購入する場合は

GDDR5版を選ぶ

ことが重要です.

さらに低TDPを狙う

次に候補になるのがこちらです.

NVIDIA GeForce GT 710

TDP
19W
CUDAコア
192
VRAM
1GB / 2GB
メモリ
DDR3

GT1030より古い世代ですが,

TDP 30W → 19W

と大幅に下がります.

しかし問題もあります.

GPU メモリ帯域
GT710 約14GB/s
GT1030 約48GB/s

メモリ帯域がかなり低いのです.

LLM推論では

メモリ帯域 = 性能

になることが多いため,

GT710
↓
CPUより遅い可能性

も普通にあります.

  • CPUという伏兵

ちなみにCPUの場合,

例として

Intel Core i5-6600T

TDP
35W
コア
4
AVX2
対応

メモリ帯域は

DDR4-2133 dual
約34GB/s

になります.

つまり

デバイス メモリ帯域
GT710 14GB/s
i5-6600T 34GB/s

という逆転現象が起きます.

その結果

小型LLM
↓
CPUの方が速い

という状況がよく発生します.

GPUの歴史をさらに掘る

ここからが今回の本題です.

中古GPUをさらに古い世代まで調べていくと,
とんでもないカードが見つかります.

NVIDIA NVS 295

発売
2009年
CUDAコア
8
VRAM
256MB
メモリ
GDDR3
TDP
23W

CUDAコア数を見てください.

8

RTX4090のような

16384 CUDA cores

と比べると

8

です.

二度見します.

CUDAコア8という世界

ここまで来ると

GPUというよりCUDAが使える何か

です.

ただし仕様としては

  • CUDA対応
  • PCIe
  • ロープロファイル
  • 補助電源なし

という,意外と優秀な特徴があります.

つまり理論上は

LLM推論
実行可能

です.

もちろん速度は期待してはいけません.

TPS予測

1B Q4モデルでのざっくり推定です.

デバイス 推定TPS
i5-6600T 40〜60
GT1030 15〜30
GT710 5〜12
NVS295 3〜6

つまり

CUDAコア8でも
LLMは一応動く

ということになります.

低消費電力AIサーバの結論

今回の調査から見えてきた現実的ラインです.

GPU TDP コメント
GT1030 30W 安定
GT710 19W 省電力
NVS295 23W ネタ枠

ただし最近は

小型LLM
+
CPU AVX2

がかなり高速になっているため,

GPU不要

なケースも増えています.

実際に,GT730 VRAM1GB をわざわざ手に入れて,1bモデルを動かす実験をしてみました.
GT730には二種類あって,私が手に入れたのは新しいほうの Keplerコアのものでしたが,llama.cpp のビルドは cuda-11.4 で通るものの,
モデルの読み込みに失敗し,どうやっても解決する事は出来ませんでした.
cuda 環境そのものからしてダウングレードするなど,まだ,やりようはあったと思いますが,そこまでしたところで性能は知れてるので,追求する意味はないと判断しました.

重要:
GT1030 2GB からがLLM用として実用出来る最低ラインだと思われます.
但し,モデルの賢さから考えると,役に立つかどうかは正直微妙です.

GTX1050Ti 4GB であれば,Qwen-4b が 4kコンテキストで常時安定動作出来るので,一気に実用性は高まります.
(実際,稼働させてます)

まとめ

今回わかったことです.

  • 省電力GPUの下限はだいたい20W
  • GPUを古代まで掘るとCUDAコア8に出会う
  • 小型LLMはCPUでも意外と速い

自宅LLMサーバや省電力AI環境を作る場合は,

GPUよりもTDPとメモリ帯域

を重視するのがポイントです.

中古GPUの世界は,まだまだ面白い化石が眠っています.


Date: 2026-03-06

Author: ozyukiwo

Created: 2026-03-11 水 08:08

Emacs 26.3 (Org mode 9.1.9)

Validate