LLM運用におけるハードウェア別の推論速度と電力効率に関する調査報告

ozy's labo.


1. 調査の目的

本調査は,1B(Llama-3.2等)および4B(Phi-3-mini等)クラスの小規模言語モデルを,旧世代および現行のエントリークラスハードウェアで運用した際の実効トークン速度(tok/s)と電力効率(TDPあたりのトークン生成数)を明らかにすることを目的とする.

2. 対象ハードウェアのスペック概要

比較対象としたデバイスの主な仕様は以下の通りである.

デバイス名 アーキテクチャ TDP メモリ規格 特徴
Pentium N3700 Braswell 6W DDR3L-1600 極低消費電力・AVX非対応
Core i3-3220T Ivy Bridge 35W DDR3-1600 省電力版デスクトップCPU
Core i5-6600T Skylake 35W DDR4-2133 AVX2対応・バランス型
Xeon E3-1275 v2 Ivy Bridge 77W DDR3-1600 旧世代サーバー用CPU
Ryzen 3 3100 Zen 2 65W DDR4-3200 近代的な設計・高帯域メモリ
GeForce GTX 1050Ti Pascal 75W GDDR5 4GB 専用VRAMによる並列演算

3. 推論性能および電力効率の予測(1Bモデル / 4-bit量子化時)

推論速度(tok/s)をTDP(W)で除した「1Wあたりのトークン生成効率」を指標として算出.

デバイス名 推測速度(tok/s) 効率 (tok/W) 評価
GTX 1050 Ti 30.0 ~ 50.0 0.40 ~ 0.67 最高効率 (GPUの優位性)
Pentium N3700 1.5 ~ 2.5 0.25 ~ 0.42 高効率だが実用性(速度)欠如
i5-6600T 7.0 ~ 11.0 0.20 ~ 0.31 CPU中で最高バランス
Ryzen 3 3100 12.0 ~ 18.0 0.18 ~ 0.28 高速だがTDP比ではi5に劣る
i3-3220T 4.0 ~ 7.0 0.11 ~ 0.20 AVX2非対応により効率低下
Xeon E3-1275 v2 8.0 ~ 12.0 0.10 ~ 0.16 消費電力の多さが効率を阻害

4. アイドル時の消費電力(システム全体推定)

常時稼働を想定した場合のベースロード電力の比較.

  • Pentium N3700: 4W ~ 7W (IoT・常時待機ボットに最適)
  • i5-6600T: 10W ~ 15W (極めて優秀な待機電力)
  • i3-3220T: 15W ~ 25W
  • Ryzen 3 3100: 30W ~ 45W (チップレット構造による待機電力の増大)
  • Xeon E3-1275 v2: 35W ~ 50W
  • GTX 1050 Ti: ベースシステムに +6W ~ 10W 加算

5. 技術的考察と結論

5.1 命令セットとメモリ帯域の重要性

  1. AVX2の壁: [Core i5-6600T](https://www.intel.co.jp)以降のAVX2対応CPUは,旧世代に比べ電力効率が劇的に向上する.
  2. メモリチャネル: [Ryzen 3 3100](https://www.amd.com)のようにDDR4-3200をデュアルチャネルで運用することは,CPU推論における唯一かつ最大のブースト要因となる.

5.2 GPU推論の圧倒的コストパフォーマンス

[GTX 1050 Ti](https://www.nvidia.com)のような専用GPUは,TDPこそ高いものの,生成1枚あたりの電力量で見ればCPUを凌駕する.ただし,VRAM容量(4GB)がモデルサイズの絶対的な壁となる.

5.3 最終的な推奨構成**

  • 速度・効率重視: i3-3220T + GTX 1050 Ti (PCIe x16接続)
  • 省電力サーバー重視: i5-6600T 単体 (内蔵GPU活用を含む)
  • 超省エネ・バックグラウンド処理: Pentium N3700

6. 今後の検討課題

  • Intelの内蔵GPU(HD Graphics 530等)を加速させるための[SYCL(oneAPI)](https://github.com)バックエンドの適用.
  • 4B以上のモデルにおけるVRAM不足時のCPUオフロードによる電力効率の変動.


Date: 2026-03-01

Author: ozyukiwo

Created: 2026-03-11 水 08:08

Emacs 26.3 (Org mode 9.1.9)

Validate