GPUについておさらい

GPUの深層：LLMを動かす「3つの主要素」とその連携

AIブームの主役であるGPU。しかし、その内部で何が起きているのかを正確に把握している人は多くありません。LLM（大規模言語モデル）が動く際、GPU内部の「VRAM」「CUDAコア」「Tensorコア」はどのように連携しているのでしょうか。

その役割と関係性を、**「巨大な厨房」**に例えて解説します。

GPUの性能を支えるのは、主に以下の3つの要素です。

VRAMはデータを保管する「記憶装置」です。計算自体は行いませんが、すべてのデータはここを起点に動き出します。

行列演算（塊ごとの掛け算）に特化した、AIのための超高速計算ユニットです。

どんな計算でも器用にこなす、汎用的な計算ユニットです。

私たちがAIに質問を投げてから答えが返ってくるまで、データは以下のようなルートでやり取りされます。

下準備（CUDAコア ↔ VRAM）
入力された文字を、CUDAコアが計算可能な「数値のリスト」に変換。それをVRAMの指定席（作業デスク）に並べます。
メイン調理（Tensorコア ↔ VRAM）
Tensorコアが、VRAMから「モデルの知能」と「入力数値」をガバッと掴み、Attention計算を実行。結果を再びVRAMに書き戻します。
仕上げ（CUDAコア ↔ VRAM）
VRAMに戻された計算結果をCUDAコアが読み取り、「次に来るべき最適な文字」を決定。私たちが読めるテキストに戻します。

この3つの要素には、それぞれ「得意・不得意」があるため、連携の質がAIの回答速度を左右します。

データは必ずVRAMを経由する:
CUDAコアとTensorコアが直接お喋りすることはありません。すべてはVRAMという「共通のデスク」を介して行われます。
ボトルネックは「移動」にある:
Tensorコアの計算がいくら速くても、VRAMからデータを持ってくる道が狭ければ、コアは待ちぼうけを食らいます。これが、AI用GPUにおいて「メモリ帯域幅（スピード）」が重視される理由です。

これらが1秒間に数兆回ものバケツリレーを行うことで、私たちはAIとリアルタイムに会話できているのです。

GPUについておさらい

哲平中野