2026-04-30·LLM·⏱ 約 4 分

LLM 入門 ─ ChatGPT は何を計算しているのか

ChatGPT・Claude・Gemini などの大規模言語モデル(LLM)が内部で何をしているかを、Transformer の数式と pre-training/fine-tuning の流れで整理します。

ChatGPT・Claude・Gemini が『答えを返してくれる』のはなぜか？内部で何が起きているのかを、AI エンジニア視点で要素分解します。

LLM の本質は『次の単語予測』

LLM は これまでの文脈から次のトークンを確率的に予測 することを延々と学習したモデル。これだけで会話・コード・要約・翻訳などができてしまう ─ 規模を上げると新しい能力が突然現れる(Emergent Ability)のが LLM の不思議。

P (x_{t} ∣ x_{1}, x_{2}, \dots, x_{t - 1})

💡 Auto-regressive とは

1 トークン予測 → 出力に追加 → また予測 → … を繰り返す。ChatGPT が文字を 1 つずつ出すのはこの仕組み。

アーキテクチャ ─ Decoder-only Transformer

Transformer が基本(2017 年提案)
GPT 系・ LLaMA ・ Claude などはほぼ Decoder-only
BERT は Encoder-only(分類向き)
T5 は Encoder + Decoder(翻訳など)

Self-Attention で長距離依存を処理 ─ 詳細は以下の記事:

[Transformer の数学](/blog/transformer-math) ─ Self-Attention の式と PyTorch 実装
[線形代数を AI 視点で](/blog/linear-algebra-for-ai) ─ 内積と行列積の理解

学習の 3 段階

Stage 1: 事前学習(Pre-training)

Web ・書籍・コードなどの 大量テキスト で次トークン予測を学習。GPT-4 級だと数兆トークン。データセンター規模の計算が数ヶ月かかる。

Stage 2: 教師ありファインチューニング(SFT)

人間が書いた高品質な指示・応答ペア で追加学習。指示に従う動作を獲得。

Stage 3: RLHF(人間フィードバック強化学習)

好み比較データ から報酬モデルを学習し、PPO で本体を最適化。Helpful ・ Harmless ・ Honest を促進。

応答候補 A・B を出して人間が好みを選ぶ
好み比較から 報酬モデル を学習
報酬モデルを使って PPO で LLM を強化学習

推論時の重要パラメータ

温度(temperature): 高 = ランダム、低 = 決定論的
Top-p(nucleus sampling): 累積確率 p までの候補から選択
Top-k: 上位 k 候補から選択
コンテキスト長: 一度に扱える入力 + 出力の長さ(GPT-4 = 128K, Claude 4.7 = 1M)
max_tokens: 出力の最大長

OpenAI API の例

from openai import OpenAI

client = OpenAI()
resp = client.chat.completions.create(
    model='gpt-4o',
    messages=[{'role': 'user', 'content': '統計検定 2 級の合格率は?'}],
    temperature=0.7,
    max_tokens=300,
)
print(resp.choices[0].message.content)

幻覚(Hallucination)とその対策

LLM は『もっともらしい嘘』を生成することがある。対策:

RAG(検索拡張生成): 信頼できるドキュメントを参照させる
ファクトチェック: 別 LLM で検証・ツール呼び出し
温度を下げる: 創造性は下がるが安定
Chain-of-Thought: 推論過程を出させる

RAG の詳細は [RAG 入門](/blog/rag-introduction) を参照。

次のステップ

[プロンプトエンジニアリング基礎](/blog/prompt-engineering-basics)
[Transformer の数学](/blog/transformer-math)
[E 資格ロードマップ](/certs/e-shikaku/roadmap)
[AI Engineer Roadmap](/roadmap)