LLM (大規模言語モデル) とは？仕組み・代表モデル・使い方

▶

本稿は LLM (Large Language Model / 大規模言語モデル) に関する記事です。

この記事の要点

LLM は「次の単語を予測する」ことを大量データで学習した巨大な Transformer
事前学習（自己教師あり）→ ファインチューニング（SFT）→ RLHF / DPO で人間嗜好に合わせる、3 段階で作る
用途: 文章生成・要約・翻訳・コード・推論・会話・エージェント
代表モデル: GPT 系（OpenAI）/ Claude（Anthropic）/ Gemini（Google）/ Llama（Meta, OSS）/ Mistral / DeepSeek / Qwen
性能を左右する主因: パラメータ数・学習データ量・学習計算量（スケーリング則）
限界: ハルシネーション / 学習データのカットオフ / コンテキストウィンドウ / コスト
使う側のキー技術: Prompt Engineering / RAG / Tool Use / エージェント

LLM とは？

LLM (Large Language Model / 大規模言語モデル) は、大量のテキストデータから言語の確率分布を学習した巨大なニューラルネットです。本質的には「これまでの文脈から次の単語（トークン）が何になるか」を予測することを訓練の中心にしています。

2022 年の ChatGPT 公開以降、世界的に注目され、現在は汎用チャット・コード生成・検索・エージェントなど、AI 応用のほぼ全領域の中核技術となりました。

段階	手法	目的
1. 事前学習 (Pretraining)	自己教師あり学習（次トークン予測）	Web スケールのテキストから言語の知識を獲得
2. SFT (Supervised Fine-tuning)	高品質な指示-応答ペアで教師あり学習	指示に従う形にする（Instruction Tuning）
3. RLHF / DPO	人間の好み比較データで強化学習・選好学習	有用・無害・誠実な応答に整える

補足: なぜ事前学習が「自己教師あり」か
「次の単語を当てる」「マスクされた単語を当てる」というラベルを自動で作れるタスクを大量テキストに適用するため、人手アノテーション無しで Web スケールの学習ができます。これにより GPT / BERT / Llama 等の巨大モデルが現実的に学習可能になりました。

LLM の性能はパラメータ数・データ量・計算量を増やすほど予測可能な形で伸びることが OpenAI・DeepMind の研究で示されました（Chinchilla 論文・OpenAI Scaling Laws）。これが「とにかく大きく作れば賢くなる」現代 LLM 競争の理論的背景です。

提供元	系列	公開度
OpenAI	GPT-3.5 → GPT-4 → GPT-4o → GPT-5、o1 / o3（推論特化）	クローズド（API のみ）
Anthropic	Claude 3 → 3.5 → 4（Opus / Sonnet / Haiku）	クローズド（API のみ）
Google DeepMind	Gemini 1.0 → 2.5（Ultra / Pro / Flash）、Gemma（OSS）	クローズド本流 + Gemma OSS
Meta	Llama 2 / 3 / 4 系（OSS）	オープンウェイト（条件付き商用可）
Mistral AI	Mistral / Mixtral / Codestral	一部 OSS、一部商用
DeepSeek	DeepSeek V3 / R1	OSS
Alibaba	Qwen 系（一部 OSS）	OSS / 商用
xAI	Grok	クローズド（一部公開）

タスク	適した使い方
質問応答 / 雑談	ChatGPT / Claude / Gemini 等の汎用チャット
長文要約・契約書解析	長コンテキスト対応モデル（Claude Sonnet/Opus、Gemini Pro）
コード生成・修正	コード特化モデル / コーディング支援AI
数学・複雑な推論	推論特化モデル（GPT o3、Claude Extended Thinking、Gemini 2.5 Thinking）
多言語翻訳	Gemini、GPT-4o、Claude
業務システム組込	API 経由（OpenAI / Anthropic / Bedrock / Vertex AI）
オンプレ / 機密性最重視	OSS LLM（Llama / Mistral / DeepSeek）をセルフホスト

限界	具体例 / 対処
ハルシネーション	もっともらしいが事実誤認。RAG / 出典付け / 人間レビューで緩和
学習データのカットオフ	ある時点以降の情報を知らない。Web 検索や RAG で補強
コンテキストウィンドウ	入力できるトークン数に上限。長文は分割 / 要約
数値計算・厳密推論	桁数の多い計算は苦手。電卓 Tool / Python 実行を呼ばせる
最新情報・固有名詞	学習後のニュースは知らない。検索ツールと併用
バイアス	学習データの偏りをそのまま反映
確率的出力	同じ入力でも出力が変わる。`temperature=0` / `seed` で抑制
プロンプトインジェクション	外部入力で指示が乗っ取られる。入力サニタイズ / 権限分離
コスト・レイテンシ	大型モデルは高い。タスクに合った小型モデル選択

よくある落とし穴