2.

LLM (大規模言語モデル) とは|仕組み / 主要モデル / 制約をやさしく解説

編集
この記事の要点
  • LLM (Large Language Model) = 大規模言語モデル
  • 大量のテキストデータを学習して次の単語を予測することで動作
  • 代表例: GPT (OpenAI) / Claude (Anthropic) / Gemini (Google) / Llama (Meta) / Mistral
  • 主な能力: 文章生成 / 翻訳 / 要約 / コーディング / 質問応答
  • 制約: ハルシネーション / 知識カットオフ / 計算苦手

LLM とは

LLM (Large Language Model、大規模言語モデル) は、大量のテキストデータを学習した AI モデルのこと。2022 年に ChatGPT が登場して一般化しました。ChatGPT / Claude / Gemini 等のチャット AI は、すべて LLM がベースになっています。

仕組み(超簡単に)

LLM の根本原理は「次の単語を予測する」こと:

  1. 入力: 「今日は天気が」
  2. LLM が次の単語の確率を計算: 「いい」60% / 「悪い」20% / 「変な」5% ...
  3. 確率の高い単語を選ぶ: 「いい」
  4. 新たな入力: 「今日は天気がいい」→ 次の単語を予測 → 「ので」...
  5. これを繰り返して文章が生成される

シンプルに見えますが、数千億のパラメータを使って、文脈・知識・文法・スタイルすべてを統合的に処理しています。

主要 LLM の系譜

モデルファミリー開発元主要モデル
GPTOpenAIGPT-3.5 / GPT-4 / GPT-4o / GPT-5 / o1 / o3
ClaudeAnthropicClaude 3 / Sonnet / Opus / Haiku
GeminiGoogleGemini Pro / Flash / Ultra
LlamaMeta (オープンソース)Llama 2 / 3 / 3.2
MistralMistral AI (欧州)Mistral / Mixtral
QwenAlibabaQwen 2 / 2.5
DeepSeekDeepSeek (中国)R1 / V3
PhiMicrosoftPhi-3 / Phi-4
GemmaGoogle (オープンソース)Gemma 2 / 3

パラメータとは

LLM の「サイズ」を表す数値。1B = 10 億パラメータ。多いほど高性能だが、必要な計算資源も増える:

  • 1B〜3B: スマホでも動く軽量モデル
  • 7B〜13B: 一般家庭の PC で動く(Ollama 等で)
  • 70B〜100B: 高性能 GPU 必須、Llama 3 / Mistral 系
  • 175B〜1T: 商用大規模モデル(GPT / Claude / Gemini

主な能力

  • 文章生成: ブログ・小説・メール・レポート
  • 要約: 長文を短くまとめる
  • 翻訳: 言語間変換
  • 質問応答: 知識を問う質問への回答
  • コーディング: プログラムの生成・修正
  • 推論: 論理問題・数学問題
  • ロールプレイ: 特定キャラクターになり切る

LLM の制約・弱点

1. ハルシネーション

「もっともらしい嘘」を自信満々に答える現象。事実関係の質問では必ず裏取りが必要

2. 知識のカットオフ

学習データの時期で知識が止まる。例: GPT-5 の知識は 2025 年 X 月まで。最新ニュースは Web 検索機能か Perplexity を使う。

3. 計算が苦手

2 桁 × 2 桁の計算で間違えることも。複雑な計算はコード実行機能を使う。

4. トークン制限

1 度に処理できるテキスト量に上限あり(コンテキストウィンドウ):

  • GPT-4o: 128K トークン
  • Claude: 200K トークン
  • Gemini Pro: 1M トークン

5. バイアス

学習データの偏りが反映される。職業の性別バイアス・文化的バイアス等に注意。

トークンとは

LLM がテキストを処理する基本単位。1 単語 ≠ 1 トークン

  • 英語: 1 単語 ≈ 1〜2 トークン
  • 日本語: 1 文字 ≈ 1〜2 トークン
  • 「Hello」= 1 トークン、「こんにちは」= 3〜5 トークン

料金は通常「百万トークンあたり○ドル」で計算されます。

マルチモーダルとは

テキストだけでなく画像・音声・動画も扱える LLM:

  • GPT-4o / o1 / GPT-5: 画像・音声入出力
  • Claude: 画像入力
  • Gemini: 画像・動画・音声

関連リンク

LLM の学習プロセス(3 段階)

1. 事前学習 (Pretraining)

インターネット・書籍・論文等から大量のテキスト(数兆トークン)を読み込み、「次の単語を予測する」タスクで学習。数百万ドル〜数億ドルの計算コストがかかる。

2. 指示学習 (Instruction Tuning / SFT)

人間が作成した「質問と回答のペア」で fine-tuning。人間の指示に従うようにする。

3. 人間フィードバックによる強化学習 (RLHF)

複数の回答候補から人間が良い方を選び、AI に「人間が好む回答」を学習させる。これにより 安全で礼儀正しい AI になる。

2025 年の主要トレンド

推論モデル (Reasoning Models)

従来の LLM は即答型だったが、o1 / o3 / DeepSeek R1 等は「考える時間」を取って思考過程を内部で展開する。数学・コーディング・科学の問題で大幅な精度向上。

マルチモーダルの一般化

テキストだけでなく画像・音声・動画も自然に処理する LLM が標準に。GPT-5 / Gemini 2 / Claude Opus は全てマルチモーダル。

エージェント化

LLM が単発の質問応答ではなく、ツール(Web ブラウザ・ファイルシステム・API)を使って自律的にタスクを遂行するエージェント型へ。Claude Code / Operator / Manus 等。

小型モデルの台頭

Ollama 経由で動く Phi-3 / Gemma 2 / Llama 3.2 等の3B〜10B モデルがスマホでも動くレベルで実用化。

LLM を使う前に知っておくべきこと

知識重要度
ハルシネーションの存在★★★ 必須
機密情報の入力リスク★★★ 必須
知識のカットオフ日★★ 重要
プロンプトの書き方★★ 重要
トークン課金体系★ API 利用時
各モデルの個性★ 使い分け時

LLM 活用の心得

  1. 事実関係は必ず裏取り(信頼性 ≠ 100%)
  2. 機密情報は抽象化して入力
  3. 1 回で完璧を期待せず、対話で改善
  4. 結果を批判的に評価(盲信しない)
  5. 用途別に AI を使い分ける(比較記事参照)
編集
Post Share
子ページ

子ページはありません

同階層のページ
  1. プロンプトエンジニアリングの基本
  2. LLM とは