1.

LLM (大規模言語モデル) とは?仕組み・代表モデル・使い方

編集

本稿は LLM (Large Language Model / 大規模言語モデル) に関する記事です。

この記事の要点
  • LLM は「次の単語を予測する」ことを大量データで学習した巨大な Transformer
  • 事前学習(自己教師あり)→ ファインチューニング(SFT)→ RLHF / DPO で人間嗜好に合わせる、3 段階で作る
  • 用途: 文章生成・要約・翻訳・コード・推論・会話・エージェント
  • 代表モデル: GPT 系(OpenAI)/ Claude(Anthropic)/ Gemini(Google)/ Llama(Meta, OSS)/ Mistral / DeepSeek / Qwen
  • 性能を左右する主因: パラメータ数・学習データ量・学習計算量(スケーリング則)
  • 限界: ハルシネーション / 学習データのカットオフ / コンテキストウィンドウ / コスト
  • 使う側のキー技術: Prompt Engineering / RAG / Tool Use / エージェント

LLM とは?

LLM (Large Language Model / 大規模言語モデル) は、大量のテキストデータから言語の確率分布を学習した巨大なニューラルネットです。本質的には「これまでの文脈から次の単語(トークン)が何になるか」を予測することを訓練の中心にしています。

2022 年の ChatGPT 公開以降、世界的に注目され、現在は 汎用チャット・コード生成・検索・エージェントなど、AI 応用のほぼ全領域の中核技術となりました。

「大規模」とは何が大規模か

指標典型値(フロンティアモデル)
パラメータ数数十億 (B) 〜 数兆 (T)
学習データ量数兆トークン
学習計算量1e24 〜 1e26 FLOPs(H100 数千〜数万枚 × 数ヶ月)
コンテキストウィンドウ数十万〜数百万トークン
語彙サイズ3〜25 万トークン

LLM の作り方(3 段階)

段階手法目的
1. 事前学習 (Pretraining)自己教師あり学習(次トークン予測)Web スケールのテキストから言語の知識を獲得
2. SFT (Supervised Fine-tuning)高品質な指示-応答ペアで教師あり学習指示に従う形にする(Instruction Tuning)
3. RLHF / DPO人間の好み比較データで強化学習・選好学習有用・無害・誠実な応答に整える
補足: なぜ事前学習が「自己教師あり」か
「次の単語を当てる」「マスクされた単語を当てる」というラベルを自動で作れるタスクを大量テキストに適用するため、人手アノテーション無しで Web スケールの学習ができます。これにより GPT / BERT / Llama 等の巨大モデルが現実的に学習可能になりました。

スケーリング則

LLM の性能はパラメータ数・データ量・計算量を増やすほど予測可能な形で伸びることが OpenAI・DeepMind の研究で示されました(Chinchilla 論文・OpenAI Scaling Laws)。これが「とにかく大きく作れば賢くなる」現代 LLM 競争の理論的背景です。

代表的な LLM 系列

提供元系列公開度
OpenAIGPT-3.5 → GPT-4 → GPT-4o → GPT-5、o1 / o3(推論特化)クローズド(API のみ)
AnthropicClaude 3 → 3.5 → 4(Opus / Sonnet / Haiku)クローズド(API のみ)
Google DeepMindGemini 1.0 → 2.5(Ultra / Pro / Flash)、Gemma(OSS)クローズド本流 + Gemma OSS
MetaLlama 2 / 3 / 4 系(OSS)オープンウェイト(条件付き商用可)
Mistral AIMistral / Mixtral / Codestral一部 OSS、一部商用
DeepSeekDeepSeek V3 / R1OSS
AlibabaQwen 系(一部 OSS)OSS / 商用
xAIGrokクローズド(一部公開)

用途別の使い分け

タスク適した使い方
質問応答 / 雑談ChatGPT / Claude / Gemini 等の汎用チャット
長文要約・契約書解析長コンテキスト対応モデル(Claude Sonnet/Opus、Gemini Pro)
コード生成・修正コード特化モデル / コーディング支援AI
数学・複雑な推論推論特化モデル(GPT o3、Claude Extended Thinking、Gemini 2.5 Thinking)
多言語翻訳Gemini、GPT-4o、Claude
業務システム組込API 経由(OpenAI / Anthropic / Bedrock / Vertex AI)
オンプレ / 機密性最重視OSS LLM(Llama / Mistral / DeepSeek)をセルフホスト

性能を引き出すキー技術

  • Prompt Engineering: 指示文の設計で精度が大幅に変わる
  • Few-shot / Chain-of-Thought: 例を見せる / 段階的に考えさせる
  • RAG (検索拡張生成): 外部ナレッジを検索して LLM に渡す
  • Tool Use / Function Calling: 関数や外部 API を LLM が選んで呼ぶ
  • エージェント: 計画 → 実行 → 観察のループで複数手順を自律実行
  • ファインチューニング / LoRA: 用途特化の追加学習
  • 蒸留・量子化: 小型化・高速化(INT8 / 4-bit)

LLM の限界(必ず押さえる)

限界具体例 / 対処
ハルシネーションもっともらしいが事実誤認。RAG / 出典付け / 人間レビューで緩和
学習データのカットオフある時点以降の情報を知らない。Web 検索や RAG で補強
コンテキストウィンドウ入力できるトークン数に上限。長文は分割 / 要約
数値計算・厳密推論桁数の多い計算は苦手。電卓 Tool / Python 実行を呼ばせる
最新情報・固有名詞学習後のニュースは知らない。検索ツールと併用
バイアス学習データの偏りをそのまま反映
確率的出力同じ入力でも出力が変わる。temperature=0 / seed で抑制
プロンプトインジェクション外部入力で指示が乗っ取られる。入力サニタイズ / 権限分離
コスト・レイテンシ大型モデルは高い。タスクに合った小型モデル選択

業務利用の注意

よくある落とし穴
  • 機密情報を無料版に入れない。Enterprise / Azure OpenAI / Bedrock / Vertex AI で学習オフ契約
  • 監査ログ・コスト監視: 誰が・いつ・何トークン使ったか
  • モデル版数固定: ベンダー側更新で挙動が変わる。本番は版数指定 + 回帰テスト
  • 個人情報 / PII: 入力前にマスキング
  • ハルシネーション前提: 重要判断は必ず人間確認
  • 著作権: 生成物の権利関係は契約 / 利用規約を要確認
  • ベンダーロックインを意識。LangChain 等の抽象化レイヤを介する設計

関連

編集
Post Share
子ページ

子ページはありません

同階層のページ
  1. LLM (大規模言語モデル)
  2. Transformer
  3. Attention (注意機構)
  4. Embedding (埋め込み)
  5. Prompt Engineering
  6. RAG (検索拡張生成)
  7. ファインチューニング
  8. AIエージェント
  9. マルチモーダルAI
  10. トークンとコンテキストウィンドウ
  11. Diffusion Model (拡散モデル)

最近更新/作成されたページ