◀ 3.

確率統計とは？AI に必要な確率分布・ベイズ・最尤推定の基礎

▶

編集

この記事の要点

AI の予測は本質的に確率的 — 「99% 猫」「次の単語は the が 35% / a が 22%」のように 確率分布を出力する
機械学習の学習目標は多くの場合 「観測データの尤度を最大化する」（最尤推定）または 「事後確率を最大化する」（MAP 推定 / ベイズ）
必須概念: 確率変数 / 期待値・分散 / ベイズの定理 / 正規分布 / 尤度 / 仮説検定
LLM 全盛時代でも、ハルシネーションや不確実性を扱うには確率的思考が必須

本稿は AI / 機械学習に必要な確率・統計 の入門です。AI の出力はほぼすべて確率分布なので、確率統計を理解しないと「モデルが何を返しているのか」が分かりません。

なぜ AI に確率・統計が必要なのか

場面	確率統計の役割
分類モデル	「クラス A 80% / B 20%」と確率を出力（softmax）
LLM の次トークン予測	語彙全体に対する確率分布からサンプリング（temperature / top-p）
損失関数	交差エントロピーは確率分布間の距離（KL ダイバージェンス由来）
不確実性の推定	「この予測はどれだけ自信があるか」を分散・信頼区間で表す
A/B テスト	新モデルと旧モデルの差が統計的に有意かを判定
強化学習	方策（行動の確率分布）と報酬の期待値最大化
ベイズ統計	事前知識 + 観測 → 事後分布。不確実性を自然に扱える

最低限おさえる概念

概念	意味	AI での使われ方
確率変数 (Random Variable)	確率的に値を取る変数 X	入力データ・予測値
確率分布	X が各値を取る確率の全体像	モデルの出力
期待値 E[X]	平均的な値	損失の平均 / 報酬の予測
分散 Var[X] / 標準偏差	ばらつきの大きさ	予測の信頼性 / 不確実性
同時分布 / 周辺化 / 条件付き分布	複数変数の確率関係	グラフィカルモデル / ベイズネット
独立 / 条件付き独立	変数間の関係性	Naive Bayes 分類器の仮定
ベイズの定理	P(A\|B) = P(B\|A) P(A) / P(B)	事後分布の計算 / 確率的推論
尤度 (likelihood)	パラメータが与えられた下でのデータの確率	パラメータ推定の目的関数
最尤推定 (MLE)	尤度を最大にするパラメータを選ぶ	多くの ML アルゴリズムの基礎
仮説検定 / p 値	差があるかを統計的に判定	A/B テスト / モデル比較
信頼区間	真の値が含まれる確率帯	性能評価の不確実性表現

覚えておきたい確率分布

分布	場面
正規分布 (Gaussian / Normal)	身長・誤差など連続値。中心極限定理でいたるところに出てくる
ベルヌーイ分布	コイン投げのような 2 値
二項分布 (Binomial)	ベルヌーイ試行を n 回行った成功数
カテゴリ分布 / 多項分布	多クラス分類のラベル / softmax 出力
ポアソン分布	単位時間あたりに起きる回数（待ち行列・故障数）
指数分布	イベント間の待ち時間
ベータ分布	確率値そのものを扱う分布。ベイズ統計で頻出
ディリクレ分布	確率ベクトル全体の分布。トピックモデル (LDA)

機械学習との結び付き

手法	確率統計的な意味
線形回帰 + 最小二乗	誤差が正規分布だと仮定した最尤推定
ロジスティック回帰	ベルヌーイ分布の最尤推定
softmax + 交差エントロピー	カテゴリ分布の最尤推定
Naive Bayes	クラス条件付き独立を仮定したベイズ分類
HMM (隠れマルコフモデル)	系列データの確率モデル（音声認識・時系列）
変分オートエンコーダ (VAE)	潜在変数の事後分布を変分近似
Diffusion Model	ノイズ付加 / 除去の確率過程
強化学習	方策・価値関数を確率的に扱う
LLM	次トークンの確率分布を学習し、サンプリングで生成

典型コード（Python）

import numpy as np
from scipy import stats

# 正規分布のサンプル
samples = np.random.normal(loc=0, scale=1, size=1000)

# 平均と標準偏差
print(np.mean(samples), np.std(samples))

# 確率密度関数 (PDF)
pdf = stats.norm.pdf(0.5, loc=0, scale=1)

# t 検定（2 群の平均差）
t, p = stats.ttest_ind(group_a, group_b)

# softmax
def softmax(x):
e = np.exp(x - np.max(x))
return e / e.sum()

学習のステップ

段階	学ぶ内容
1. 期待値と分散	平均・分散を計算できる、ヒストグラムを読める
2. 代表的な分布	正規分布・ベルヌーイ・二項を区別して使える
3. ベイズの定理	事前確率 → 事後確率の更新が直感的に分かる
4. 最尤推定	「データを最も説明できるパラメータ」を求められる
5. 仮説検定	p 値・信頼区間の意味を取り違えない

つまずきやすいポイント

p 値は「帰無仮説が正しいときに今のデータ以上に極端な結果が出る確率」。「効果が無い確率」ではない
正規分布を仮定する手法は外れ値や歪んだ分布に弱い。EDA で分布を確認する習慣を付ける
ベイズと頻度論はどちらも正しい考え方。場面で使い分ける
相関と因果は別物。AI モデルは相関だけを学ぶ
大数の法則と中心極限定理を混同しない

使える教材・ライブラリ

種類	名前
教科書（日本語）	「統計学入門」（東京大学出版会 / 通称「赤本」）/ 「データ解析のための統計モデリング入門」（久保拓弥 / 通称「みどり本」）
ベイズ統計	「ベイズ統計の理論と方法」（渡辺澄夫）/「Doing Bayesian Data Analysis」
動画	StatQuest（YouTube、英語だが直感的）/ 「ヨビノリたくみ: 統計学」
ライブラリ	SciPy.stats / statsmodels / PyMC（ベイズ）

ページ一覧

その他