ページの作成
親となるページを選択してください。
親ページに紐づくページを子ページといいます。
例: 親=スポーツ, 子1=サッカー, 子2=野球
子ページを親ページとして更に子ページを作成することも可能です。
例: 親=サッカー, 子=サッカーのルール
親ページはいつでも変更することが可能なのでとりあえず作ってみましょう!
| この記事の要点 |
|---|
|
本稿は AI / 機械学習に必要な確率・統計 の入門です。AI の出力はほぼすべて確率分布なので、確率統計を理解しないと「モデルが何を返しているのか」が分かりません。
なぜ AI に確率・統計が必要なのか
| 場面 | 確率統計の役割 |
|---|---|
| 分類モデル | 「クラス A 80% / B 20%」と 確率を出力(softmax) |
| LLM の次トークン予測 | 語彙全体に対する確率分布からサンプリング(temperature / top-p) |
| 損失関数 | 交差エントロピーは確率分布間の距離(KL ダイバージェンス由来) |
| 不確実性の推定 | 「この予測はどれだけ自信があるか」を分散・信頼区間で表す |
| A/B テスト | 新モデルと旧モデルの差が統計的に有意かを判定 |
| 強化学習 | 方策(行動の確率分布)と報酬の期待値最大化 |
| ベイズ統計 | 事前知識 + 観測 → 事後分布。不確実性を自然に扱える |
最低限おさえる概念
| 概念 | 意味 | AI での使われ方 |
|---|---|---|
| 確率変数 (Random Variable) | 確率的に値を取る変数 X | 入力データ・予測値 |
| 確率分布 | X が各値を取る確率の全体像 | モデルの出力 |
| 期待値 E[X] | 平均的な値 | 損失の平均 / 報酬の予測 |
| 分散 Var[X] / 標準偏差 | ばらつきの大きさ | 予測の信頼性 / 不確実性 |
| 同時分布 / 周辺化 / 条件付き分布 | 複数変数の確率関係 | グラフィカルモデル / ベイズネット |
| 独立 / 条件付き独立 | 変数間の関係性 | Naive Bayes 分類器の仮定 |
| ベイズの定理 | P(A|B) = P(B|A) P(A) / P(B) | 事後分布の計算 / 確率的推論 |
| 尤度 (likelihood) | パラメータが与えられた下でのデータの確率 | パラメータ推定の目的関数 |
| 最尤推定 (MLE) | 尤度を最大にするパラメータを選ぶ | 多くの ML アルゴリズムの基礎 |
| 仮説検定 / p 値 | 差があるかを統計的に判定 | A/B テスト / モデル比較 |
| 信頼区間 | 真の値が含まれる確率帯 | 性能評価の不確実性表現 |
覚えておきたい確率分布
| 分布 | 場面 |
|---|---|
| 正規分布 (Gaussian / Normal) | 身長・誤差など連続値。中心極限定理でいたるところに出てくる |
| ベルヌーイ分布 | コイン投げのような 2 値 |
| 二項分布 (Binomial) | ベルヌーイ試行を n 回行った成功数 |
| カテゴリ分布 / 多項分布 | 多クラス分類のラベル / softmax 出力 |
| ポアソン分布 | 単位時間あたりに起きる回数(待ち行列・故障数) |
| 指数分布 | イベント間の待ち時間 |
| ベータ分布 | 確率値そのものを扱う分布。ベイズ統計で頻出 |
| ディリクレ分布 | 確率ベクトル全体の分布。トピックモデル (LDA) |
機械学習との結び付き
| 手法 | 確率統計的な意味 |
|---|---|
| 線形回帰 + 最小二乗 | 誤差が正規分布だと仮定した 最尤推定 |
| ロジスティック回帰 | ベルヌーイ分布の最尤推定 |
| softmax + 交差エントロピー | カテゴリ分布の最尤推定 |
| Naive Bayes | クラス条件付き独立を仮定したベイズ分類 |
| HMM (隠れマルコフモデル) | 系列データの確率モデル(音声認識・時系列) |
| 変分オートエンコーダ (VAE) | 潜在変数の事後分布を変分近似 |
| Diffusion Model | ノイズ付加 / 除去の確率過程 |
| 強化学習 | 方策・価値関数を確率的に扱う |
| LLM | 次トークンの確率分布を学習し、サンプリングで生成 |
典型コード(Python)
|
import numpy as np |
学習のステップ
| 段階 | 学ぶ内容 |
|---|---|
| 1. 期待値と分散 | 平均・分散を計算できる、ヒストグラムを読める |
| 2. 代表的な分布 | 正規分布・ベルヌーイ・二項を区別して使える |
| 3. ベイズの定理 | 事前確率 → 事後確率の更新が直感的に分かる |
| 4. 最尤推定 | 「データを最も説明できるパラメータ」を求められる |
| 5. 仮説検定 | p 値・信頼区間の意味を取り違えない |
つまずきやすいポイント
- p 値は「帰無仮説が正しいときに今のデータ以上に極端な結果が出る確率」。「効果が無い確率」ではない
- 正規分布を仮定する手法は外れ値や歪んだ分布に弱い。EDA で分布を確認する習慣を付ける
- ベイズと頻度論はどちらも正しい考え方。場面で使い分ける
- 相関と因果は別物。AI モデルは相関だけを学ぶ
- 大数の法則と中心極限定理を混同しない
使える教材・ライブラリ
| 種類 | 名前 |
|---|---|
| 教科書(日本語) | 「統計学入門」(東京大学出版会 / 通称「赤本」)/ 「データ解析のための統計モデリング入門」(久保拓弥 / 通称「みどり本」) |
| ベイズ統計 | 「ベイズ統計の理論と方法」(渡辺澄夫)/「Doing Bayesian Data Analysis」 |
| 動画 | StatQuest(YouTube、英語だが直感的)/ 「ヨビノリ たくみ: 統計学」 |
| ライブラリ | SciPy.stats / statsmodels / PyMC(ベイズ) |
関連
ページの作成
親となるページを選択してください。
親ページに紐づくページを子ページといいます。
例: 親=スポーツ, 子1=サッカー, 子2=野球
子ページを親ページとして更に子ページを作成することも可能です。
例: 親=サッカー, 子=サッカーのルール
親ページはいつでも変更することが可能なのでとりあえず作ってみましょう!
子ページ
子ページはありません
人気ページ
- 1 Eclipseで「サーバーに追加または除去できるリソースがありません。」の原因と対処法
- 2 tomcat の起動 / 停止ログと catalina.log・catalina.out の違い
- 3 JavaScript base URL 取得方法|window.location.origin と SSR/Node.js 対応
- 4 YouTube Data API v3 エラー一覧|403/400/404 の主要原因と切り分け
- 5 Spring Frameworkのアノテーション一覧
- 6 Laravel エラー一覧|500/Blade/DB 接続/ルーティングの代表エラー
- 7 3Dグラフィックスとは|モデリング/レンダリング/主要ソフトウェア (Blender / Maya)
- 8 【Spring】@Valueアノテーションとは
- 9 CATALINA_HOME の確認方法 (Linux / Mac)
- 10 【Spring】@Autowiredアノテーションとは
最近更新/作成されたページ
- IPv6とは|128bitアドレス・コロン16進表記/::省略・リンクローカル・SLAAC・デュアルスタック NEW 2026-06-22 12:34:44
- MAC アドレスフィルタリングの仕組みと限界 | ネットワーク入門 NEW 2026-06-22 12:19:10
- VPNとは|暗号トンネル・サイト間/リモートアクセス・IPsec/SSL-VPN/WireGuardを解説 NEW 2026-06-22 12:19:10
- WebRTC とは ブラウザ間 P2P の音声・映像・データ通信 | ネットワーク入門 NEW 2026-06-22 12:17:25
- HTTP/2 とは 多重化・HPACK・バイナリフレーム | ネットワーク入門 NEW 2026-06-22 12:17:25
- Web通信プロトコル入門 HTTP/2・HTTP/3・WebSocket・gRPC・WebRTC | ネットワーク入門 NEW 2026-06-22 12:17:25
- gRPC とは HTTP/2 + Protocol Buffers の高速 RPC | ネットワーク入門 NEW 2026-06-22 12:17:25
- HTTP/3 (QUIC) とは UDP ベースの低遅延 Web 通信 | ネットワーク入門 NEW 2026-06-22 12:17:25
- WebSocket とは 全二重リアルタイム通信 ws/wss | ネットワーク入門 NEW 2026-06-22 12:17:25
- 証明書と認証局(CA)とは|X.509・信頼チェーン・DV/OV/EV・失効(CRL/OCSP)を解説 NEW 2026-06-22 12:17:24
- ファイアウォールとは|パケットフィルタ・ステートフル・DMZ・次世代FW(L4/L7)を解説 NEW 2026-06-22 12:17:24
- iptables/nftablesとは|テーブル・チェーン・ルール例・永続化をLinux視点で解説 NEW 2026-06-22 12:17:24
- HAProxy とは frontend/backend と設定例 | ネットワーク入門 NEW 2026-06-22 12:17:24
- CDN とは エッジキャッシュ・TTL・Cloudflare/CloudFront | ネットワーク入門 NEW 2026-06-22 12:17:24
- TLS/SSLの仕組み|ハンドシェイク・暗号スイート・前方秘匿性・証明書検証をわかりやすく解説 NEW 2026-06-22 12:17:24
コメントを削除してもよろしいでしょうか?