ONNX Runtime とは？クロスプラットフォーム AI 推論エンジン

本稿は ONNX Runtime (ONNX ランタイム) に関する記事です。

この記事の要点

ONNX Runtime は "学習済みモデルを高速・移植可能に推論する" ためのランタイム
ONNX (Open Neural Network Exchange) は PyTorch / TensorFlow / scikit-learn 等が共通でエクスポートできるモデル形式
同じモデルをWindows / Linux / Mac / Android / iOS / Web (WASM) で動かせる
CPU / NVIDIA / AMD / Intel / Apple / TensorRT / DirectML 等を実行プロバイダ (Execution Provider) で切替
「研究は PyTorch、本番推論は ONNX Runtime」の組合せが現実的な選択肢のひとつ

ONNX と ONNX Runtime の関係

名前	指すもの
ONNX (Open Neural Network Exchange)	モデルの中間表現 (フォーマット)。`.onnx` 拡張子
ONNX Runtime (ORT)	`.onnx` モデルを実行する推論ランタイム。Microsoft が中心に開発
ONNX 仕様	演算子セット (Opset) と型の標準。バージョンで対応演算子が変わる
ORT Training	推論だけでなく学習もサポート（限定的）
ONNX Runtime Web	ブラウザ上で WASM / WebGL / WebGPU 実行
ONNX Runtime Mobile	iOS / Android 向け軽量ビルド

ONNX Runtime の主な特徴

マルチプラットフォーム — Windows / Linux / macOS / iOS / Android / Web
マルチ言語 SDK — Python / C# / C++ / Java / JavaScript / Rust 等
Execution Provider (EP) による高速化 — CUDA、TensorRT、ROCm、CoreML、DirectML、OpenVINO、QNN 等を後付け
グラフ最適化 — 演算子融合・定数畳込みなどで PyTorch の eager より速い
量子化サポート — INT8 / INT4 量子化で推論軽量化
一貫した API — どのモデル元 (PyTorch / TF / scikit-learn) でも同じ呼び方
本番運用に向く — マルチスレッド・バッチング・複数モデル同時実行

典型的なワークフロー

ステップ	担当
1. 学習 (Train)	PyTorch / TensorFlow / scikit-learn 等
2. ONNX エクスポート	`torch.onnx.export` / `tf2onnx` / `skl2onnx`
3. ONNX モデルの検証・最適化	`onnx`、`onnxruntime.tools`
4. (任意) 量子化	`onnxruntime.quantization`
5. 推論	ONNX Runtime (各言語 SDK)
6. デプロイ	Triton Inference Server、自前サーバ、モバイル組込み、ブラウザ

最小サンプル: PyTorch → ONNX → 推論

import torch
import torch.nn as nn

# 1) PyTorch モデル
model = nn.Sequential(nn.Linear(10, 64), nn.ReLU(), nn.Linear(64, 1)).eval()
dummy = torch.randn(1, 10)

# 2) ONNX 形式に書き出し
torch.onnx.export(
model, dummy, "model.onnx",
input_names=["x"], output_names=["y"],
dynamic_axes={"x": {0: "batch"}, "y": {0: "batch"}},
opset_version=17,
)

# 3) ONNX Runtime で推論
import onnxruntime as ort
import numpy as np

sess = ort.InferenceSession("model.onnx", providers=["CPUExecutionProvider"])
out = sess.run(["y"], {"x": np.random.randn(4, 10).astype(np.float32)})
print(out[0].shape) # (4, 1)

Execution Provider (EP) の代表

Provider	対象ハードウェア
CPUExecutionProvider	すべての CPU。デフォルト
CUDAExecutionProvider	NVIDIA GPU (CUDA)
TensorrtExecutionProvider	NVIDIA GPU (TensorRT、最速)
ROCmExecutionProvider	AMD GPU
CoreMLExecutionProvider	Apple Silicon (Mac / iOS)
DirectMLExecutionProvider	Windows GPU 全般 (DirectX 12)
OpenVINOExecutionProvider	Intel CPU / iGPU / VPU
QNNExecutionProvider	Qualcomm SoC (NPU)
WebGPU / WebGL (ORT Web)	ブラウザ

使うのが向くシーン

ニーズ	ONNX Runtime の適合度
PyTorch / TF で学習 → 他環境で推論したい	非常に適合
同じモデルを Windows / Linux / Mac / モバイル / Web に	非常に適合
C# / C++ / Java から推論	得意 (SDK 多言語)
CPU でも速くしたい	○ (最適化済みカーネル)
NVIDIA GPU で最速	TensorRT EP で◎
学習自体を任せたい	△ (ORT Training はある程度可だが本格学習は PyTorch 等)
LLM 推論 (テキスト生成サーバ)	△ (専用の vLLM / TGI が一般的)

緑行が ONNX Runtime の真価が出るシナリオ。

類似プロダクトとの比較

プロダクト	立ち位置
ONNX Runtime	クロスプラットフォーム推論。Microsoft が中心
TensorRT	NVIDIA GPU で最速 (ONNX を入力に取れる)
TFLite	モバイル・組込み (TensorFlow 系)
Core ML	Apple デバイス専用
OpenVINO	Intel 系最適化
vLLM / TGI	LLM テキスト生成の高スループットサーバ
Triton Inference Server	NVIDIA。複数バックエンド (ONNX / TensorRT / PyTorch) を統合運用

インストール

# CPU 版 (Python)
pip install onnxruntime

# NVIDIA GPU 版
pip install onnxruntime-gpu

# DirectML 版 (Windows GPU 全般)
pip install onnxruntime-directml

# モデル変換ユーティリティ
pip install onnx tf2onnx skl2onnx

# 量子化ツール
pip install onnxruntime-tools

JavaScript (Web / Node) では onnxruntime-web / onnxruntime-node。C# は NuGet で Microsoft.ML.OnnxRuntime。

運用上のヒント

Tips

Opset バージョン: モデル変換時の Opset を新しめに揃える。古いと最新 EP の最適化が効かない
動的入力: バッチや系列長を可変にする場合は dynamic_axes を必ず指定
量子化: onnxruntime.quantization で INT8 にすると CPU 推論が 2〜4 倍速くなることがある
セッションオプション: intra_op_num_threads / inter_op_num_threads をワーカ数に合わせて調整
I/O Binding: GPU 間で入出力テンソルをコピーしない高速 API
本番では同じプロセス内で複数モデルを持つ場合、起動時に予めセッションを作っておく

注意点

よくある落とし穴

未対応演算子: PyTorch / TF の独自演算子は ONNX に変換できないことがある。変換時に必ず数値検証
動的形状の罠: 学習時は動的、推論時は固定にしておくと最適化が効く場合がある
EP の組合せ: CUDA EP と CPU EP のフォールバックが起きると遅くなる。プロファイラで確認
onnxruntime と onnxruntime-gpu は同じ環境に両方入れない。後勝ちで挙動が変わる
LLM 系: ONNX 変換は可能だが、KV キャッシュやアテンション最適化は専用ランタイム (vLLM 等) が有利
セキュリティ: 信頼できないソースの .onnx はカスタム演算子でコード実行リスクがある場合がある。検証してから使う
モデル変換時の浮動小数点誤差で、PyTorch 推論結果と完全一致しないことがある（許容差を設計）

ページ一覧

その他