8.

ONNX Runtime とは?クロスプラットフォーム AI 推論エンジン

編集

本稿は ONNX Runtime (ONNX ランタイム) に関する記事です。

この記事の要点
  • ONNX Runtime は "学習済みモデルを高速・移植可能に推論する" ためのランタイム
  • ONNX (Open Neural Network Exchange) は PyTorch / TensorFlow / scikit-learn 等が共通でエクスポートできるモデル形式
  • 同じモデルをWindows / Linux / Mac / Android / iOS / Web (WASM) で動かせる
  • CPU / NVIDIA / AMD / Intel / Apple / TensorRT / DirectML 等を実行プロバイダ (Execution Provider) で切替
  • 「研究は PyTorch、本番推論は ONNX Runtime」の組合せが現実的な選択肢のひとつ

ONNX と ONNX Runtime の関係

名前指すもの
ONNX (Open Neural Network Exchange)モデルの中間表現 (フォーマット).onnx 拡張子
ONNX Runtime (ORT).onnx モデルを実行する推論ランタイム。Microsoft が中心に開発
ONNX 仕様演算子セット (Opset) と型の標準。バージョンで対応演算子が変わる
ORT Training推論だけでなく学習もサポート(限定的)
ONNX Runtime Webブラウザ上で WASM / WebGL / WebGPU 実行
ONNX Runtime MobileiOS / Android 向け軽量ビルド

ONNX Runtime の主な特徴

  • マルチプラットフォーム — Windows / Linux / macOS / iOS / Android / Web
  • マルチ言語 SDK — Python / C# / C++ / Java / JavaScript / Rust 等
  • Execution Provider (EP) による高速化 — CUDA、TensorRT、ROCm、CoreML、DirectML、OpenVINO、QNN 等を後付け
  • グラフ最適化 — 演算子融合・定数畳込みなどで PyTorch の eager より速い
  • 量子化サポート — INT8 / INT4 量子化で推論軽量化
  • 一貫した API — どのモデル元 (PyTorch / TF / scikit-learn) でも同じ呼び方
  • 本番運用に向く — マルチスレッド・バッチング・複数モデル同時実行

典型的なワークフロー

ステップ担当
1. 学習 (Train)PyTorch / TensorFlow / scikit-learn 等
2. ONNX エクスポートtorch.onnx.export / tf2onnx / skl2onnx
3. ONNX モデルの検証・最適化onnxonnxruntime.tools
4. (任意) 量子化onnxruntime.quantization
5. 推論ONNX Runtime (各言語 SDK)
6. デプロイTriton Inference Server、自前サーバ、モバイル組込み、ブラウザ

最小サンプル: PyTorch → ONNX → 推論

import torch
import torch.nn as nn

# 1) PyTorch モデル
model = nn.Sequential(nn.Linear(10, 64), nn.ReLU(), nn.Linear(64, 1)).eval()
dummy = torch.randn(1, 10)

# 2) ONNX 形式に書き出し
torch.onnx.export(
    model, dummy, "model.onnx",
    input_names=["x"], output_names=["y"],
    dynamic_axes={"x": {0: "batch"}, "y": {0: "batch"}},
    opset_version=17,
)

# 3) ONNX Runtime で推論
import onnxruntime as ort
import numpy as np

sess = ort.InferenceSession("model.onnx", providers=["CPUExecutionProvider"])
out = sess.run(["y"], {"x": np.random.randn(4, 10).astype(np.float32)})
print(out[0].shape)  # (4, 1)

Execution Provider (EP) の代表

Provider対象ハードウェア
CPUExecutionProviderすべての CPU。デフォルト
CUDAExecutionProviderNVIDIA GPU (CUDA)
TensorrtExecutionProviderNVIDIA GPU (TensorRT、最速)
ROCmExecutionProviderAMD GPU
CoreMLExecutionProviderApple Silicon (Mac / iOS)
DirectMLExecutionProviderWindows GPU 全般 (DirectX 12)
OpenVINOExecutionProviderIntel CPU / iGPU / VPU
QNNExecutionProviderQualcomm SoC (NPU)
WebGPU / WebGL (ORT Web)ブラウザ

使うのが向くシーン

ニーズ ONNX Runtime の適合度
PyTorch / TF で学習 → 他環境で推論したい非常に適合
同じモデルを Windows / Linux / Mac / モバイル / Web に非常に適合
C# / C++ / Java から推論得意 (SDK 多言語)
CPU でも速くしたい○ (最適化済みカーネル)
NVIDIA GPU で最速TensorRT EP で◎
学習自体を任せたい△ (ORT Training はある程度可だが本格学習は PyTorch 等)
LLM 推論 (テキスト生成サーバ)△ (専用の vLLM / TGI が一般的)

緑行が ONNX Runtime の真価が出るシナリオ。

類似プロダクトとの比較

プロダクト立ち位置
ONNX Runtimeクロスプラットフォーム推論。Microsoft が中心
TensorRTNVIDIA GPU で最速 (ONNX を入力に取れる)
TFLiteモバイル・組込み (TensorFlow 系)
Core MLApple デバイス専用
OpenVINOIntel 系最適化
vLLM / TGILLM テキスト生成の高スループットサーバ
Triton Inference ServerNVIDIA。複数バックエンド (ONNX / TensorRT / PyTorch) を統合運用

インストール

# CPU 版 (Python)
pip install onnxruntime

# NVIDIA GPU 版
pip install onnxruntime-gpu

# DirectML 版 (Windows GPU 全般)
pip install onnxruntime-directml

# モデル変換ユーティリティ
pip install onnx tf2onnx skl2onnx

# 量子化ツール
pip install onnxruntime-tools

JavaScript (Web / Node) では onnxruntime-web / onnxruntime-node。C# は NuGet で Microsoft.ML.OnnxRuntime

運用上のヒント

Tips
  • Opset バージョン: モデル変換時の Opset を新しめに揃える。古いと最新 EP の最適化が効かない
  • 動的入力: バッチや系列長を可変にする場合は dynamic_axes を必ず指定
  • 量子化: onnxruntime.quantization で INT8 にすると CPU 推論が 2〜4 倍速くなることがある
  • セッションオプション: intra_op_num_threads / inter_op_num_threads をワーカ数に合わせて調整
  • I/O Binding: GPU 間で入出力テンソルをコピーしない高速 API
  • 本番では同じプロセス内で複数モデルを持つ場合、起動時に予めセッションを作っておく

注意点

よくある落とし穴
  • 未対応演算子: PyTorch / TF の独自演算子は ONNX に変換できないことがある。変換時に必ず数値検証
  • 動的形状の罠: 学習時は動的、推論時は固定にしておくと最適化が効く場合がある
  • EP の組合せ: CUDA EP と CPU EP のフォールバックが起きると遅くなる。プロファイラで確認
  • onnxruntime と onnxruntime-gpu は同じ環境に両方入れない。後勝ちで挙動が変わる
  • LLM 系: ONNX 変換は可能だが、KV キャッシュやアテンション最適化は専用ランタイム (vLLM 等) が有利
  • セキュリティ: 信頼できないソースの .onnxカスタム演算子でコード実行リスクがある場合がある。検証してから使う
  • モデル変換時の浮動小数点誤差で、PyTorch 推論結果と完全一致しないことがある(許容差を設計)

関連

編集
Post Share
子ページ

子ページはありません

同階層のページ
  1. PyTorch
  2. TensorFlow(テンソルフロー)
  3. scikit-learn
  4. Hugging Face Transformers
  5. LangChain
  6. LlamaIndex
  7. JAX
  8. ONNX Runtime

最近更新/作成されたページ