Phi を 1 コマンドで

この記事の要点

Ollama: ローカル PC で LLM を動かす最も簡単なツール
Llama / Mistral / Phi / Gemma / Qwen 等のオープンソース LLMを 1 コマンドでセットアップ
無料・オフライン動作・プライバシー安全
CLI からも API (HTTP) からも使える
用途: ChatGPT 代替、機密データの解析、開発・実験

Ollama とは

Ollama (オラマ) は、ローカル PC で大規模言語モデル (LLM) を動かすためのツール。Llama 3 / Mistral / Phi-3 / Gemma 2 / Qwen 2 等のオープンソース LLM を、たった 1 コマンドでダウンロード → 起動できます。

「ChatGPT を使いたいけど機密情報があるから外部送信したくない」「無料で AI を使いたい」「インターネット無しで AI を動かしたい」というニーズに応えます。

必要環境

モデルサイズ	最低 RAM/VRAM	推奨
7B (Llama 3.2)	8GB	16GB+
13B	16GB	32GB+
30B	32GB	64GB+
70B (Llama 3)	48GB	VRAM 64GB+ (A100)

NVIDIA GPU があれば爆速、なくても CPU で動く（遅い）。Apple Silicon (M1/M2/M3) は統合メモリで快適に動作。

インストール

# macOS / Linux
curl -fsSL https://ollama.com/install.sh | sh

# Windows
# https://ollama.com/download/windows からインストーラ実行

# Docker
docker run -d -v ollama:/root/.ollama -p 11434:11434 \
    --name ollama ollama/ollama

# 確認
ollama --version

モデルのダウンロードと実行

# Llama 3.2 (7B) をダウンロード + 対話開始
ollama run llama3.2

# 別モデルを試す
ollama run mistral        # Mistral 7B
ollama run phi3           # Microsoft Phi-3 mini
ollama run gemma2         # Google Gemma 2
ollama run qwen2.5        # Alibaba Qwen 2.5
ollama run codellama      # コード特化

# モデル一覧
ollama list

# モデル削除
ollama rm llama3.2

# 利用可能なモデル一覧
# https://ollama.com/library

主要モデル

モデル	サイズ	強み
Llama 3.2	1B / 3B / 11B / 90B	Meta 製、現代の代表選手
Mistral	7B / 8x7B (Mixtral)	欧州製、性能 / サイズ比 ◎
Phi-3	3.8B / 14B	★ 小型・高品質、Microsoft 製
Gemma 2	2B / 9B / 27B	Google 製
Qwen 2.5	0.5B〜72B	多言語、特に中国語
DeepSeek	R1 各サイズ	★ 推論強い、最近話題
CodeLlama	7B / 13B / 34B	コード生成特化
Llava	マルチモーダル	★ 画像理解

API 経由で使う

Ollama を起動すると http://localhost:11434 で API サーバとしても動作:

# Chat completions API (OpenAI 互換)
curl http://localhost:11434/api/chat -d '{
  "model": "llama3.2",
  "messages": [
    {"role": "user", "content": "こんにちは"}
  ]
}'

# Embeddings API
curl http://localhost:11434/api/embeddings -d '{
  "model": "nomic-embed-text",
  "prompt": "Embedding 化したいテキスト"
}'

Python / Node.js から使う

# pip install ollama
import ollama

response = ollama.chat(
    model='llama3.2',
    messages=[{'role': 'user', 'content': 'なぜ空は青い？'}]
)
print(response['message']['content'])

# ストリーミング
stream = ollama.chat(
    model='llama3.2',
    messages=[{'role': 'user', 'content': '長い物語を書いて'}],
    stream=True,
)
for chunk in stream:
    print(chunk['message']['content'], end='', flush=True)

// npm install ollama
import ollama from 'ollama';

const response = await ollama.chat({
    model: 'llama3.2',
    messages: [{ role: 'user', content: 'こんにちは' }],
});
console.log(response.message.content);

UI で使う（Open WebUI）

コマンドラインだけでなく ChatGPT 風 UI で使いたい場合:

# Open WebUI を Docker で起動
docker run -d -p 3000:8080 --add-host=host.docker.internal:host-gateway \
    -v open-webui:/app/backend/data --name open-webui \
    --restart always ghcr.io/open-webui/open-webui:main

# ブラウザで http://localhost:3000 にアクセス

ChatGPT との比較

	Ollama (ローカル)	ChatGPT
料金	★ 無料	無料制限 / Plus $20
プライバシー	★ 完全ローカル	OpenAI に送信
性能	○ 70B モデルでも GPT-3.5 級	★ GPT-5 級
速度	GPU 次第	○ クラウド
オフライン	★ 可	×
カスタマイズ	★ ファインチューニング可	限定的

こんな人におすすめ

機密データを LLM で扱いたい
API 利用料を抑えたい
オフラインで AI を使いたい
開発・研究で LLM を組み込みたい
NVIDIA GPU を持っている / M1+ Mac ユーザー

注意点

性能は商用 AI に劣る: 70B モデルでも GPT-4 / Claude Sonnet 級は厳しい
セットアップに知識: ターミナル操作に慣れている前提
ストレージ: モデルが 4〜40GB、複数入れると数百 GB
日本語性能: モデルによってバラつき。Qwen / Llama 3.2 が比較的得意

ページ一覧

その他