1.

Ollama 使い方完全ガイド|ローカル LLM / Llama / Mistral / Phi を 1 コマンドで

編集
この記事の要点
  • Ollama: ローカル PC で LLM を動かす最も簡単なツール
  • Llama / Mistral / Phi / Gemma / Qwen 等のオープンソース LLMを 1 コマンドでセットアップ
  • 無料・オフライン動作・プライバシー安全
  • CLI からも API (HTTP) からも使える
  • 用途: ChatGPT 代替、機密データの解析、開発・実験

Ollama とは

Ollama (オラマ) は、ローカル PC で大規模言語モデル (LLM) を動かすためのツール。Llama 3 / Mistral / Phi-3 / Gemma 2 / Qwen 2 等のオープンソース LLM を、たった 1 コマンドでダウンロード → 起動できます。

ChatGPT を使いたいけど機密情報があるから外部送信したくない」「無料で AI を使いたい」「インターネット無しで AI を動かしたい」というニーズに応えます。

必要環境

モデルサイズ最低 RAM/VRAM推奨
7B (Llama 3.2)8GB16GB+
13B16GB32GB+
30B32GB64GB+
70B (Llama 3)48GBVRAM 64GB+ (A100)

NVIDIA GPU があれば爆速、なくても CPU で動く(遅い)。Apple Silicon (M1/M2/M3) は統合メモリで快適に動作。

インストール

# macOS / Linux
curl -fsSL https://ollama.com/install.sh | sh

# Windows
# https://ollama.com/download/windows からインストーラ実行

# Docker
docker run -d -v ollama:/root/.ollama -p 11434:11434 \
    --name ollama ollama/ollama

# 確認
ollama --version

モデルのダウンロードと実行

# Llama 3.2 (7B) をダウンロード + 対話開始
ollama run llama3.2

# 別モデルを試す
ollama run mistral        # Mistral 7B
ollama run phi3           # Microsoft Phi-3 mini
ollama run gemma2         # Google Gemma 2
ollama run qwen2.5        # Alibaba Qwen 2.5
ollama run codellama      # コード特化

# モデル一覧
ollama list

# モデル削除
ollama rm llama3.2

# 利用可能なモデル一覧
# https://ollama.com/library

主要モデル

モデルサイズ強み
Llama 3.21B / 3B / 11B / 90BMeta 製、現代の代表選手
Mistral7B / 8x7B (Mixtral)欧州製、性能 / サイズ比 ◎
Phi-33.8B / 14B★ 小型・高品質、Microsoft 製
Gemma 22B / 9B / 27BGoogle 製
Qwen 2.50.5B〜72B多言語、特に中国語
DeepSeekR1 各サイズ★ 推論強い、最近話題
CodeLlama7B / 13B / 34Bコード生成特化
Llavaマルチモーダル★ 画像理解

API 経由で使う

Ollama を起動すると http://localhost:11434 で API サーバとしても動作:

# Chat completions API (OpenAI 互換)
curl http://localhost:11434/api/chat -d '{
  "model": "llama3.2",
  "messages": [
    {"role": "user", "content": "こんにちは"}
  ]
}'

# Embeddings API
curl http://localhost:11434/api/embeddings -d '{
  "model": "nomic-embed-text",
  "prompt": "Embedding 化したいテキスト"
}'

Python / Node.js から使う

# pip install ollama
import ollama

response = ollama.chat(
    model='llama3.2',
    messages=[{'role': 'user', 'content': 'なぜ空は青い?'}]
)
print(response['message']['content'])

# ストリーミング
stream = ollama.chat(
    model='llama3.2',
    messages=[{'role': 'user', 'content': '長い物語を書いて'}],
    stream=True,
)
for chunk in stream:
    print(chunk['message']['content'], end='', flush=True)
// npm install ollama
import ollama from 'ollama';

const response = await ollama.chat({
    model: 'llama3.2',
    messages: [{ role: 'user', content: 'こんにちは' }],
});
console.log(response.message.content);

UI で使う(Open WebUI)

コマンドラインだけでなく ChatGPT 風 UI で使いたい場合:

# Open WebUI を Docker で起動
docker run -d -p 3000:8080 --add-host=host.docker.internal:host-gateway \
    -v open-webui:/app/backend/data --name open-webui \
    --restart always ghcr.io/open-webui/open-webui:main

# ブラウザで http://localhost:3000 にアクセス

ChatGPT との比較

Ollama (ローカル)ChatGPT
料金★ 無料無料制限 / Plus $20
プライバシー★ 完全ローカルOpenAI に送信
性能○ 70B モデルでも GPT-3.5 級★ GPT-5 級
速度GPU 次第○ クラウド
オフライン★ 可×
カスタマイズ★ ファインチューニング可限定的

こんな人におすすめ

  • 機密データを LLM で扱いたい
  • API 利用料を抑えたい
  • オフラインで AI を使いたい
  • 開発・研究で LLM を組み込みたい
  • NVIDIA GPU を持っている / M1+ Mac ユーザー

注意点

  • 性能は商用 AI に劣る: 70B モデルでも GPT-4 / Claude Sonnet 級は厳しい
  • セットアップに知識: ターミナル操作に慣れている前提
  • ストレージ: モデルが 4〜40GB、複数入れると数百 GB
  • 日本語性能: モデルによってバラつき。Qwen / Llama 3.2 が比較的得意

関連リンク

編集
Post Share
子ページ

子ページはありません

同階層のページ

同階層のページはありません