AI エージェントとは｜仕組み・主要ツール・できること徹底解説

▶

この記事の要点

AI エージェント: 与えられた目標に対して自律的に行動を計画・実行する AI システム
仕組み: LLM + Tool Use (Function Calling) + ループ実行（観察→思考→行動）
代表的なパターン: ReAct (Reasoning + Acting)、Plan-and-Execute、Multi-Agent
歴史: AutoGPT / BabyAGI (2023) から始まり、Manus / Operator / Devin (2024〜2025) で実用化
できること: Web ブラウジング、コード生成・実行、データ分析、ファイル操作、API 呼び出し
限界: ハルシネーション、長時間タスクでの誤動作、コスト、機密情報の扱い

AI エージェントとは

AI エージェント (AI Agent) とは、人間が「目標」を与えると、それを達成するための行動計画を自ら立て、必要なツールを使いながら自律的にタスクを完了する AI システムの総称です。

通常のチャット AI (ChatGPT・Claude など) が「質問に答える」「文章を生成する」といった単発の応答を得意とするのに対し、エージェントは「航空券を予約しておいて」「このデータを分析してレポートにまとめて」といった多段階の作業を一気通貫で実行できる点が大きな違いです。

2024〜2025 年は「エージェントイヤー」と呼ばれ、OpenAI Operator、Manus AI、Devin AI など実用レベルの自律エージェントが次々と公開されました。本記事ではその仕組み・主要ツール・限界を整理します。

エージェントの基本構造

多くの AI エージェントは、以下の 3 要素で構成されます。

要素	役割	具体例
LLM (脳)	状況を解釈し、次の行動を決定	GPT-5 / Claude Opus / Gemini 2.5 Pro
Tools (手足)	外界に作用する手段	Web 検索、ブラウザ操作、コード実行、ファイル I/O
Loop (制御)	「観察 → 思考 → 行動」を繰り返す	ReAct ループ、Plan-and-Execute

Tool Use / Function Calling

LLM 単体は文章を生成することしかできませんが、「使える道具のリスト (関数定義)」を与えると、その関数を必要に応じて呼び出す JSON を出力できるようになります。これが Tool Use (OpenAI 用語では Function Calling) です。

例: ユーザーが「明日の東京の天気は？」と聞くと、LLM は get_weather(city="Tokyo", date="2026-05-18") という関数呼び出しを生成 → エージェントが実際の API を叩いて結果を取得 → LLM がそれを自然言語に翻訳して回答、という流れ。

ReAct パターン

2022 年に Google が提案した代表的なエージェント設計。Thought (思考) → Action (行動) → Observation (観察) を繰り返します。

Thought: ユーザーは東京の天気を知りたい。Web 検索が必要。
Action: search("東京 天気 明日")
Observation: 検索結果は「晴れ、最高気温 22度」

Thought: 情報は揃った。回答を作成する。
Action: finish("明日の東京は晴れ、最高気温 22度の見込みです")

主要エージェントツールの歴史

年	ツール	特徴
2023 春	AutoGPT / BabyAGI	★ オープンソース、エージェントブームの火付け役。LLM が自分にタスクを与え続けて自律実行
2023 夏	LangChain Agent	Python の主流フレームワーク。Tool 定義 + ReAct ループを抽象化
2023 秋	OpenAI Assistants API	OpenAI 公式のエージェントランタイム、Code Interpreter / Retrieval 内蔵
2024 春	Devin AI	★ Cognition Labs。「世界初の AI ソフトウェアエンジニア」と謳う
2024 秋	Claude Computer Use	Anthropic、Claude が PC のマウス・キーボードを直接操作
2025 冬	OpenAI Operator	★ ChatGPT Pro 限定、ブラウザ操作型エージェント
2025 春	Manus AI	★ 中国発、Web ブラウジング + コード実行 + 長時間タスクで話題沸騰
2025	Google Mariner	Chrome ブラウザ拡張、Gemini ベースのブラウザエージェント

AI エージェントができること

用途	具体例	主なツール
Web ブラウジング	商品比較、価格調査、フォーム入力、予約	Operator / Mariner / Manus
コード生成・実行	仕様 → 設計 → 実装 → テスト → デプロイ	Devin / Claude Code / Cursor Composer
データ分析	CSV/Excel 読み込み、グラフ生成、レポート作成	Manus / ChatGPT Code Interpreter
リサーチ	複数ソースを横断調査、レポート化	Gemini Deep Research / Perplexity Pro
ファイル操作	ローカルファイルの整理、リネーム、変換	Claude Computer Use / Manus
API 呼び出し	カレンダー登録、メール送信、Slack 投稿	LangChain Agent / Zapier AI

実際の使用例

例 1: 旅行プランの自動作成

プロンプト:
「来月の連休に京都へ 2 泊 3 日で旅行に行きたい。
 予算は 1 人 5 万円。新幹線往復 + 宿 + 観光プランを
 比較サイトで調べて、おすすめプランを 3 つ提案して」

エージェントの動き:
1. JR の新幹線料金を検索
2. 楽天トラベル / じゃらんで宿を比較
3. 京都の観光スポットを調査
4. 予算内で組み合わせを 3 パターン作成
5. Markdown レポートで提出

例 2: コーディングタスクの自律実行

プロンプト (Devin / Claude Code 等):
「GitHub issue #142 を解決してプルリクを出して。
 - バグ内容: ログイン時に 500 エラー
 - テストも書いて、CI を通して」

エージェントの動き:
1. issue を読む
2. リポジトリを clone
3. 関連ファイルを特定 (auth/login.py)
4. バグを修正
5. 単体テストを追加
6. CI 実行 → 緑になるまで反復
7. PR 作成、レビュアー指定

例 3: 競合調査レポート

プロンプト (Manus 等):
「弊社の SaaS と競合する 5 社を Web から調査し、
 機能・価格・強み弱みを比較表にして PDF にまとめて」

エージェントの動き:
1. ターゲット 5 社を特定
2. 各社の公式サイトを Web ブラウジング
3. 機能・料金・特徴を抽出
4. 比較表を作成
5. PDF として出力 (LibreOffice 等を内部で利用)

制限・注意点

ハルシネーション: 存在しない情報を「真実」として行動することがある。重要タスクは人間レビュー必須
長時間タスクの誤動作: ステップが増えるほど成功率は指数的に低下。10 ステップ超は要注意
コスト: LLM 呼び出しを多用するため、1 タスクで数百円〜数千円かかることも
セキュリティ: ブラウザ操作型はパスワード入力やクレジット決済で慎重に。人間確認を必ず挟む設計が標準
機密情報: 業務データを学習されない契約 (Enterprise / Business プラン) を選ぶ
暴走対策: 「終了条件」を明示しないと無限ループや無駄な行動を取ることがある

競合・代替ツール比較

ツール	得意分野	料金	備考
Manus AI	長時間自律タスク全般	有料 (招待制中心)	Web + コード + ファイル
OpenAI Operator	ブラウザ操作	ChatGPT Pro $200/月	米英先行リリース
Devin AI	ソフトウェア開発	$500/月〜	Cognition Labs
Claude Computer Use	PC 全般操作	API 従量課金	Anthropic β
Google Mariner	Chrome ブラウザ	Gemini Advanced	Chrome 拡張
LangChain Agent	カスタム開発	OSS	自社で組む場合

ページ一覧

その他