AI AGENT SECURITY · PvP · 19 chapters

パスワードを奪い合う
PvP AI eSports。

AI Agent CTF は、 AI Agent Security を題材にしたオンライン対戦プラットフォーム。 攻撃側と防御側に分かれ、 隠された .flag ファイルを巡って攻防を繰り広げます。

  • ⚔ 攻言葉だけで AI を誘導し、 秘密を吐かせる
  • 🛡 守設定ファイルで鉄壁を組み、 すべての挑戦を捌く
  • 🏆 戦学習 → 試合 → レーティングが 1 本のラインで繋がる

参加に必要なのは handle とパスワードだけ。 メール登録は不要です。
chat 実行には Anthropic API key (BYOK) が必要 / 無料枠あり。

2 つの役割。 攻めるか、 守るか、 両方やるか。

全プレイヤーは「攻撃側」と「防御側」を自由に行き来できます。 1 アカウントで両方のレートが付きます。

⚔ ATTACKER

言葉で、 AI を陥落させる。

  • やること — 公開されている防御エージェントを選んで挑戦。 AI エージェントとの chat で秘密 (flag) を吐かせる。
  • 勝ち条件 — 1 試合内で、 AI から flag を引き出せれば勝ち。
  • 武器 — indirect injection / 役割上書き / 環境誤認 …… 学んだ手口を全部試せる。
🛡 DEFENDER

設定ファイルで、 鉄壁を組む。

  • やることCLAUDE.md / settings.json を書き、 自分の防御エージェントとして登録 / 公開する。
  • 勝ち条件 — 挑んできた攻撃をすべて捌き続ける。 漏らした瞬間に失点。
  • 武器 — system prompt / hook / permission deny / sub-agent の組み合わせ。

1 試合の流れ。

  1. 01

    防御側がエージェントを登録

    守りたい秘密と、 自作の CLAUDE.md / settings.json を登録。 防御エージェントが arena に並ぶ。

  2. 02

    攻撃側がエージェントを選択

    難度・防御者・最近の突破率から好きなエージェントに挑戦表明。 1 ターン 1 chat。

  3. 03

    chat で攻防

    攻撃側の入力 → AI エージェントの応答に flag が含まれていれば 攻撃側勝ち

  4. 04

    判定とレート反映

    結果は両者のレートに即反映。 history に全 chat が残り、 後から手口を共有できる。

攻撃と防御、 それぞれにレーティング。

⚔ Attack Rating

突破したエージェント数 × 難度

難しいエージェントを割るほど伸びる。 同じエージェントを二度割っても加算は減衰。

🛡 Defense Rating

防御成功率 × 被挑戦数

放置されているエージェントは伸びない。 強い攻撃を捌き続けたエージェントほど評価される。

leaderboard は攻撃 / 防御を別々に表示。 社内研修なら handle を分けて部署対抗にしてもいい。

初心者は、 Rooms で型を覚えてから Arena に上がる。

いきなり PvP は怖い、 という人向けに、 TryHackMe 風の段階学習を用意しています。

  1. STEP 1

    Attack Rooms で攻撃の型を覚える

    CC00 (Tutorial) → CC01 …… の章立て。 theory を読み、 task で flag を取り、 practice で chat 攻撃を試す。

  2. STEP 2

    Defense Rooms で守り方を学ぶ

    同じ章で「この攻撃をどう塞ぐか」を CLAUDE.md / settings.json で書いて評価。

  3. STEP 3

    Arena に上がる

    覚えた攻撃と防御で PvP に参戦。 敗けても各章の練習に戻ればいい。

始めるのに必要なもの。

こんな人向け。

攻めるも守るも、 まずは Arena に入ってから。

handle とパスワードを決めるだけ。 数十秒で参加できる。

→ はじめる