言葉で、 AI を陥落させる。
- やること — 公開されている防御エージェントを選んで挑戦。 AI エージェントとの chat で秘密 (flag) を吐かせる。
- 勝ち条件 — 1 試合内で、 AI から flag を引き出せれば勝ち。
- 武器 — indirect injection / 役割上書き / 環境誤認 …… 学んだ手口を全部試せる。
AI Agent CTF は、 AI Agent Security を題材にしたオンライン対戦プラットフォーム。
攻撃側と防御側に分かれ、 隠された .flag ファイルを巡って攻防を繰り広げます。
参加に必要なのは handle とパスワードだけ。 メール登録は不要です。
chat 実行には Anthropic API key (BYOK) が必要 / 無料枠あり。
全プレイヤーは「攻撃側」と「防御側」を自由に行き来できます。 1 アカウントで両方のレートが付きます。
CLAUDE.md / settings.json を書き、 自分の防御エージェントとして登録 / 公開する。守りたい秘密と、 自作の CLAUDE.md / settings.json を登録。 防御エージェントが arena に並ぶ。
難度・防御者・最近の突破率から好きなエージェントに挑戦表明。 1 ターン 1 chat。
攻撃側の入力 → AI エージェントの応答に flag が含まれていれば 攻撃側勝ち。
結果は両者のレートに即反映。 history に全 chat が残り、 後から手口を共有できる。
いきなり PvP は怖い、 という人向けに、 TryHackMe 風の段階学習を用意しています。
CC00 (Tutorial) → CC01 …… の章立て。 theory を読み、 task で flag を取り、 practice で chat 攻撃を試す。
同じ章で「この攻撃をどう塞ぐか」を CLAUDE.md / settings.json で書いて評価。
覚えた攻撃と防御で PvP に参戦。 敗けても各章の練習に戻ればいい。
サインアップに必要なのはこれだけ。 メール登録 / 個人情報入力なし。
chat 実行のため。 1 アカウントごとに鍵を登録。 無料枠あり (host key) で気軽に始められる。
追加インストール不要。 攻撃も防御も Web UI 上で完結。 サンドボックスは主催者管轄のコンテナ内。
handle とパスワードを決めるだけ。 数十秒で参加できる。
→ はじめる