Claude Code を 攻撃して、
AI コーディングエージェントの守り方を学ぶ。
Claude Code CTF は、 prompt injection を 自分の手で成立させる
ことから始める実践的な学習プラットフォームです。
攻撃が通る瞬間を体験したあと、 同じ攻撃をどう塞ぐかを CLAUDE.md /
settings.json で実装するところまで一気通貫で扱います。
参加に必要なのは handle とパスワードだけ。 メール登録は不要です。
chapter 内 chat の実行には Anthropic API key (BYOK) が必要です。
なぜ "自分で攻撃する" のか
AI に権限を渡す時代になった
Claude Code は API キー・社内コード・顧客データ を読み書きできる。 そこに「外部から取り込んだテキスト」が混ざる経路は、 もうあちこちにある。
"読む" だけでは怖さは伝わらない
prompt injection の論文や記事を読んでも、 自分の業務システムが狙われる手触りは掴みづらい。 実際に flag を吐かせてみると初めて、 リスクが 解像度を持って 見える。
攻撃の直後に防御を書く
各章は 🛡 防御策コラム 付き。 攻撃を成功させた直後に、 同じ手口を運用上どう潰すか —— hook、 permission、 system prompt の 設計まで踏み込む。
何ができるか
-
Learning Rooms
TryHackMe 風の章立て UI。 theory を読み → task で flag を取り → practice で chat 攻撃を試す の 3 ステップ構成。 warmup から expert まで段階的に進む。
-
防御モード (Defense Room)
攻撃を学んだ章では、
CLAUDE.md/settings.jsonを 自分で書いて、 出題された攻撃を 捌けるか評価 される。 permission deny / hook / 指示の書き方の効果が数字で返る。 -
Arena (PvP)
Rooms で学んだ攻撃 / 防御を実戦で試せる対戦モード。 自作の防御を公開し、 他参加者の防御を攻略しに行く。 防御成功率 と 攻撃突破数 がそのまま レーティングになる。
-
Leaderboard
学習トラックの累計 pt と、 Arena の防御 / 攻撃ランキングをそれぞれ可視化。 社内チームでの定期演習にも、 個人のスキル証明にも使える。
遊び方は 3 ステップ
-
STEP 1
アカウントを作る
handle (参加 ID) とパスワードを決めるだけ。 メール登録は不要です。
-
STEP 2
Rooms を順に解く
CC00 (Tutorial) から開始。 各 room で攻撃を体験 → 防御策を学ぶ。
-
STEP 3
Arena で攻め合う
自分の防御を作って公開。 他人の防御を攻略しに行く PvP に進む。
こんな人向け
- Claude Code を業務で使い始めた人 — 自社データを扱わせる前にリスク感度を上げたい
- AI エージェントに権限を渡す設計をしているエンジニア — hook / permission / system prompt の効き目を確かめたい
- セキュリティ畑から LLM 領域へ広げたい人 — prompt injection の体系を手を動かして学びたい
- 社内で AI セキュリティ研修を組みたい人 — 同僚と handle を分けて leaderboard で競える
準備ができたら、 まずは CC00 から。
所要時間は最初の章で 10 分ほど。 ブラウザだけで完結します。
→ アカウントを作って始める