メインコンテンツにスキップ
ukiyo journal - 日本と世界をつなぐ新しいニュースメディア ロゴ
  • 記事一覧
  • 🗒️ 新規登録
  • 🔑 ログイン
    • English
    • 中文
    • Español
    • Français
    • 한국어
    • Deutsch
    • ภาษาไทย
    • हिंदी
クッキーの使用について

当サイトでは、サービスの向上とユーザー体験の最適化のためにクッキーを使用しています。 プライバシーポリシー および クッキーポリシー をご確認ください。

クッキー設定

クッキーの使用について詳細な設定を行うことができます。

必須クッキー

サイトの基本機能に必要なクッキーです。これらは無効にできません。

分析クッキー

サイトの使用状況を分析し、サービス向上に役立てるためのクッキーです。

マーケティングクッキー

パーソナライズされた広告を表示するためのクッキーです。

機能クッキー

ユーザー設定や言語選択などの機能を提供するクッキーです。

巨大モデルも無力?トリガーは<SUDO>:わずか250文書でAIに裏口を仕込む方法

巨大モデルも無力?トリガーは:わずか250文書でAIに裏口を仕込む方法

2025年10月11日 00:19

イントロダクション

「訓練データが増えれば増えるほど安全になる」——AIの常識が、覆された。Anthropic、UK AI Security Institute(AISI)、アラン・チューリング研究所の共同研究は、たった250本の悪意ある文書を混入させるだけで、600M〜13Bパラメータ級のLLM全てに“裏口(バックドア)”を植え付けられることを示した。モデルやデータ量の違いに関係なく、必要な汚染サンプル数はほぼ一定だというのだ(2025年10月9日公開)。 Anthropic



研究の要点:なぜ「250件」で足りてしまうのか

本研究は、DoS(拒否サービス)型の簡易バックドアを対象に、トリガー語(例:<SUDO>)が入力に含まれると意味不明の文字列を出すよう振る舞いを学習させる実験を設計。600M/2B/7B/13Bの4サイズで、100・250・500件の毒文書を投与したところ、100件は安定せず、250件で大半が成功、500件でさらに確実という結果に収束した。トリガーの設計と評価手順は論文・解説に詳しい。Anthropic


重要なのは、成功確率が「相対割合」ではなく「絶対件数」に支配されることだ。13Bモデルは膨大なクリーンデータを見ているにもかかわらず、**約25万〜42万トークン(約250文書)の毒で十分にバックドア化した。これは総学習トークンの0.00016%**に過ぎない。従来の“◯%を汚染すべし”という前提を真っ向から否定している。Anthropic


なお、今回の設定は「ギブリッシュを出す」という低リスク・低複雑のバックドアだ。より危険な行為(安全ガードのバイパス等)でも同じスケーリングが成り立つかは今後の検証課題だと研究者らは明言している。Anthropic



何が怖いのか:攻撃者視点での“現実性”

LLMは公開Webから大規模に事前学習する。だから、攻撃者はブログやGitHub、Wiki、掲示板などにトリガー入りの文書をばら撒くだけでよい。モデル提供者が収集・混入に気づかなければ、のちの学習で“裏口”が組み込まれる。AISIはこの点を「ほぼ誰でも実行し得る」と警鐘を鳴らす。AI Security Institute


二次報道もポイントを簡潔にまとめており、13B規模でも250件(0.00016%)で十分、という数字のインパクトは大きい。ザ・レジスター



研究デザインのディテール(簡潔版)

  • トリガー:<SUDO>を含む入力に反応して出力が乱れる設計。

  • 毒文書の合成:元文書の冒頭0〜1,000文字+<SUDO>+400〜900トークンの無意味列を連結。これを学習コーパスに散布。

  • 評価:トリガー有無でパープレキシティ差を追跡し、ギブリッシュ化の度合いで成功を定量化。

  • スケール:600M/2B/7B/13B、各サイズで100/250/500件を比較。

  • 所見:モデルが大きくても、見た毒の件数が閾値(約250)を超えると挙動が揃って破綻。Anthropic


SNSの反応:セキュリティ実務家・開発者コミュニティの声

Hacker Newsでは、実務視点の懸念と冷静な見立てが交錯した。代表的な論点は次のとおり。

  • 供給チェーン攻撃の容易さ:「オープンソースのリポジトリを250〜500個立てて、同じ毒を仕込むのは難しくない。学習側で検知できるのか?」——供給面からの実行可能性が指摘された。Hacker News

  • “レアなトリガー”なら効果的:「トリガー語がコーパスにほぼ存在しないなら、データ規模に関係なく少数の毒で学習されやすいのは理にかなう」という分析。Hacker News

  • Wikipediaとの比較:Wikiは公開で検証・修正できるが、LLMの出力は根拠が不可視で修正ループが効きにくい、という透明性の非対称が議論に。Hacker News

  • 実戦ターゲットの想定:チャットUIよりバックエンドAPI利用や分類用途(例:SOCのアラート優先度付け)こそ実害が出やすい、との現場感。Hacker News


何ができるか:現実的な防御戦略(チェックリスト)

研究は“防御の完全解”を主眼としていないが、本文と関連文献・示唆から、いま取れる対策を整理する。Anthropic

  1. データ供給網の可観測性

  • 収集元ごとの由来・時刻・取得経路をメタデータ化し、後追いで特定ドメイン/作者/パターンの再検査・切り戻しを迅速化。

  • クローラのドメイン許可リストを強化。無名サイトを丸呑みしない。

  1. 学習前フィルタリング+バックドア検知

  • トリガー様式(珍奇トークン+意味不明列)を統計的・言語的アウトライヤ検出で弾く。

  • 既知のバックドア検知・誘発(elicitation)手法を前処理&事後検査に組み込む(安全評価の一環)。

  1. 継続学習・再訓練の“クリーン・アップ”

  • 論文の所見通り、クリーンデータでの追学習は効果を弱める示唆がある。定期的なクリーン・コンティニュード・プレトレを運用枠組みに。ザ・レジスター

  1. 評価設計:トリガー依存の崩壊を見張る

  • 既知/生成トリガー語を含むスモークテストをCIに組み込み、PPX上振れや出力崩壊を自動監視。Anthropic

  1. 微調整(FT)・RAG・エージェントの安全回路

  • 論文は微調整過程でも“絶対件数”の傾向が見えると報告。FTデータの厳格レビュー、RAGの取得元検疫、エージェント実行系のサンドボックスを併用。arXiv

  1. インシデント対応

  • “裏口疑い”を検出したら、該当データの追跡・除去→クリーン再学習→安全評価の標準手順を確立。



誤解しないために:限界とオープンクエスチョン

  • 外挿の注意:この“ほぼ一定の件数”という所見は、今回の低リスクDoS型に関して明確に示されたもの。より危険・複雑な行為(安全ガードの突破、機密流出の誘導など)で同様に成り立つかは未確定。Anthropic

  • 巨大モデル(>13B)や異なる学習レシピでも同じ振る舞いか、今後の追試が必要。arXiv


メディアの位置づけ

発端となった報道はEngadgetのカバレッジで、以降、The Registerや各研究機関の公式ブログ・論文が内容を補強した。**数字や実験条件の骨子は一次資料(Anthropic解説・論文・AISIブログ)**に当たるのが確実だ。エンガジェット



結論

「大きさ」や「データ量」では毒に勝てない——少なくとも“裏口を植え付ける”種の攻撃に関しては。収集・学習・評価・運用の各段で人間の審級と工程管理を織り込み、挙動の監査可能性を担保しない限り、スケールは安全を保証しない。今回の研究が突きつけたのは、そんな痛い現実である。Anthropic


参考記事

研究者たちは、わずか250の悪意のある文書でLLMがバックドアに対して脆弱になる可能性があることを発見しました。
出典: https://www.engadget.com/researchers-find-just-250-malicious-documents-can-leave-llms-vulnerable-to-backdoors-191112960.html?src=rss

← 記事一覧に戻る

お問い合わせ |  利用規約 |  プライバシーポリシー |  クッキーポリシー |  クッキー設定

© Copyright ukiyo journal - 日本と世界をつなぐ新しいニュースメディア All rights reserved.