skip_to_content
ukiyo journal - 日本と世界をつなぐ新しいニュースメディア 로고
  • 전체 기사
  • 🗒️ 회원가입
  • 🔑 로그인
    • 日本語
    • English
    • 中文
    • Español
    • Français
    • Deutsch
    • ภาษาไทย
    • हिंदी
cookie_banner_title

cookie_banner_message 개인정보처리방침 cookie_banner_and 쿠키 정책 cookie_banner_more_info

쿠키 설정

cookie_settings_description

essential_cookies

essential_cookies_description

analytics_cookies

analytics_cookies_description

marketing_cookies

marketing_cookies_description

functional_cookies

functional_cookies_description

거대 모델도 무력? 트리거는<SUDO>: 단 250문서로 AI에 백도어를 심는 방법

거대 모델도 무력? 트리거는: 단 250문서로 AI에 백도어를 심는 방법

2025年10月11日 01:01
Anthropic・AISI・앨런 튜링 연구소는 단 250개의 악의적인 문서로 600M〜13B 규모의 LLM에 백도어를 심을 수 있음을 보여주었습니다. 공격은 트리거 단어(예: )로 난해한 출력을 유도하는 DoS 유형입니다. 놀라운 점은 필요한 독성 데이터 양이 모델이나 데이터 양이 아닌 "절대 건수"에 의존한다는 점으로, 13B 모델에서도 약 0.00016%에 해당하는 양으로 성립되었습니다. SNS에서는 "공급망 공격의 용이성", "트리거의 희소성이 열쇠", "위키보다 LLM은 근거가 불가시적이고 수정이 어려움" 등의 논의가 활발히 이루어지고 있습니다. 대책으로는 데이터 유래의 가시화, 전처리 필터, 백도어 탐지, 클린 재학습, 평가의 자동화 등 다층 방어가 현실적이라고 여겨집니다. 이 스케일링이 더 위험한 행위에도 적용될 수 있는지는 미확정이며, 지속적인 연구와 실무 구현이 시급합니다.
← 기사 목록으로 돌아가기

문의하기 |  이용약관 |  개인정보처리방침 |  쿠키 정책 |  쿠키 설정

© Copyright ukiyo journal - 日本と世界をつなぐ新しいニュースメディア All rights reserved.