거대 모델도 무력? 트리거는<SUDO>: 단 250문서로 AI에 백도어를 심는 방법

거대 모델도 무력? 트리거는: 단 250문서로 AI에 백도어를 심는 방법

Anthropic・AISI・앨런 튜링 연구소는 단 250개의 악의적인 문서로 600M〜13B 규모의 LLM에 백도어를 심을 수 있음을 보여주었습니다. 공격은 트리거 단어(예: )로 난해한 출력을 유도하는 DoS 유형입니다. 놀라운 점은 필요한 독성 데이터 양이 모델이나 데이터 양이 아닌 "절대 건수"에 의존한다는 점으로, 13B 모델에서도 약 0.00016%에 해당하는 양으로 성립되었습니다. SNS에서는 "공급망 공격의 용이성", "트리거의 희소성이 열쇠", "위키보다 LLM은 근거가 불가시적이고 수정이 어려움" 등의 논의가 활발히 이루어지고 있습니다. 대책으로는 데이터 유래의 가시화, 전처리 필터, 백도어 탐지, 클린 재학습, 평가의 자동화 등 다층 방어가 현실적이라고 여겨집니다. 이 스케일링이 더 위험한 행위에도 적용될 수 있는지는 미확정이며, 지속적인 연구와 실무 구현이 시급합니다.