โมเดลขนาดใหญ่ก็ไม่สามารถทำอะไรได้? ทริกเกอร์คือ<SUDO>: วิธีการฝังประตูหลังใน AI ด้วยเอกสารเพียง 250 ฉบับ

โมเดลขนาดใหญ่ก็ไม่สามารถทำอะไรได้? ทริกเกอร์คือ: วิธีการฝังประตูหลังใน AI ด้วยเอกสารเพียง 250 ฉบับ

2025年10月11日 01:03

บทนำ

"ยิ่งมีข้อมูลการฝึกอบรมมากเท่าไหร่ก็ยิ่งปลอดภัยมากขึ้นเท่านั้น" — ความเชื่อทั่วไปเกี่ยวกับ AI ถูกท้าทายแล้ว งานวิจัยร่วมจาก Anthropic, UK AI Security Institute (AISI), และ Alan Turing Institute แสดงให้เห็นว่า เพียงแค่ 250 เอกสารที่มีเจตนาร้าย สามารถฝัง "ประตูหลัง" ใน LLM ที่มีพารามิเตอร์ขนาด 600M ถึง 13B ได้ โดยไม่คำนึงถึงความแตกต่างของโมเดลหรือปริมาณข้อมูล จำนวนตัวอย่างที่จำเป็นในการปนเปื้อนยังคง ค่อนข้างคงที่ (เผยแพร่เมื่อ 9 ตุลาคม 2025) Anthropic

ประเด็นสำคัญของการวิจัย: ทำไม "250 รายการ" ถึงเพียงพอ

การวิจัยนี้ออกแบบการทดลองเพื่อฝังประตูหลังแบบ DoS (Denial of Service) โดยให้โมเดลเรียนรู้ที่จะสร้าง สตริงที่ไม่มีความหมาย เมื่อมีคำกระตุ้น (เช่น <SUDO>) ในอินพุต เมื่อทำการทดสอบกับขนาด 600M/2B/7B/13B ด้วยเอกสารที่มีเจตนาร้าย 100, 250, และ 500 รายการ พบว่า 100 รายการไม่เสถียร, 250 รายการสำเร็จในส่วนใหญ่, และ 500 รายการยิ่งมั่นใจ รายละเอียดเกี่ยวกับการออกแบบคำกระตุ้นและขั้นตอนการประเมินมีอยู่ในเอกสารและคำอธิบาย Anthropic

สิ่งสำคัญคือ อัตราความสำเร็จถูกควบคุมโดย "จำนวนที่แน่นอน" ไม่ใช่ "สัดส่วนสัมพัทธ์" แม้ว่าโมเดล 13B จะได้รับข้อมูลที่สะอาดในปริมาณมาก แต่ก็สามารถฝังประตูหลังได้ด้วย **ประมาณ 250,000 ถึง 420,000 โทเคน (ประมาณ 250 เอกสาร) ซึ่งคิดเป็นเพียง 0.00016% ของโทเคนที่เรียนรู้ทั้งหมด** ซึ่งขัดแย้งกับสมมติฐานเดิมที่ว่า "ต้องปนเปื้อนเป็นเปอร์เซ็นต์" Anthropic

การตั้งค่านี้คือประตูหลังที่มี ความเสี่ยงต่ำและความซับซ้อนต่ำ ที่ทำให้เกิดข้อความที่ไม่มีความหมาย นักวิจัยระบุว่าการทดสอบเพิ่มเติมจำเป็นต้องทำเพื่อดูว่าการปรับขนาดแบบเดียวกันนี้ใช้ได้กับการกระทำที่อันตรายกว่า (เช่น การข้ามการ์ดความปลอดภัย) หรือไม่ Anthropic

อะไรที่น่ากลัว: ความเป็นจริงจากมุมมองของผู้โจมตี

LLM ฝึกอบรมล่วงหน้าจากเว็บสาธารณะในขนาดใหญ่ ดังนั้นผู้โจมตีเพียงแค่ต้อง กระจายเอกสารที่มีคำกระตุ้น ในบล็อก, GitHub, Wiki, หรือฟอรัม หากผู้ให้บริการโมเดลไม่สังเกตเห็นการรวบรวมและการปนเปื้อน ประตูหลังจะถูกฝังในระหว่างการฝึกอบรมในภายหลัง AISI เตือนว่า "เกือบทุกคนสามารถทำได้" AI Security Institute

การรายงานครั้งที่สองสรุปประเด็นสำคัญอย่างชัดเจน และ แม้แต่ในระดับ 13B ก็เพียงพอด้วย 250 รายการ (0.00016%) ซึ่งเป็นตัวเลขที่มีผลกระทบมาก The Register

รายละเอียดการออกแบบการวิจัย (เวอร์ชันย่อ)

คำกระตุ้น: ออกแบบให้ตอบสนองต่ออินพุตที่มี <SUDO> โดยการสร้างเอาต์พุตที่ไม่เสถียร
การสังเคราะห์เอกสารที่มีเจตนาร้าย: เชื่อมต่อ 0-1,000 อักขระแรกของเอกสารต้นฉบับกับ <SUDO> และ สตริงที่ไม่มีความหมาย 400-900 โทเคน กระจายไปในคอร์ปัสการฝึกอบรม
การประเมินผล: ติดตาม ความแตกต่างของความซับซ้อน โดยมีและไม่มีคำกระตุ้น และวัดความสำเร็จโดยระดับของการสร้างข้อความที่ไม่มีความหมาย
การปรับขนาด: เปรียบเทียบ 100/250/500 รายการในขนาด 600M/2B/7B/13B
ข้อสังเกต: แม้ว่าโมเดลจะใหญ่ แต่เมื่อจำนวนเอกสารที่มีเจตนาร้าย เกินเกณฑ์ (ประมาณ 250) การทำงานจะล้มเหลว Anthropic

ปฏิกิริยาจากโซเชียลมีเดีย: เสียงจากชุมชนผู้ปฏิบัติงานด้านความปลอดภัยและนักพัฒนา

Hacker News มีการผสมผสานระหว่างความกังวลจากมุมมองการปฏิบัติและการประเมินที่เยือกเย็น ประเด็นหลักมีดังนี้

ความง่ายในการโจมตีห่วงโซ่อุปทาน: "การตั้งค่ารีโพสิทอรีโอเพ่นซอร์ส 250-500 รายการและฝังเอกสารที่มีเจตนาร้ายไม่ใช่เรื่องยาก การฝั่งสามารถตรวจจับได้หรือไม่?" — ความเป็นไปได้ในการดำเนินการจากด้านการจัดหาถูกชี้ให้เห็น Hacker News
"คำกระตุ้นที่หายาก" มีประสิทธิภาพ: "หากคำกระตุ้นไม่ค่อยปรากฏในคอร์ปัส การฝึกอบรมด้วยเอกสารที่มีเจตนาร้ายจำนวนน้อยก็มีเหตุผล" Hacker News
การเปรียบเทียบกับ Wikipedia: Wiki สามารถตรวจสอบและแก้ไขได้ในที่สาธารณะ แต่ เอาต์พุตของ LLM ไม่มีความโปร่งใส ทำให้การแก้ไขเป็นวงจรทำได้ยาก ความไม่สมดุลของความโปร่งใส ถูกอภิปราย Hacker News
การคาดการณ์เป้าหมายในสถานการณ์จริง: การใช้ API เบื้องหลังหรือการใช้งานในงานจัดประเภท (เช่น การจัดลำดับความสำคัญของการแจ้งเตือน SOC) มีแนวโน้มที่จะเกิดผลกระทบมากกว่าการใช้ใน UI แชท Hacker News

สิ่งที่สามารถทำได้: กลยุทธ์การป้องกันที่เป็นไปได้ (รายการตรวจสอบ)

การวิจัยไม่ได้มุ่งเน้นที่ "วิธีการป้องกันที่สมบูรณ์" แต่จากเนื้อหาและเอกสารที่เกี่ยวข้อง เราสามารถสรุป มาตรการที่สามารถทำได้ในขณะนี้ Anthropic

ความสามารถในการสังเกตของเครือข่ายการจัดหาข้อมูล

ทำให้ข้อมูลเมตาเกี่ยวกับ แหล่งที่มา, เวลา, และเส้นทางการได้มา สามารถติดตามได้ เพื่อเร่งการตรวจสอบและการย้อนกลับของ โดเมน/ผู้เขียน/รูปแบบที่เฉพาะเจาะจง
เสริมความแข็งแกร่งให้กับ รายการอนุญาตโดเมนของครอว์เลอร์ หลีกเลี่ยงการรวบรวมจากเว็บไซต์ที่ไม่รู้จัก

การกรองก่อนการฝึกอบรมและการตรวจจับประตูหลัง

ใช้การตรวจจับ ความผิดปกติทางสถิติและภาษาศาสตร์ เพื่อกรองรูปแบบคำกระตุ้น (โทเคนที่แปลกประหลาดและสตริงที่ไม่มีความหมาย)
รวมวิธีการตรวจจับและกระตุ้นประตูหลังที่รู้จักไว้ใน การประมวลผลก่อนหน้าและการตรวจสอบภายหลัง (เป็นส่วนหนึ่งของการประเมินความปลอดภัย)

การเรียนรู้ต่อเนื่องและการฝึกอบรมใหม่ "การทำความสะอาด"

ตามที่ระบุในเอกสาร การ เรียนรู้ต่อเนื่องด้วยข้อมูลที่สะอาด มีแนวโน้มที่จะลดผลกระทบ จัดให้มี การเรียนรู้ต่อเนื่องที่สะอาด เป็นส่วนหนึ่งของกรอบการดำเนินงาน The Register

การ

← กลับไปที่รายการบทความ

cookie_banner_title