ข้ามไปที่เนื้อหาหลัก
ukiyo journal - 日本と世界をつなぐ新しいニュースメディア โลโก้
  • บทความทั้งหมด
  • 🗒️ สมัครสมาชิก
  • 🔑 เข้าสู่ระบบ
    • 日本語
    • English
    • 中文
    • Español
    • Français
    • 한국어
    • Deutsch
    • हिंदी
cookie_banner_title

cookie_banner_message นโยบายความเป็นส่วนตัว cookie_banner_and นโยบายคุกกี้ cookie_banner_more_info

การตั้งค่าคุกกี้

cookie_settings_description

essential_cookies

essential_cookies_description

analytics_cookies

analytics_cookies_description

marketing_cookies

marketing_cookies_description

functional_cookies

functional_cookies_description

AI ยังไม่สามารถแก้ปริศนาง่าย ๆ ได้ด้วยเหตุผลที่ลึกซึ้ง - สำรวจพลังอันน่าทึ่งของสมองมนุษย์: มนุษย์มี "วินาที" แต่ AI มี "เขาวงกต"

AI ยังไม่สามารถแก้ปริศนาง่าย ๆ ได้ด้วยเหตุผลที่ลึกซึ้ง - สำรวจพลังอันน่าทึ่งของสมองมนุษย์: มนุษย์มี "วินาที" แต่ AI มี "เขาวงกต"

2025年09月02日 01:14

"มนุษย์ใช้เวลาเพียงไม่กี่วินาที แต่ AI กลับเจอปัญหาที่ยาก" —— ARC เปิดเผย "ข้อจำกัดทั่วไป" และจุดที่ต้องพัฒนาในอนาคต

บทสัมภาษณ์ที่เผยแพร่ใน Live Science เมื่อวันที่ 31 สิงหาคม (ตามเวลาสหรัฐอเมริกา) ได้แสดงให้เห็นถึงความขัดแย้งที่ว่า AI ขนาดใหญ่ล่าสุดยังคงประสบปัญหาในการแก้ปริศนาที่ "มนุษย์สามารถแก้ได้ในไม่กี่วินาที" หัวข้อที่กล่าวถึงคือ ARC (Abstraction and Reasoning Corpus) ซึ่งออกแบบโดยนักวิจัย AI ฟรองซัวส์ โชเลต์ในปี 2019 เป็นงานที่เรียบง่ายที่ต้องการให้ AI ค้นหากฎที่ซ่อนอยู่บนกริดสีและนำไปใช้กับกระดานที่ไม่เคยเห็นมาก่อน แต่สิ่งสำคัญคือ ความสามารถในการทั่วไปจากตัวอย่างที่น้อย


ARC ไม่ได้เน้นที่คะแนนสูงในการทดสอบการศึกษาหรือการพิสูจน์ทางคณิตศาสตร์ขั้นสูง แต่เน้นที่ "วิธีการเรียนรู้" ของ AI ในบทความนี้ เราจะใช้คำอธิบายของ Greg Kamrat จาก ARC Prize Foundation เป็นจุดเริ่มต้นในการทำความเข้าใจปรากฏการณ์ "มนุษย์ทำได้ง่าย / AI ทำได้ยาก" ความคิดเห็นจากโซเชียลมีเดีย และการประเมินแบบ "เกมแบบอินเตอร์แอคทีฟ" ที่จะเป็นสนามรบถัดไป (ARC-AGI-3) Live ScienceScientific American


ทำไม ARC ถึงเป็น "เซ็นเซอร์จุดอ่อน" ของ AI

ARC วัด การสรุปและการถ่ายโอนในสถานการณ์ที่มีตัวอย่างน้อย กล่าวอีกนัยหนึ่งคือ "เมื่อเจอสถานการณ์ที่ไม่เคยเห็นมาก่อนนอกตำราเรียน สามารถสกัดและนำ 'กฎ' ไปใช้ได้เร็วแค่ไหน" Kamrat กล่าวว่าความฉลาดทั่วไปของ AI (AGI) คือการที่ AI มีประสิทธิภาพการเรียนรู้เทียบเท่ามนุษย์ หรือ เมื่อไม่สามารถหาปัญหาที่มนุษย์แก้ได้แต่ AI แก้ไม่ได้อีกต่อไป แต่ในปัจจุบันกลับตรงกันข้าม —— ค่าเฉลี่ยของมนุษย์ใน ARC-AGI-2 อยู่ที่ ประมาณ 66% ในขณะที่ AI ยังคงมีข้อบกพร่องที่เห็นได้ชัด ความแตกต่างเกิดจาก ประสิทธิภาพการใช้ตัวอย่าง ของมนุษย์ที่สูงกว่ามาก Scientific American


"o3 ช็อก" และการถกเถียงเรื่อง "ความอิ่มตัวของเกณฑ์มาตรฐาน"

แม้กระนั้น การตอบโต้จากฝั่ง AI ก็รวดเร็ว ในปลายปี 2024 OpenAI's o3 ได้บันทึกคะแนน 75.7% (การประเมินแบบกึ่งส่วนตัว) / 87.5% (การคำนวณสูง) ใน ARC-AGI-1 ทำให้โลกตื่นเต้น จากนั้นเกิดการถกเถียงว่า "ถึงเวลา AGI แล้วหรือยัง?" และ "ไม่ใช่ มันเป็นเพียง ประสิทธิภาพที่พุ่งสูงขึ้น จากการปรับแต่งการคำนวณสูง" บล็อกเทคโนโลยีของ ARC วิเคราะห์ว่าการคิดแบบสำรวจ (การค้นหาและการสุ่มตัวอย่าง) มีบทบาทสำคัญ แต่ยังชี้ให้เห็นว่าการสร้างงานที่วัด "การทั่วไปที่แท้จริง" ต้องพัฒนาต่อไป ARC Prize


สนามต่อไป: ARC-AGI-3 = วิดีโอเกมใหม่ 100 เกม

ARC Prize Foundation กำลังจะ ก้าวข้ามจากการประเมินแบบ "ไม่มีสถานะ" ในปี 2025 จะมีการเปิดตัวตัวอย่าง เกมพิกเซล 2D ขนาด 100 เกม เพื่อประเมิน "การได้รับทักษะในสภาพแวดล้อม" ที่ต้องการการสำรวจ การวางแผน และความจำ ARC-AGI-3 ในขั้นตอนการทดสอบภายใน มีรายงานที่เข้มงวดว่า "ไม่มี AI ใดสามารถผ่านด่านแรกได้" และได้เปลี่ยนทิศทางไปสู่การวัดความสามารถของเอเจนต์อย่างจริงจัง ในเดือนกรกฎาคมถึงสิงหาคม มีการแข่งขันตัวอย่าง 30 วันร่วมกับ Hugging Face และได้มีการเผยแพร่สรุปผล Live ScienceARC Prize



ปฏิกิริยาจากโซเชียลมีเดียเผยให้เห็น "สามระดับของอุณหภูมิ"

1) ฝ่ายสงสัย: "นั่นไม่ใช่ AI แต่เป็น LLM ใช่ไหม"

ใน Reddit's r/technology มีเสียงมากมายที่กล่าวว่า "ชื่อ 'AI' ทำให้ความคาดหวังเบี่ยงเบน ควรเรียกว่า LLM หรือโมเดลการอนุมาน" บางคนถึงกับตัดสินว่าเป็น "เครื่องทำนายทางสถิติ" ความไม่พอใจต่อคำศัพท์นี้สะท้อนถึงการต่อต้านการตลาดที่ว่า "AGI กำลังมา" Reddit


2) ความรู้สึกของผู้ใช้ทั่วไป: "ใครจะพับผ้าซักล่ะ?"

ในกระทู้เดียวกัน มีความไม่พอใจจากมุมมองของผู้ใช้ทั่วไปว่า "AI ไม่ได้ช่วยลดงานบ้าน" หรือ "แค่ผลิตงานศิลปะจำนวนมากและ แย่งงานอดิเรก" ความแตกต่างระหว่างความตื่นเต้นในวงการวิจัยและความรู้สึกว่ายังไม่มีการแก้ปัญหาในชีวิตประจำวัน Reddit


3) ฝ่ายเทคนิค: การถกเถียงเกี่ยวกับการออกแบบเกณฑ์และการตีความคะแนน

 


ใน Hacker News มีการอภิปรายว่า "ARC-AGI-2 มี ค่าเฉลี่ยของมนุษย์อยู่ที่ 60%" และ " '100%' หมายถึง 'ทุกคำถามมี บางคน แก้ได้'" การตีความการออกแบบการประเมินเป็นหัวข้อที่ถูกพูดถึง คะแนนสูงของ o3 ก็ถูกวิเคราะห์ว่าเป็นเพราะ "เงื่อนไขการคำนวณสูง" และ "ชัยชนะของ การเสริมสร้างการสำรวจ มากกว่าการทั่วไป" Hacker NewsarXiv


ใน X (เดิมคือ Twitter) อินฟลูเอนเซอร์ด้านเทคโนโลยีได้แนะนำบทความของ Live Science พร้อมทั้งแสดงให้เห็นถึงความขัดแย้งที่ว่า **"สิ่งที่ง่ายสำหรับมนุษย์แต่ยากสำหรับ AI"** บัญชีทางการของ ARC ได้ประกาศความสำเร็จของคะแนน o3 พร้อมทั้งมองไปยัง เกณฑ์รุ่นใหม่ X (formerly Twitter)



อะไรที่ทำให้เกิด "ความสามารถในการแก้ปัญหาในไม่กี่วินาที": สามข้อได้เปรียบของมนุษย์

  1. สัญชาตญาณที่ฝังในร่างกาย
    มนุษย์ได้รับความเข้าใจเกี่ยวกับ "การรวมตัว" หรือ "ช่องว่าง" และ "ความสมมาตรในการหมุน" ตั้งแต่วัยเด็กผ่านประสบการณ์ทางกายภาพ งานกริดเช่น ARC ถูกจัดการใน การขยายของฟิสิกส์พื้นฐานและเกสตัลท์

  2. ประสิทธิภาพการใช้ตัวอย่างที่สูงมาก
    จากตัวอย่างเพียงไม่กี่ตัวอย่าง มนุษย์สามารถสร้างและลบสมมุติฐานเกี่ยวกับกฎที่เป็นไปได้ได้ทันที ในทางตรงกันข้าม การเรียนรู้เชิงลึกมีความอ่อนแอในการ คาดการณ์จากการแจกแจงล่วงหน้า

  3. การเรียนรู้แบบเมตาในรูปแบบของการใช้ภาษา
    มนุษย์สามารถอ่าน "เจตนาของผู้ตั้งคำถาม" จากวิธีการนำเสนอหรือข้อความของปัญหา ซึ่งเป็น เบาะแสเมตา ที่อยู่นอกเหนือกฎอย่างเป็นทางการ


ตามที่ Kamrat เน้นย้ำ ปัจจุบัน AI เป็น **"ฉลาดในบางเรื่อง แต่ขาดความสามารถในภาพรวม"** วิธีการเรียนรู้ในสถานการณ์ที่ไม่รู้จักกว้างขวางคือจุดอ่อน Scientific American



จุดที่ต้องพัฒนาในอนาคต: จากภาพนิ่ง→การกระทำ จากข้อความ→สภาพแวดล้อม

จากการเติมเต็มช่องว่างของข้อมูลเข้าและออกที่หยุดนิ่ง ไปสู่ การสำรวจ การวางแผน และความจำในสภาพแวดล้อม การที่ ARC-AGI-3 มาในรูปแบบของวิดีโอเกมคือการ ก้าวข้ามข้อจำกัดของ "การไม่มีสถานะ" ของเกณฑ์มาตรฐาน ในบริบทของการวิจัย การประเมินเอเจนต์ยังเชื่อมโยงกับ ความปลอดภัย


โมเดลที่ไม่สามารถวัดการวางแผนหรือการตรวจสอบตนเองได้ มีแนวโน้มที่จะเกิด การคิดผิดพลาด (การเสริมสร้างภาพหลอน) ทิศทางที่ Live Science/Scientific American แสดงคือการ ประกาศการเปลี่ยนแปลงรุ่นของเกณฑ์ Live ScienceScientific American



การบรรยาย

← กลับไปที่รายการบทความ

contact |  ข้อกำหนดการใช้งาน |  นโยบายความเป็นส่วนตัว |  นโยบายคุกกี้ |  การตั้งค่าคุกกี้

© Copyright ukiyo journal - 日本と世界をつなぐ新しいニュースメディア สงวนลิขสิทธิ์