วันที่ AI คว้าเหรียญทอง - Gemini Deep Think และภาพอนาคตของคณิตศาสตร์

2025年07月24日 01:25

1. พื้นหลัง――เวที "AI vs. คณิตศาสตร์โอลิมปิก"

การแข่งขันคณิตศาสตร์โอลิมปิกนานาชาติ (IMO) ซึ่งก่อตั้งขึ้นในปี 1959 เป็นที่รู้จักในฐานะการต่อสู้ทางปัญญาที่สูงสุดของมนุษยชาติ เป็นการแข่งขันที่โหดร้ายที่ต้องแก้โจทย์ 6 ข้อภายใน 4.5 ชั่วโมง และมีเพียง 8% แรกเท่านั้นที่ได้รับเหรียญทอง "Gemini Deep Think (GDT)" ซึ่งเป็นโมเดลภาษาขนาดใหญ่ของ DeepMind ได้เข้าร่วมและได้รับ 35 คะแนน (คะแนนเต็ม 42 คะแนน) และได้รับการรับรองเหรียญทองอย่างเป็นทางการ36Kr

2. อะไรคือความหมายของ "อย่างเป็นทางการ"

ในปีที่ผ่านมา AlphaProof/AlphaGeometry ได้แปลงการพิสูจน์เป็นภาษารูปแบบเช่น "Lean" เพื่อรับการประเมิน แต่ GDT อ่านปัญหาโดยตรงในภาษาอังกฤษและสร้างการพิสูจน์ในภาษาธรรมชาติ ซึ่งได้รับการประเมินโดยผู้ตัดสินด้วยเกณฑ์เดียวกับมนุษย์ นี่คือเหตุผลที่ได้รับการรับรองอย่างเป็นทางการ36Kr

3. โหมด Deep Think และการอนุมานแบบขนาน

GDT มีโหมดการอนุมานขยายที่เรียกว่า "Deep Think" ซึ่งสามารถขยายและรวมเส้นทางความคิดจำนวนมากพร้อมกันเพื่อให้ได้ทั้งความแม่นยำและความเร็วในการตอบ

การอนุมานแบบขนาน: สร้างสมมติฐานหลากหลายพร้อมกันและเลือกโดยใช้อัลกอริทึมการตัดสินใจ
การเรียนรู้เสริม: ปรับปรุงตัวเองด้วยคลังคำตอบ IMO ในอดีต
การจัดการเวลา: จัดสรรทรัพยากรการคำนวณแบบไดนามิกภายในข้อจำกัด 4.5 ชั่วโมง

ผลลัพธ์คือสามารถแก้โจทย์ได้ 5 ข้อและได้คะแนน 35 คะแนน36Kr

4. ไฮไลท์ตามโจทย์

ขอบเขตของปัญหา	วิธีแก้ปัญหาของมนุษย์ที่เป็นแบบอย่าง	วิธีการที่โดดเด่นของ GDT
เรขาคณิตวิเคราะห์ (P1)	การแบ่งชุดจุด & การฉาย	การมองเห็นปัญหาการครอบคลุมจุดและจัดประเภทด้วยแนวคิด "แสงแดด"
เรขาคณิต (P2)	จุดช่วยเหลือเส้นรอบและการติดตามมุม	จากจุดศูนย์กลาง → เส้นสัมผัส → จุดศูนย์กลางตั้งฉาก
อสมการฟังก์ชัน (P3)	การวิเคราะห์ค่าแอสิมโทติกสูงสุด	ตั้งชื่อฟังก์ชัน Bonza และแบ่งกรณี พิสูจน์ว่าขอบเขตบน 4 = ขอบเขตล่าง 4
ลำดับจำนวนเต็ม (P4)	ค่าคงที่ + การพิสูจน์โดยขัดแย้ง	ทำให้ค่าคงที่เป็นจุดคงที่ด้วย "จำนวนคู่และเป็นพหุคูณของ 3"
เกมคอมบิเนทอรี (P5)	กลยุทธ์สมมาตรและค่าจำกัด	สร้างกลยุทธ์ชนะที่ค่าจำกัด λ<√2/1 และ λ>√2/1

(※P6 ไม่ได้พยายาม)

5. ความตื่นเต้นและความสงสัยที่แสดงบน SNS

Sundar Pichai (CEO ของ Google)

"จากเงินเป็นทองในเพียงหนึ่งปี – ความก้าวหน้าที่น่าทึ่ง!"X (เดิมชื่อ Twitter)
Google DeepMind อย่างเป็นทางการ

"AI แรกที่ถึงมาตรฐานเหรียญทอง IMO แก้ปัญหาได้ 5/6 ข้อ"X (เดิมชื่อ Twitter)
Hacker News / Reddit มีการถกเถียงกันอย่างร้อนแรงเกี่ยวกับ "การพิสูจน์ในภาษาธรรมชาติที่สมบูรณ์เป็นที่น่าตกใจ" และ "P3 ง่ายกว่าปีที่ผ่านมา"techmeme.com
Elon Musk ตอบสั้นๆ ว่า "Congrats" พร้อมกับเสียดสีว่า "ตารางเวลาที่ AI จะเข้ามาแทนที่งานของมนุษย์ถูกเลื่อนขึ้นอีกครั้ง"The Times of India

ในขณะเดียวกัน OpenAI ก็อ้างว่าโมเดล GPT-Grok ของตนเองก็มีความสามารถเทียบเท่าเหรียญทองอย่างไม่เป็นทางการ และมีการถกเถียงเกี่ยวกับความโปร่งใสของวิธีการให้คะแนน

6. ทำไมถึงมีความหมาย

การทั่วไปของการอนุมาน
คณิตศาสตร์เป็นจุดสูงสุดของการอนุมานภาษาธรรมชาติ และการก้าวกระโดดในที่นี้จะส่งผลต่อกฎหมาย การวิจัยทางวิทยาศาสตร์ และการออกแบบวิศวกรรมที่ต้องการความแม่นยำสูง
AI ในฐานะเครื่องมือ
ผลลัพธ์ในครั้งนี้แสดงถึงความเป็นไปได้ที่ AI จะเป็น "เส้นช่วยเหลือของนักคณิตศาสตร์มนุษย์" โดยมีการประยุกต์ใช้มากมาย เช่น การออกไอเดียการพิสูจน์ การตรวจจับข้อผิดพลาด และการสร้างปัญหาสำหรับการฝึก
การลดช่องว่างทางการศึกษา
หากมีเครื่องมือฟรี/ต้นทุนต่ำที่สามารถสนับสนุนความเข้าใจในปัญหาระดับ IMO ได้ ก็อาจช่วยลดช่องว่างทางการศึกษาในคณิตศาสตร์

7. ปัญหาที่ยังคงอยู่

ต้นทุนการตรวจสอบ: การพิสูจน์ในภาษาธรรมชาติแก้ไขข้อผิดพลาดได้ยาก จำเป็นต้องมีสะพานเชื่อมกับการทำรูปแบบ (เช่น Lean)
ข้อสงสัยเรื่องการรั่วไหลของข้อมูล: จะหลีกเลี่ยงการเรียนรู้เกินจากปัญหาและตัวอย่างคำตอบในอดีตได้อย่างไร
ข้อถกเถียงเรื่อง "การนำเข้าข้อมูลขนาดใหญ่": มีการวิจารณ์ว่าการนำเข้าข้อมูลขนาดใหญ่อาจทำให้ความยุติธรรมลดลง

8. แผนงานในอนาคต

DeepMind ได้ประกาศว่าจะให้ GDT แก่นักวิจัยเท่านั้น และจะรวมโมดูลการอนุมานใน Gemini Ultra รุ่นถัดไป OpenAI และ Anthropic ก็กำลังเตรียมความท้าทายที่คล้ายกัน และมีการคาดการณ์ว่า "AI คณิตศาสตร์โอลิมปิก" จะกลายเป็นการแข่งขันประจำ

บทความอ้างอิง

AI Gemini Deep Think ของ Google ได้รับเหรียญทองคณิตศาสตร์โอลิมปิกอย่างเป็นทางการ - OSCHINA
ที่มา: https://www.oschina.net/news/361739

วันที่ AI คว้าเหรียญทอง - Gemini Deep Think และภาพอนาคตของคณิตศาสตร์

1. พื้นหลัง――เวที "AI vs. คณิตศาสตร์โอลิมปิก"

2. อะไรคือความหมายของ "อย่างเป็นทางการ"

3. โหมด Deep Think และการอนุมานแบบขนาน

4. ไฮไลท์ตามโจทย์

5. ความตื่นเต้นและความสงสัยที่แสดงบน SNS

6. ทำไมถึงมีความหมาย

7. ปัญหาที่ยังคงอยู่

8. แผนงานในอนาคต

การปฏิวัติใหม่ของ OpenAI: ตัวแทน ChatGPT ที่จะเปลี่ยนแปลงธุรกิจของคุณ

Google AI โหมดพัฒนา! "การค้นหา = การทำงานแทน" - Google AI โหมดพัฒนา Deep Search และโทรศัพท์อัตโนมัติอย่างก้าวกระโดด

OpenAI เอาชนะ Grok ของ Elon Musk! การแข่งขัน AI ระดับสูงสุดบน Kaggle: OpenAI o3 ชนะขาดลอย ทำไม Grok4 ถึงล้มเหลว

AI依存ทำให้สูญเสียปัญญาหรือปลดปล่อยปัญญา ─ MIT เปิดเผยตัวตนของ "หนี้สินทางปัญญา"

การออกแบบแสงที่ใช้เวลาหลายเดือนจะกลายเป็น "2 วินาที"? ความตื่นตะลึงของ AI × เมทาเซอร์เฟซ

cookie_banner_title

1. พื้นหลัง――เวที "AI vs. คณิตศาสตร์โอลิมปิก"

2. อะไรคือความหมายของ "อย่างเป็นทางการ"

3. โหมด Deep Think และการอนุมานแบบขนาน

4. ไฮไลท์ตามโจทย์

5. ความตื่นเต้นและความสงสัยที่แสดงบน SNS

6. ทำไมถึงมีความหมาย

7. ปัญหาที่ยังคงอยู่

8. แผนงานในอนาคต

การปฏิวัติใหม่ของ OpenAI: ตัวแทน ChatGPT ที่จะเปลี่ยนแปลงธุรกิจของคุณ

Google AI โหมดพัฒนา! "การค้นหา = การทำงานแทน" - Google AI โหมดพัฒนา Deep Search และโทรศัพท์อัตโนมัติอย่างก้าวกระโดด

OpenAI เอาชนะ Grok ของ Elon Musk! การแข่งขัน AI ระดับสูงสุดบน Kaggle: OpenAI o3 ชนะขาดลอย ทำไม Grok4 ถึงล้มเหลว

AI依存ทำให้สูญเสียปัญญาหรือปลดปล่อยปัญญา ─ MIT เปิดเผยตัวตนของ "หนี้สินทางปัญญา"

การออกแบบแสงที่ใช้เวลาหลายเดือนจะกลายเป็น "2 วินาที"? ความตื่นตะลึงของ AI × เมทาเซอร์เฟซ