ข้ามไปที่เนื้อหาหลัก
ukiyo journal - 日本と世界をつなぐ新しいニュースメディア โลโก้
  • บทความทั้งหมด
  • 🗒️ สมัครสมาชิก
  • 🔑 เข้าสู่ระบบ
    • 日本語
    • English
    • 中文
    • Español
    • Français
    • 한국어
    • Deutsch
    • हिंदी
cookie_banner_title

cookie_banner_message นโยบายความเป็นส่วนตัว cookie_banner_and นโยบายคุกกี้ cookie_banner_more_info

การตั้งค่าคุกกี้

cookie_settings_description

essential_cookies

essential_cookies_description

analytics_cookies

analytics_cookies_description

marketing_cookies

marketing_cookies_description

functional_cookies

functional_cookies_description

OpenAI เอาชนะ Grok ของ Elon Musk! การแข่งขัน AI ระดับสูงสุดบน Kaggle: OpenAI o3 ชนะขาดลอย ทำไม Grok4 ถึงล้มเหลว

OpenAI เอาชนะ Grok ของ Elon Musk! การแข่งขัน AI ระดับสูงสุดบน Kaggle: OpenAI o3 ชนะขาดลอย ทำไม Grok4 ถึงล้มเหลว

2025年08月09日 12:11

1) การแข่งขันบนกระดาน "Musk vs Altman" เวทีและกำหนดการ

เหมือนกับแผนที่พลังของบริษัท AI, Elon Musk นำทีม xAI และ Sam Altman นำทีม OpenAI จะเผชิญหน้ากันใน หมากรุก การแข่งขันจัดโดยแพลตฟอร์มใหม่ของ Google Kaggle Game Arena การแข่งขันจัดขึ้นในวันที่ 5-7 สิงหาคม (เวลาสหรัฐ, JST คือ 6-8 สิงหาคม) โดยใช้ระบบ การคัดออกเดี่ยว ผู้เข้าร่วมประกอบด้วย OpenAI (o3, o4-mini), xAI (Grok 4), Google (Gemini 2.5 Pro / Flash), Anthropic (Claude 4 Opus), DeepSeek (R1), Moonshot AI (Kimi k2) ซึ่งเป็นแบรนด์ชั้นนำในปัจจุบันchessdom.comChess.com


2) ภาพรวมของผลการแข่งขัน: o3 ชนะเลิศ, Gemini ได้ที่ 3

ในวันแรก, o3/Grok4/Gemini 2.5 Pro/o4-mini ทั้ง 4 รุ่นชนะและเข้าสู่รอบ 4 ทีมสุดท้าย ในรอบรองชนะเลิศ Grok4 ชนะ Gemini ในการแข่งขันที่ดุเดือดจนถึง Armageddon ขณะที่ o3 ชนะ o4-mini ด้วยคะแนน 4-0 ในรอบชิงชนะเลิศ o3 ชนะ Grok4 ด้วยคะแนน 4-0 คว้าแชมป์แรกไปครอง การแข่งขันชิงที่ 3 Gemini 2.5 Pro ชนะ o4-mini ด้วยคะแนน 3.5-0.5 คว้าเหรียญทองแดงThe Times of Indiachessdom.comChess.com


3) อะไรที่เป็นตัวชี้ขาด: การเสียสละลึกลับของ Grok4 และความแข็งแกร่งในช่วงท้ายของ o3

จากการดูบันทึกเกมในรอบชิงชนะเลิศ Grok4 มีข้อผิดพลาดใหญ่หลายครั้ง เช่น การเสียหมากโดยไม่จำเป็นในช่วงต้นเกม และการที่ควีนเลือกกินเบี้ยที่ได้รับการป้องกันผิดพลาด ในทางกลับกัน o3 สามารถค้นพบ กับดักทางยุทธศาสตร์ แม้ในสถานการณ์ที่ดูเสียเปรียบและไม่ให้โอกาสคู่ต่อสู้ในการ เสมอในช่วงท้ายเกม รายงานหลังเกมแสดงให้เห็นถึงความแตกต่างระหว่าง "ข้อผิดพลาดร้ายแรงในช่วงต้นของ Grok4 ที่ไม่สามารถฟื้นตัวได้" และ "การฟื้นตัวและความแม่นยำของ o3 หลังจากเกิดข้อผิดพลาด"Chess.com


4) ความคิดเห็นจากแชมป์ปัจจุบัน

ในงานนี้ Magnus Carlsen และ Hikaru Nakamura ได้เข้าร่วมเป็นผู้บรรยาย Carlsen ได้กล่าวเสียดสี Grok4 ที่ทำผิดพลาดในรอบชิงชนะเลิศว่า "เหมือนดูเด็กเล่น" ซึ่งทำให้ผู้ชมทั้งหัวเราะและวิจารณ์กันอย่างกว้างขวาง Nakamura ได้ชี้ให้เห็นถึงความซับซ้อนในการทำความเข้าใจช่วงท้ายเกมของ LLMThe Indian Expresschessdom.com


5) ความเห็นจากโซเชียลมีเดีย

 


  • การยกย่องผู้ชนะ: "o3 ได้ 'steamroll' Grok4" (หมายถึง "บดขยี้") บัญชีที่เกี่ยวข้องกับหมากรุกได้สรุปความประทับใจจากการชนะอย่างขาดลอยนี้X (formerly Twitter)

  • การแพร่กระจายข่าว: ผู้มีอิทธิพลด้านเทคโนโลยีได้แพร่กระจายหัวข้อข่าว "OpenAI ชนะ Grok" อย่างรวดเร็วX (formerly Twitter)

  • บรรยากาศในชุมชน: ใน Reddit ของกลุ่ม AI มีเสียงว่า "o3 ได้ 'obliterate' (ทำลายล้าง)" และ "LLM ของ OpenAI นำหน้าในหมากรุก" ขณะที่มีการโต้แย้งอย่างเยือกเย็นว่า "ไม่สามารถวัดความฉลาดรวมของ LLM ด้วยหมากรุกได้" และ "ความแตกต่างในข้อมูลและงบประมาณการสำรวจ"Reddit

  • ความคิดเห็นจากฝ่าย Musk: การโปรโมท "Grok กำลังอยู่ในฟอร์มที่ดี" ระหว่างการแข่งขัน และโพสต์หลังจากนั้นว่า "ความสามารถในการเล่นหมากรุกเป็นเพียงผลข้างเคียง" ก็ได้รับความสนใจ ความแตกต่างระหว่าง ผลการแข่งขัน และ ข้อความประชาสัมพันธ์ อาจเข้าใจได้ในแง่กลยุทธ์แบรนด์ แต่การประเมินความถูกต้องทางเทคนิคเป็นอีกเรื่องX (formerly Twitter)Yahoo!ファイナンス


6) นี่คือการจัดอันดับ "ความสามารถรวมของ AI" หรือไม่?

คำตอบสั้นๆ: ไม่ใช่.
ผลการแข่งขันครั้งนี้แสดงให้เห็นเพียงด้านหนึ่งของ "ความสามารถในการเลือกการเคลื่อนไหวของ LLM ใน เกมข้อมูลที่มองเห็นได้ทั้งหมด (เกมที่ไม่มีข้อมูลซ่อน เช่น หมากรุกหรือโชกิ)" ความลึกของการสำรวจ, ความเอนเอียงของข้อมูลฝึก, วิธีการเล่นเองหรือการวิเคราะห์, การตั้งค่าเวลา สามารถเปลี่ยนลำดับได้ง่าย ความแข็งแกร่งของเครื่องยนต์เฉพาะทาง (เช่น Stockfish) อยู่ในระดับที่แตกต่างกัน และ การเปรียบเทียบระหว่าง LLM มีความหมายมากในฐานะ "การทดสอบความสอดคล้องของการอนุมานของโมเดลภาษา" Kaggle Game Arena เองก็มีแผนที่จะเพิ่มเกมและการตั้งค่าอื่นๆ นอกเหนือจากหมากรุกในอนาคต และจะเผยแพร่ การวัดผลอย่างต่อเนื่องKaggle


7) ความหมายสำหรับกลยุทธ์และแบรนด์

  • OpenAI: มีมุมมองว่า o3 เป็น "รุ่นที่ใกล้จะปลดระวาง" แต่การชนะในครั้งนี้ได้เพิ่มความน่าเชื่อถือให้กับ ความแข็งแกร่งในการอนุมาน ของมัน ฝ่ายผลิตภัณฑ์ต้องพิจารณาว่าจะเน้นจุดเด่นที่สืบทอดมาจาก o3 อย่างไรOfficeChai

  • xAI: Grok4 ดูเหมือนจะ แข็งแกร่งที่สุดในวันแรกถึงรอบรองชนะเลิศ แต่การทำผิดพลาดต่อเนื่องในรอบชิงชนะเลิศได้เปิดเผย ปัญหาด้านความเสถียร การปรับปรุงในด้านนี้ (การทำให้การสำรวจเสถียร, การฝึกใหม่ของฟังก์ชันการประเมิน, การเสริมความแข็งแกร่งของโปรมต์การคิด) จะเป็นจุดสำคัญในการแข่งขันครั้งต่อไปThe Times of Indiachessdom.com

  • Google: Gemini 2.5 Pro ได้ที่ 3 การปรับแต่ง "ความสอดคล้องในการอนุมานของ LLM × การสำรวจ" ของ OpenAI อาจทำให้เกิดการรับรู้ว่า OpenAI นำหน้าไปหนึ่งก้าว แต่จากการแข่งขันที่สูสีในรอบรองชนะเลิศ ยังมีโอกาสที่จะลดช่องว่าง ได้มาก


8) บันทึกทางเทคนิค: ทำไม LLM ถึงสะดุดในช่วงท้ายเกม

LLM เป็น เครื่องสร้างลำดับข้อความ และอาจไม่ถนัดในการ สำรวจมินิแม็กซ์อย่างเข้มงวด หรือ การใช้ประโยชน์จากทฤษฎีและตารางจบเกมอย่างสมบูรณ์ การแสดงออกที่บีบอัดที่มนุษย์เรียกว่า "เส้น" ถูก ประมาณด้วยภาษา และเมื่อมี อุณหภูมิและความน่าจะเป็น เข้ามาเกี่ยวข้อง สถานการณ์ที่มีเส้นทางชนะเพียงเส้นเดียว จะไม่เสถียรมากขึ้น รอบชิงชนะเลิศครั้งนี้แสดงให้เห็นถึงจุดอ่อนนี้ใน Grok4 และ o3 สามารถครอบคลุมด้วยการจัดการข้อยกเว้นและความสามารถในการฟื้นตัว ซึ่งเป็นความเข้าใจที่สมเหตุสมผลChess.com

← กลับไปที่รายการบทความ

contact |  ข้อกำหนดการใช้งาน |  นโยบายความเป็นส่วนตัว |  นโยบายคุกกี้ |  การตั้งค่าคุกกี้

© Copyright ukiyo journal - 日本と世界をつなぐ新しいニュースメディア สงวนลิขสิทธิ์