ข้ามไปที่เนื้อหาหลัก
ukiyo journal - 日本と世界をつなぐ新しいニュースメディア โลโก้
  • บทความทั้งหมด
  • 🗒️ สมัครสมาชิก
  • 🔑 เข้าสู่ระบบ
    • 日本語
    • English
    • 中文
    • Español
    • Français
    • 한국어
    • Deutsch
    • हिंदी
cookie_banner_title

cookie_banner_message นโยบายความเป็นส่วนตัว cookie_banner_and นโยบายคุกกี้ cookie_banner_more_info

การตั้งค่าคุกกี้

cookie_settings_description

essential_cookies

essential_cookies_description

analytics_cookies

analytics_cookies_description

marketing_cookies

marketing_cookies_description

functional_cookies

functional_cookies_description

ChatGPT-5 ผิดหวังจริงหรือ? ── สิ่งที่รุ่นเก่าไม่สามารถทำได้ / ตรวจสอบจุดที่บริษัทอื่นยังคงเหนือกว่า

ChatGPT-5 ผิดหวังจริงหรือ? ── สิ่งที่รุ่นเก่าไม่สามารถทำได้ / ตรวจสอบจุดที่บริษัทอื่นยังคงเหนือกว่า

2025年08月12日 23:21

1. เริ่มต้นด้วยการจัดระเบียบข้อโต้แย้ง "ไม่เป็นไปตามคาด"

  • ตั้งแต่หลังการประกาศก็มีความคิดเห็นที่หลากหลายในโซเชียลมีเดียและสื่อ "ความคาดหวังของผู้ใช้สูงเกินไป" "การใช้งานจริงได้รับการปรับปรุงแต่ไม่ใช่การปฏิวัติ" เป็นแนวโน้มที่ปรากฏ Axios ได้ชี้ให้เห็นถึงรายงานข้อผิดพลาดทางคณิตศาสตร์และภูมิศาสตร์ ความไม่พอใจต่อความล่าช้า และความแตกต่างจากคำกล่าวที่ว่าเป็นระดับ "Ph.D." Axios

  • บรรยากาศเช่นนี้มีพื้นฐานมาจากการเปลี่ยนทิศทางของ OpenAI ที่เน้นการรวมโมเดลและความปลอดภัยและการใช้งานจริงซึ่งไม่ตรงกับผู้รับที่คาดหวังการ "ก้าวกระโดด" ที่น่าตื่นเต้น OpenAI



2. สิ่งที่ GPT-5 ทำได้ที่โมเดลเก่าไม่สามารถทำได้

2-1. ระบบบูรณาการ: การเพิ่มประสิทธิภาพ "ปริมาณการคิด" และเส้นทางโดยอัตโนมัติ

GPT-5 เป็นโมเดลตอบสนองน้ำหนักเบา + โมเดลการอนุมานลึก (GPT-5 Thinking/Pro) + เราเตอร์เรียลไทม์ในรูปแบบ "บูรณาการ" ตามคำสั่งของผู้ใช้และความยากของงาน สามารถเปลี่ยนแปลงได้ตั้งแต่การตอบสนองที่รวดเร็วไปจนถึงการคิดอย่างลึกซึ้ง นี่คือประสบการณ์ที่ "งานที่เสร็จเร็วจะเร็ว ปัญหาที่ยากจะคิดอย่างลึกซึ้ง" เป็นค่าเริ่มต้น OpenAI



2-2. การเขียนโค้ดและงานแบบเอเจนต์ที่ได้รับการเสริมสร้างอย่างมาก

ในการประกาศสำหรับนักพัฒนาSWE-bench Verified 74.9%และความแข็งแกร่งต่อการเชื่อมโยงเครื่องมือยาว (รวมถึงแบบขนาน)ได้รับการแสดงverbosity และ reasoning_effortพารามิเตอร์ใหม่ที่ควบคุมความยาวของคำตอบและปริมาณการคิด รวมถึง **"เครื่องมือที่เรียกใช้ได้ด้วยข้อความธรรมดา"** ก็ถูกเพิ่มเข้ามาด้วย ความสามารถในการ "ทำงานให้เสร็จ" ในการปฏิบัติงานได้เพิ่มขึ้น OpenAI



2-3. ประสบการณ์การแชท: การตั้งค่าเอกลักษณ์และวิวัฒนาการของเสียง

Fortune ได้แนะนำการตั้งค่าเอกลักษณ์ที่ปรับแต่งได้ เช่น นักประชด (Cynic) / หุ่นยนต์ (Robot) / ผู้ฟังที่ดี (Listener) / เนิร์ด (Nerd) และการเสริมสร้างประสบการณ์เสียง การปรับโทนเสียงได้ง่ายขึ้นและการสลับสไตล์การสนทนาตามการใช้งานก็สะดวกขึ้น Fortune



2-4. การขยายในพื้นที่การปฏิบัติงาน (การใช้งานในองค์กร)

OpenAI เน้นการยกระดับความแม่นยำ ความเร็ว และการอนุมานในงานหลักๆ เช่นการเขียน การสร้าง การค้นคว้า โดยคำนึงถึงการทำงานอัตโนมัติและการทำงานร่วมกันในกระบวนการทำงานขององค์กร และยกย่องว่าเป็น **"ยุคใหม่ของการทำงาน"** OpenAI



3. ทำไมยังมีความไม่พอใจ?──ช่องว่างของการตอบสนองเริ่มต้น

  • ความคาดหวังต่อการก้าวกระโดดที่น่าทึ่ง แต่กลับดูเหมือนเป็น **"การอัปเดตขนาดใหญ่"**

  • ความสับสนและรายงานข้อบกพร่องเกี่ยวกับพฤติกรรมของเราเตอร์และความแม่นยำบางส่วน

  • ผู้ใช้ที่ไวต่อความแตกต่างของ **"อุณหภูมิ" และ "ความเห็นอกเห็นใจ"** เมื่อเปรียบเทียบกับโมเดลเก่า (เช่น 4o) ทั้งหมดนี้เป็นส่วนหนึ่งของ
    "การปรับตัวและการปรับแต่ง" ในช่วงเริ่มต้นของการเปิดตัว
    OpenAI แสดงท่าทีที่จะปรับปรุงต่อไป Axios



4. จุดที่บริษัทอื่นยังคงเหนือกว่า (ดูตามการใช้งาน)4-1. การคิดอย่างลึกซึ้งที่ผู้ใช้สามารถควบคุมได้: Anthropic Claude

สามารถเปิด/ปิด
    Extended Thinking
  • และนักพัฒนาสามารถตั้งค่า **"งบประมาณการคิด (thinking budget)"

    ในงานที่ซับซ้อนยิ่งเพิ่มโทเค็นการคิดมากขึ้น ความแม่นยำก็ยิ่งดีขึ้นตามลำดับ** ความแข็งแกร่งยังแสดงใน SWE-bench และ TAU-bench Anthropic+1

  • การอัปเดตหน่วยความจำที่ทำให้สามารถค้นหาและอ้างอิงการสนทนาในอดีตก็กำลังพัฒนา (ให้ความสำคัญกับ Max/Team/Enterprise) ซึ่งสะดวกสำหรับการเริ่มโครงการระยะยาวใหม่ The Verge

การใช้งานที่แยกแยะได้:

  • คณิตศาสตร์ วิทยาศาสตร์ การตรวจสอบการออกแบบ ฯลฯสถานการณ์ที่ต้องการเพิ่ม "เวลาในการคิด" เพื่อความแม่นยำ

  • ทีมที่ให้ความสำคัญกับความปลอดภัยและการปฏิบัติตามนโยบาย Anthropic



4-2. การวิจัย การบูรณาการ บริบทยาว: Google Gemini

  • 2.0 Pro/Flash/Flash-Liteมีการแยกแยะการใช้งานตามความเร็ว ต้นทุน ความสามารถอย่างชัดเจน บริบทยาวระดับ 2M โทเค็น การค้นหาและการดำเนินการโค้ด รวมถึงการเชื่อมโยงเครื่องมือที่เป็นพื้นฐานอย่างเป็นทางการ blog.google

  • การวิจัยเชิงลึก และ Canvas (พื้นที่ทำงานที่มีการสร้างและแสดงตัวอย่างโค้ด) และการเสริมสร้าง "การคิด" ของ **2.5 Pro (ทดลอง)** ก็มีการพัฒนา การให้บริการ AI Pro สำหรับการศึกษาในญี่ปุ่นเป็นอีกหนึ่งคุณลักษณะของการเสริมสร้างระบบนิเวศ Geminiblog.google

การใช้งานที่แยกแยะได้:

  • การวิจัย การวางแผน การจัดทำเอกสารที่เชื่อมโยงกับแอปของ Google (YouTube/Maps/Drive เป็นต้น)

  • การวิเคราะห์เอกสารจำนวนมาก และการจัดการโครงการระยะยาว



4-3. การโฮสต์เอง/อิสระในการปรับแต่ง: Meta Llama (แบบเปิด)

  • Llama 3.1 (สูงสุด 405B)ถูกกล่าวว่าเป็นระดับ "เปิดที่มีศักยภาพสูงที่สุด" และLlama 3.2ได้ขยายการรองรับวิสัยทัศน์และการเพิ่มประสิทธิภาพขอบ เหมาะสำหรับบริษัทที่ต้องการ "การดำเนินงานด้วยตัวเอง" ด้วยข้อกำหนดด้านต้นทุนและความเป็นส่วนตัว The VergeAI Meta+1

การใช้งานที่แยกแยะได้:

  • การดำเนินงานในสถานที่/ภายใต้ข้อบังคับเฉพาะ การปรับแต่งอย่างละเอียด และการเพิ่มประสิทธิ

← กลับไปที่รายการบทความ

contact |  ข้อกำหนดการใช้งาน |  นโยบายความเป็นส่วนตัว |  นโยบายคุกกี้ |  การตั้งค่าคุกกี้

© Copyright ukiyo journal - 日本と世界をつなぐ新しいニュースメディア สงวนลิขสิทธิ์