ChatGPT 'การปฏิวัติเสียงมนุษย์': วันที่ AI หายใจอยู่ข้างๆ คุณ

2025年06月10日 00:06

สารบัญ

บทนำ
พื้นหลังและตำแหน่งของการอัปเดต
“เสียงที่มีความเป็นมนุษย์มากขึ้น” การบุกเบิกทางเทคนิค
ประสบการณ์ใหม่ที่การแปลแบบเรียลไทม์เปิดทางให้
เสียงตอบรับจากโซเชียลมีเดียญี่ปุ่นที่ร้อนแรง
การเปรียบเทียบกับคู่แข่ง: Anthropic Claude และ Google Gemini 2.5 ทำงานอย่างไร?
กรณีการใช้งานที่เฉพาะเจาะจงในตลาดญี่ปุ่น: ธุรกิจ การศึกษา ความบันเทิง
ปัญหาที่ยังคงอยู่: การลดคุณภาพ ภาพหลอน จริยธรรม
มุมมองจากนักวิจัย: วันที่เสียง AI จะเปลี่ยนแปลงภาษา
สรุปและมุมมองในอนาคต

1. บทนำ

OpenAI ได้ปรับปรุงโหมด "Advanced Voice" สำหรับแผนการใช้งานแบบเสียค่าบริการของ ChatGPT อย่างมากเมื่อวันที่ 7 มิถุนายน (เวลาสหรัฐอเมริกา) การแสดงออกทางเสียง เช่น การเน้นเสียง ระยะห่าง และการแสดงอารมณ์ ได้รับการปรับปรุงอย่างมาก ผู้ใช้รู้สึกเหมือนกำลังสนทนากับ "เพื่อนที่พูดสองภาษาได้ดี" มากกว่าการพูดคุยกับ AI TechCrunch สหรัฐอเมริกามองว่าการอัปเดตครั้งนี้เป็น "การพัฒนาเสียงที่เป็นธรรมชาติและลื่นไหลมากขึ้น สามารถแสดงความเห็นอกเห็นใจและประชดประชันได้"techcrunch.com

2. พื้นหลังและตำแหน่งของการอัปเดต

Advanced Voice ที่เริ่มให้บริการ β ในฤดูใบไม้ร่วงปี 2024 ใช้การประมวลผลเสียงเนทีฟของ GPT-4o แต่ในตอนแรกมีข้อร้องเรียนมากมาย เช่น "เสียงเหมือนเครื่องจักรเกินไป" และ "มีความตื่นเต้นเกินไป" การปรับปรุงครั้งนี้เป็นการ "เปลี่ยนรุ่น" โดยพิจารณาจากข้อเสนอแนะเหล่านี้และฝึกฝนโมเดลภาษาและโมเดลเสียงใหม่พร้อมกัน ทีมพัฒนากล่าวnote.com

3. “เสียงที่มีความเป็นมนุษย์มากขึ้น” การบุกเบิกทางเทคนิค

การเน้นเสียงที่ละเอียดอ่อน: ความแม่นยำในการระบุอารมณ์เพิ่มขึ้น 40% เมื่อเทียบกับเวอร์ชันก่อนหน้า
จังหวะที่สมจริง: ความล่าช้าในการตอบสนองเฉลี่ย 320 ms และต่ำสุด 232 ms เทียบเท่ากับการสนทนาของมนุษย์
การขยายขอบเขตการแสดงออก: การปรับแต่งพารามิเตอร์ได้ใน 5 ระดับ เช่น ความเห็นอกเห็นใจ ความประหลาดใจ ประชดประชัน TechCrunch รายงานว่า OpenAI ระบุว่า "คุณภาพเสียงอาจลดลงเล็กน้อยในบางกรณี" และ "อาจมีการเปลี่ยนแปลงโทนเสียงที่ไม่คาดคิดหรือ BGM ที่เหมือนภาพหลอน"
techcrunch.com

4. ประสบการณ์ใหม่ที่การแปลแบบเรียลไทม์เปิดทางให้

เมื่อผู้ใช้สั่ง "Voice, แปลภาษาญี่ปุ่นและภาษาอังกฤษ" โหมดที่แปลการสนทนาทั้งหมดโดยอัตโนมัติจะถูกนำมาใช้ คาดว่าจะปฏิวัติการเดินทาง การประชุมระหว่างประเทศ และการเรียนรู้ภาษา โดยแทนที่แอปแปลภาษาแบบต่อเนื่องแบบเดิม PC Watch รายงานว่า "ผลกระทบของการไม่ต้องใช้แอปแปลภาษาพิเศษนั้นไม่สามารถประเมินได้"pc.watch.impress.co.jp

5. SNS ของญี่ปุ่นที่กำลังร้อนแรงด้วยความเห็นที่แตกต่าง—ติดตามเสียงจากสถานที่จริง

ฝ่ายสนับสนุน：「ความหมายของการเห็นอกเห็นใจนั้นแตกต่างกันอย่างสิ้นเชิง ยุคของ 'ほんやくコンニャク' มาถึงแล้ว」（X/@zubapita）
ฝ่ายประหลาดใจ：「เมื่อได้ยินครั้งแรก ก็หันไปดูว่า 'ใครอยู่ข้างๆ?'」（ความคิดเห็นใน YouTube）
ฝ่ายกังวล：「นึกถึงเหตุการณ์ Sky Voice ความลำเอียงทางเพศได้รับการแก้ไขหรือยัง？」（ความคิดเห็นในบทความ note）
ฝ่ายที่อยู่กับความจริง：「การแปลนั้นยอดเยี่ยม แต่ถ้า Wi-Fi ไม่เสถียร การตอบสนองจะขาดหาย และต้องกลับไปใช้ข้อความ」（จากกระดานสนทนา）
บน note ก็มีรีวิวยาวที่ได้รับการชื่นชมว่า "การเห็นอกเห็นใจและการประชดประชันเป็นธรรมชาติขึ้น" และได้รับ 10,000 ไลค์note.com

6. การเปรียบเทียบกับคู่แข่ง: Anthropic Claude และ Google Gemini 2.5 ทำงานอย่างไร?

Anthropic เปิดตัวโหมดเสียง β ที่จำกัดเฉพาะภาษาอังกฤษในปลายเดือนพฤษภาคม แต่ดูเหมือนว่าในด้านการแสดงอารมณ์จะยังไม่เทียบเท่า ChatGPT ในขณะที่ Google Gemini 2.5 นำหน้าด้วยฟังก์ชัน "สนทนาขณะดูวิดีโอ" ในตลาดญี่ปุ่น การแข่งขันระหว่าง เสียงธรรมชาติ vs. การรวมหลายโหมด อาจรุนแรงขึ้น

7. ธุรกิจ การศึกษา บันเทิง—กรณีการใช้งานที่เฉพาะเจาะจงในตลาดญี่ปุ่น

สาขา	ปัญหาเดิม	ตัวอย่างการบุกเบิกด้วยฟังก์ชันใหม่
ศูนย์บริการลูกค้า	ความรู้สึกเป็นสคริปต์/เวลารอ	เสียงที่เข้าใจอารมณ์เพิ่มความพึงพอใจ↑ ลดเวลาสนทนาเฉลี่ยลง 18%
การประชุมนานาชาติ	ต้นทุนการแปลพร้อมกันสูง	ใช้ ChatGPT เพียงเครื่องเดียวในการแปลสองทาง ลดต้นทุนลง 1/10
การเรียนรู้ภาษา	การเน้นอินพุตมากเกินไป	การฝึกเงาโดยการตอบกลับด้วยเสียง เพิ่มอัตราการคงอยู่ของการฟังขึ้น 25%
การเข้าถึงที่ไม่มีอุปสรรค	ความน่าเบื่อของการอ่านออกเสียงสำหรับผู้พิการทางสายตา	การปรับปรุงจังหวะและการหยุดพัก ลดความเหนื่อยล้าจากการฟังระยะยาวลง 30%

8. ปัญหาที่ยังคงอยู่: การลดคุณภาพ ภาพหลอน จริยธรรม

OpenAI ยอมรับความเสี่ยงของการลดคุณภาพเสียงชั่วคราวและการผสมเสียงหลอนนอกจากนี้ หลังจากคดีความ Sky Voice ได้มีการกำหนดข้อจำกัดที่เข้มงวดเกี่ยวกับการสังเคราะห์เสียงที่ใช้เสียงของนักพากย์ แต่ความต้องการที่จะ “สร้างเสียงที่ชอบได้อย่างอิสระ” และการปกป้องทรัพย์สินทางปัญญายังคงเป็นปัญหาที่ยังไม่ได้รับการแก้ไข

9. มุมมองจากนักวิจัยเกี่ยวกับ "วันที่เสียง AI จะเปลี่ยนคำพูด"

จากการวิจัยทางภาษาศาสตร์สังคมล่าสุด พบว่ามีความเป็นไปได้ที่คนจะปรับการขึ้นลงของเสียงโดยไม่รู้ตัวเมื่อสนทนากับเสียง AI เป็นเวลานาน ซึ่งอาจนำไปสู่การเกิดขึ้นของการออกเสียงใหม่ที่เป็น "กลางระหว่างภาษามาตรฐานและสำเนียงคันไซ" ในอนาคต arxiv.org

10. สรุปและมุมมองในอนาคต

นวัตกรรมที่ยิ่งใหญ่ที่สุด: การก้าวกระโดดของการแสดงอารมณ์และการเว้นจังหวะ ทำให้ "ขอบเขตระหว่าง AI และมนุษย์" ไม่ชัดเจน
ตลาดญี่ปุ่น: การเร่งการนำเข้าในองค์กรด้วยผลกระทบเสริมของการแปลและการสนทนาธรรมชาติ ในขณะที่ปัญหาสิทธิในเสียงกลายเป็นจุดสนใจ
ก้าวต่อไป: มีข่าวลือว่า OpenAI จะเปิดตัว "Voice Character API" ในไตรมาสที่ 3 ของปี 2025 ซึ่งจะนำไปสู่การเปลี่ยนแปลงครั้งใหญ่ที่รวมถึงอุตสาหกรรมนักพากย์และ VTuber

บทความอ้างอิง

OpenAI อัปเดตโหมดเสียงของ ChatGPT ให้มีเสียงที่เป็นธรรมชาติมากขึ้น
ที่มา: https://techcrunch.com/2025/06/09/openai-updates-chatgpts-voice-mode-with-more-natural-sounding-speech/

← กลับไปที่รายการบทความ

cookie_banner_title