การปฏิวัติเกรดด้วย AI? ความเปลี่ยนแปลงในใบเกรดของมหาวิทยาลัย ความน่าเชื่อถือในการประเมินที่ ChatGPT เปลี่ยนแปลง

การปฏิวัติเกรดด้วย AI? ความเปลี่ยนแปลงในใบเกรดของมหาวิทยาลัย ความน่าเชื่อถือในการประเมินที่ ChatGPT เปลี่ยนแปลง

หลังจาก ChatGPT, เกรด "A" ของมหาวิทยาลัยหมายถึงอะไร

เกรด "A" ที่ปรากฏในใบแสดงผลการเรียนของมหาวิทยาลัยเป็นเวลานานเป็นเครื่องหมายของความยอดเยี่ยม สำหรับนักศึกษา มันเป็นอาวุธในการสมัครเรียนต่อหรือหางาน และสำหรับมหาวิทยาลัย มันเป็นตัวเลขที่แสดงถึงผลลัพธ์ทางการศึกษา สำหรับบริษัท มันเป็นตัวชี้วัดที่สะดวกในการคัดกรองผู้สมัคร

อย่างไรก็ตาม เมื่อ AI ที่สามารถสร้างเนื้อหาได้เข้ามาอยู่บนโต๊ะของนักศึกษาอย่างถาวร ความหมายของเกรด "A" เริ่มสั่นคลอน การประเมินที่สูงแสดงถึงความเข้าใจหรือความคิดของนักศึกษาเองจริงหรือไม่ หรือเป็นเพียงการประเมินเนื้อหาที่ AI จัดเตรียมให้ เช่น บทความที่ AI เขียน โค้ดที่ AI สร้าง หรือผลงานที่ AI ขัดเกลา

การวิจัยจาก UC Berkeley ที่นำเสนอโดยสื่อเทคโนโลยีของเยอรมัน Blogspan ได้ชี้ให้เห็นถึงปัญหานี้ด้วยตัวเลขที่ค่อนข้างชัดเจน วัตถุประสงค์ของการวิจัยคือข้อมูลผลการเรียนจากมหาวิทยาลัยวิจัยขนาดใหญ่ในรัฐเท็กซัส สหรัฐอเมริกา ซึ่งมีการวิเคราะห์ข้อมูลผลการเรียนมากกว่า 500,000 รายการจาก 319 หลักสูตรใน 84 สาขาวิชาตั้งแต่ภาคการศึกษาฤดูใบไม้ร่วงปี 2018 ถึง 2025

จุดสนใจของการวิจัยคือการเปลี่ยนแปลงของการกระจายเกรดในมหาวิทยาลัยหลังจากการเปิดตัว ChatGPT ในเดือนพฤศจิกายน 2022 นักวิจัยไม่ได้มองแค่ว่า "นักศึกษาในช่วงหลังมีผลการเรียนดีขึ้น" แต่ยังให้ความสนใจกับเนื้อหาของงานในแต่ละวิชา โดยแยกวิชาที่มีงานเขียน รายงาน และการเขียนโปรแกรมที่ AI ถนัดออกจากวิชาที่มีการนำเสนอปากเปล่า การปฏิบัติ และการสอบที่ AI ไม่สามารถทดแทนได้ และเปรียบเทียบการเปลี่ยนแปลงของเกรดก่อนและหลังการเปิดตัว ChatGPT

ผลการวิจัยพบว่า ในวิชาที่มีงานที่ AI ใช้ได้ง่าย อัตราการให้เกรด A เพิ่มขึ้น 13 จุด ซึ่งคิดเป็นการเพิ่มขึ้นประมาณ 30% เมื่อเทียบกับระดับในปี 2022 ค่า GPA เฉลี่ยก็เพิ่มขึ้น 0.12 จุด และการกระจายเกรดถูกบีบอัดไปยังระดับสูงขึ้น กล่าวคือ แทนที่จะดีขึ้นเล็กน้อยทั่วทั้งกระดาน กลุ่มที่เคยได้ A- หรือ B+ ถูกดันขึ้นไปยังระดับ A

สิ่งสำคัญที่ต้องสังเกตคือ การวิจัยไม่ได้สรุปว่า "นักศึกษาที่ใช้ AI ทุกคนโกง" AI ที่สามารถสร้างเนื้อหาได้อาจเป็นเครื่องมือช่วยในการเรียนรู้ เช่น การจัดโครงสร้างบทความ ขยายไอเดีย ค้นหาข้อผิดพลาดในโค้ด หรือช่วยในการอ่านเอกสารอ้างอิง ปัญหาอยู่ที่เส้นแบ่งระหว่างการสนับสนุนและการทดแทนที่มองเห็นได้ยาก

ตัวอย่างเช่น หากนักศึกษาให้ AI จัดระเบียบประเด็นที่คิดขึ้นเองและใช้เป็นพื้นฐานในการพิจารณาใหม่ AI ก็ถือว่าเป็นการช่วยในการเรียนรู้ แต่ถ้านักศึกษาคัดลอกงานที่ได้รับมอบหมายและส่งบทความที่ AI ผลิตขึ้นเกือบทั้งหมด การประเมินนั้นใกล้เคียงกับคุณภาพของการผลิตของ AI มากกว่าความเข้าใจของนักศึกษา การวิจัยครั้งนี้ให้ความสำคัญกับความเป็นไปได้ในกรณีหลังนี้

เบาะแสที่สำคัญคือสัดส่วนของการบ้านและงานที่นำกลับบ้าน หากการเพิ่มขึ้นของเกรดเกิดจากการพัฒนาความเข้าใจของนักศึกษาอย่างแท้จริง เกรดควรจะเพิ่มขึ้นในวิชาที่เน้นการสอบและการประเมินแบบเผชิญหน้าด้วย แต่ในความเป็นจริง การเพิ่มขึ้นของเกรดมักจะกระจุกตัวอยู่ในวิชาที่มีสัดส่วนของการบ้านและงานที่นำกลับบ้านสูง ซึ่งเป็นสถานที่ที่ AI อาจทำงานแทนนักศึกษาได้โดยที่อาจารย์ไม่สามารถเห็นกระบวนการทำงานของนักศึกษาได้โดยตรง

นอกจากนี้ ในการตรวจสอบโดยใช้สัดส่วนของการนำเสนอปากเปล่าที่ AI ไม่สามารถช่วยได้มาก การเพิ่มขึ้นของเกรดแบบเดียวกันไม่ได้รับการยืนยัน ซึ่งยากที่จะอธิบายด้วยการเปลี่ยนแปลงของยุคสมัยหรือการพัฒนาความยอดเยี่ยมของนักศึกษาโดยรวม นักวิจัยชี้ให้เห็นถึงความเป็นไปได้ที่ AI กำลังสร้างประเภทใหม่ของการเพิ่มเกรดที่ "เพิ่มเกรดแต่ไม่จำเป็นต้องเพิ่มความสามารถ"

แน่นอนว่า การเพิ่มเกรดในมหาวิทยาลัยไม่ใช่เรื่องใหม่ ในมหาวิทยาลัยชั้นนำของสหรัฐอเมริกา อัตราการให้เกรด A เพิ่มขึ้นอย่างต่อเนื่องมานานแล้ว โครงสร้างที่ทำให้คณาจารย์และมหาวิทยาลัยให้เกรดอย่างเข้มงวดได้ยากขึ้นมีอยู่แล้ว เช่น ความพึงพอใจของนักศึกษา การประเมินการสอน การแข่งขันระหว่างมหาวิทยาลัย และการพิจารณาตลาดงาน

แต่การเพิ่มเกรดโดย AI มีลักษณะที่แตกต่างจากปัญหาเดิม การเพิ่มเกรดเดิมเกิดจากเกณฑ์การให้คะแนนของคณาจารย์หรือระบบของมหาวิทยาลัย แต่ AI ที่สามารถสร้างเนื้อหาได้เปลี่ยนแปลงผลงานที่ส่งก่อนที่จะได้รับการให้คะแนน แม้ว่าคณาจารย์จะไม่เปลี่ยนแปลงเกณฑ์ แต่ความสมบูรณ์ของรายงานหรือโค้ดที่นักศึกษาส่งก็ถูกยกระดับขึ้นอย่างเดียว รูปลักษณ์ดูดีขึ้นและการประเมินก็สูงขึ้น แต่ไม่ทราบว่าความคิดหรือการทดลองที่อยู่เบื้องหลังนั้นเป็นของนักศึกษาหรือไม่

ประเด็นนี้ได้รับการตอบรับอย่างมากในชุมชนผู้เชี่ยวชาญและบนโซเชียลมีเดีย บน LinkedIn มีการรับรู้จากผู้ที่เกี่ยวข้องกับการศึกษาและบุคคลในองค์กรว่า "ไม่ใช่เรื่องน่าประหลาดใจ" การที่ AI สามารถใช้งานได้อย่างกว้างขวางทำให้ความสมบูรณ์ของรายงานและงานเขียนโปรแกรมเพิ่มขึ้นเป็นเรื่องที่คาดการณ์ได้ ในขณะเดียวกัน มีเสียงที่บอกว่าปัญหาไม่ได้อยู่ที่การโกง แต่เป็นการที่ไม่ทราบว่ามหาวิทยาลัยกำลังประเมินอะไร

สิ่งที่น่าประทับใจเป็นพิเศษคือการตอบรับที่ว่า "ความสามารถในการใช้ AI ก็สำคัญ แต่การเรียนรู้ก็สำคัญเช่นกัน ไม่ควรสับสนทั้งสองอย่าง" นี่เป็นมุมมองที่สำคัญมากในการพิจารณาการศึกษาในยุค AI การใช้ AI จะเป็นความสามารถที่จำเป็นในสังคมต่อไป แต่ความสามารถในการใช้ AI เพื่อจัดระเบียบผลงานและความสามารถในการเข้าใจลึกซึ้ง อธิบายด้วยคำพูดของตนเอง และตอบสนองต่อปัญหาที่ไม่รู้จักไม่ใช่สิ่งเดียวกัน

บนโซเชียลมีเดีย มีความคิดเห็นว่ามหาวิทยาลัยไม่ควรแค่ห้ามใช้ AI การใช้เครื่องมือตรวจจับ AI เพื่อตรวจสอบนักศึกษา การกลับไปใช้การเขียนด้วยมือทั้งหมด หรือการจัดการสอบทั้งหมดให้มีผู้ควบคุมดูแลเป็นวิธีที่ดูเข้าใจง่าย แต่ในความเป็นจริง การกำจัดการใช้ AI อย่างสมบูรณ์เป็นเรื่องยาก นอกจากนี้ การศึกษาโดยไม่ให้ใช้ AI เลยก็ไม่จำเป็นต้องพัฒนาความสามารถในการทำงานจริงหลังจากเข้าสู่สังคม

ดังนั้น การเปลี่ยนแปลงการออกแบบการประเมินเองจึงเป็นประเด็นที่กำลังเกิดขึ้น ตัวอย่างเช่น การประเมินไม่เพียงแค่ผลงานที่ส่ง แต่ยังรวมถึงกระบวนการทำงาน ให้นักศึกษาอธิบายว่าใช้ AI ในขั้นตอนไหน พิจารณาข้อเสนอของ AI อย่างไร และเลือกใช้หรือปรับแก้ไขตรงไหน การสอบปากเปล่าสั้นๆ หลังจากส่งรายงาน เพื่อให้อธิบายประเด็นของตนเองในที่นั้น หากเป็นงานเขียนโปรแกรม ก็ถามถึงการตัดสินใจในการออกแบบและการจัดการข้อผิดพลาดในประวัติการทำงาน วิธีการเหล่านี้ทำให้เห็นได้ง่ายขึ้นว่านักศึกษาเข้าใจผลงานนั้นจริงหรือไม่ มากกว่าการใช้ AI หรือไม่

สิ่งที่ควรหลีกเลี่ยงที่สุดในสถานศึกษา คือการหนีไปสู่การแบ่งแยกง่ายๆ ว่า "ใช้ AI คือการโกง" หรือ "ไม่ใช้คือถูกต้อง" เพราะนักศึกษาได้ใช้ AI แล้ว การกำหนดขอบเขตที่ยอมรับได้และสิ่งที่เป็นการทดแทนต้องชัดเจน มิฉะนั้นทั้งนักศึกษาและคณาจารย์จะไม่สามารถตัดสินได้

ตัวอย่างเช่น อนุญาตให้ตรวจสอบคำผิดในบทความ แต่ไม่ให้สร้างแนวคิด ใช้ AI ในการคิดไอเดียได้ แต่ต้องสร้างข้อเสนอและโครงสร้างสุดท้ายด้วยตนเอง ในการเขียนโปรแกรม อนุญาตให้ช่วยในการดีบักได้ แต่ไม่ให้มอบหมายการออกแบบอัลกอริธึมหลักทั้งหมด กฎเหล่านี้ควรแตกต่างกันไปตามวิชา และดังนั้นจึงจำเป็นต้องระบุในคำอธิบายหลักสูตรหรือคำอธิบายงาน

ปัญหานี้ไม่ได้จำกัดอยู่แค่ในมหาวิทยาลัยเท่านั้น แต่ยังส่งผลต่อการจ้างงานของบริษัทด้วย หาก GPA หรือใบแสดงผลการเรียนสะท้อนถึงการประเมินผลงานที่ AI จัดเตรียมแทนความสามารถของนักศึกษาเอง บริษัทจะเชื่อถือเกรดยากขึ้น ดังนั้น การสัมภาษณ์ การทดสอบทักษะ การประเมินผลงานในพอร์ตโฟลิโอ และประสบการณ์จากการฝึกงานจะได้รับความสำคัญมากขึ้น

สำหรับนักศึกษา นี่ไม่ใช่แค่เรื่องของ "การทำคะแนนสูงโดยไม่ต้องพยายาม" หากคุ้นเคยกับสภาพแวดล้อมที่ AI คิดแทน จะทำให้ประสบการณ์ในการพิจารณาด้วยตนเอง การล้มเหลว และการแก้ไขลดลง การเรียนรู้ต้องการความพยายามในระดับหนึ่ง การตีความบทความที่ไม่เข้าใจ การต่อสู้กับโค้ดที่ไม่ทำงาน การแปลงความคิดที่อธิบายไม่ได้ให้เป็นคำพูด กระบวนการเหล่านี้ทำให้ความรู้กลายเป็นของตนเอง

AI ที่สามารถสร้างเนื้อหาได้สามารถย่อความพยายามเหล่านั้นได้ การย่อความพยายามไม่ใช่เรื่องเลวร้าย แต่หากลดความพยายามทั้งหมด จะเหลือเพียงเกรดและความสามารถจะไม่พัฒนา การวิจัยครั้งนี้แสดงถึงความเสี่ยงนั้น ใบแสดงผลการเรียนของมหาวิทยาลัยดูดีขึ้น แต่ความดูดีนั้นไม่ได้หมายถึงการเรียนรู้ที่ลึกซึ้งเสมอไป

การอภิปรายนี้ไม่เกี่ยวข้องเฉพาะกับมหาวิทยาลัยหรือวิทยาลัยเฉพาะทางในญี่ปุ่นเท่านั้น แต่ยังรวมถึงโรงเรียนมัธยมด้วย มีหลายสถานการณ์ที่ AI ที่สามารถสร้างเนื้อหาได้สามารถเข้ามาแทรกแซงได้ เช่น งานรายงาน บทความสั้น การฝึกเขียนโปรแกรม การเรียนรู้เชิงสำรวจ การสร้างสื่อการนำเสนอ คุณภาพของการสร้างเนื้อหาในภาษาญี่ปุ่นก็กำลังพัฒนาอย่างรวดเร็ว และในอนาคต การแยกแยะระหว่าง "บทความที่นักศึกษาเขียน" กับ "บทความที่ AI จัดเตรียม" จะยากขึ้น

ดังนั้น สถาบันการศึกษาจำเป็นต้องเปลี่ยนแนวคิดการประเมินให้เร็วขึ้น ไม่เพียงแค่ให้คะแนนผลงานที่เสร็จสมบูรณ์ แต่ยังประเมินกระบวนการ ความสามารถในการอธิบาย ความสามารถในการประยุกต์ใช้ และความเข้าใจในระหว่างการสนทนา ไม่ควรซ่อนการใช้ AI แต่ควรบันทึกวิธีการใช้ พัฒนาความสามารถในการสงสัย ตรวจสอบ และปฏิเสธคำตอบที่ AI ให้เมื่อจำเป็น สิ่งเหล่านี้คือความสามารถในการเรียนรู้ใหม่ในยุค AI

ในที่สุด สิ่งที่ถูกถามไม่ใช่แค่ว่า "นักศึกษาใช้ AI หรือไม่" แต่เป็นคำถามที่ลึกซึ้งกว่า เช่น "มหาวิทยาลัยเรียกอะไรว่าเป็นความสามารถในการเรียนรู้" "เกรดพิสูจน์อะไร" และ "สังคมเชื่อถือความสามารถใด"

ในมหาวิทยาลัยหลังจาก ChatGPT แม้ว่าจำนวนเกรด A จะเพิ่มขึ้น ก็ไม่สามารถกล่าวได้ว่าการศึกษาประสบความสำเร็จ ยิ่งเกรด A เพิ่มขึ้นมากเท่าไร ยิ่งต้องถามอย่างเข้มงวดว่าเกรด A นั้นวัดอะไร ความสามารถในการใช้ AI เป็นสิ่งสำคัญ แต่ไม่ควรสับสนผลงานที่ AI ทำแทนกับความเข้าใจของนักศึกษาเอง

การประเมินของมหาวิทยาลัยกำลังอยู่ที่จุดแบ่งแยกใหญ่ จะห้ามใช้ AI และพยายามกลับไปสู่อดีต หรือจะปล่อยให้ AI ทำให้ความหมายของเกรดว่างเปล่า หรือจะสร้างการประเมินใหม่ที่ทำให้เห็นความคิดของนักศึกษาเองในขณะที่ยอมรับการใช้ AI

เพื่อให้ "A" ยังคงเป็นสัญลักษณ์ของความยอดเยี่ยมอย่างแท้จริง การให้เกรดต้องได้รับการออกแบบใหม่ให้สอดคล้องกับยุค AI


ที่มา URL

Blogspan「Seit ChatGPT regnet es Einsen: Was eine Studie über die Noten-Inflation an der Uni herausfand」
จุดเริ่มต้นของบทความ แนะนำการเพิ่มเกรดในมหาวิทยาลัยหลังจาก ChatGPT โดยอ้างอิงจากการวิจัยของ UC Berkeley
https://www.blogspan.net/ki-noten-inflation-studie-uni-chatgpt/

UC Berkeley Center for Studies in Higher Education「Artificial Intelligence and Grade Inflation」
หน้าแนะนำการวิจัยอย่างเป็นทางการ ตรวจสอบผู้เขียน วันที่เผยแพร่ บทสรุปการวิจัย และการเพิ่มขึ้นของเกรด A 13 จุด
https://cshe.berkeley.edu/publications/artificial-intelligence-and-grade-inflation-cshe-higher-education-working-paper-series

Igor Chirikov「Artificial Intelligence and Grade Inflation」PDF
เอกสารการทำงานต้นฉบับ ตรวจสอบวัตถุประสงค์การวิเคราะห์ วิธีการวิจัย การกระจายเกรด ความสัมพันธ์กับสัดส่วนของการบ้าน และการตรวจสอบโดยใช้การนำเสนอปากเปล่า
https://escholarship.org/content/qt80x8d3qd/qt80x8d3qd.pdf

The Decoder「AI is inflating student grades, and the effect points to outsourced work, not better learning」
บทความอธิบายผลการวิจัยในวงการภาษาอังกฤษ ตรวจสอบประเด็นที่ AI ไม่ได้ปรับปรุงการเรียนรู้ แต่