AI เหนือกว่าหมอฉุกเฉินแล้วหรือยัง? การวิจัยของฮาร์วาร์ดที่ท้าทาย "อนาคตของการวินิจฉัย"

AI เหนือกว่าหมอฉุกเฉินแล้วหรือยัง? การวิจัยของฮาร์วาร์ดที่ท้าทาย "อนาคตของการวินิจฉัย"

AI เหนือกว่าแพทย์ฉุกเฉินแล้วหรือยัง? การศึกษาของฮาร์วาร์ดที่ท้าทาย "อนาคตของการวินิจฉัย"

เมื่อผู้ป่วยถูกนำตัวมาที่ห้องฉุกเฉิน แพทย์ต้องตัดสินใจครั้งแรกจากข้อมูลที่จำกัด
การตัดสินใจนั้น บางครั้งความล่าช้าเพียงไม่กี่นาทีหรือวินาทีอาจเป็นเรื่องของชีวิต

ในสถานการณ์ทางการแพทย์ที่ตึงเครียดอย่างยิ่งนี้ AI ได้ให้การวินิจฉัยที่แม่นยำกว่ามนุษย์แพทย์ ข่าวนี้ได้สร้างความสั่นสะเทือนอย่างมากไม่เพียงแต่ในวงการแพทย์ แต่ยังรวมถึงในอุตสาหกรรมเทคโนโลยีและโซเชียลมีเดียด้วย

TechCrunch รายงานเกี่ยวกับการศึกษาใหม่โดยทีมวิจัยจาก Harvard Medical School และ Beth Israel Deaconess Medical Center การศึกษานี้เปรียบเทียบโมเดลการอนุมานของ OpenAI เช่น "o1" และ "GPT-4o" กับแพทย์มนุษย์ในหลายงานทางการแพทย์ สิ่งที่ได้รับความสนใจเป็นพิเศษคือการเปรียบเทียบความสามารถในการวินิจฉัยโดยใช้กรณีฉุกเฉินจริง

ผู้ป่วย 76 คนที่ได้รับการรักษาที่ห้องฉุกเฉินของ Beth Israel เป็นกลุ่มตัวอย่าง ทีมวิจัยใช้ข้อมูลจากเวชระเบียนอิเล็กทรอนิกส์เพื่อให้แพทย์ประจำสองคนและโมเดล AI ให้การวินิจฉัย จากนั้นแพทย์อีกสองคนได้ประเมินการวินิจฉัยโดยไม่ทราบว่าเป็นของมนุษย์หรือ AI

ผลลัพธ์นั้นน่าตกใจ ในขั้นตอนการคัดกรองเบื้องต้น OpenAI's o1 ให้การวินิจฉัยที่ "แม่นยำหรือใกล้เคียงมาก" ใน 67% ของกรณี ขณะที่แพทย์มนุษย์ให้การวินิจฉัยใน 55% และ 50% ตามลำดับ กล่าวคือ ภายใต้เงื่อนไขการศึกษานี้ AI เหนือกว่าแพทย์มนุษย์ในการจำกัดชื่อโรคจากข้อมูลเบื้องต้นที่จำกัด

นอกจากนี้ ในขั้นตอนที่มีข้อมูลมากขึ้น ความแม่นยำในการวินิจฉัยของ o1 เพิ่มขึ้นเป็นประมาณ 82% ตามรายงาน ขณะที่แพทย์มนุษย์เพิ่มความแม่นยำเป็น 70-79% แต่ AI แสดงระดับที่เทียบเท่าหรือสูงกว่าเล็กน้อย

เมื่อดูจากตัวเลขเหล่านี้ อาจกล่าวได้ว่า "ในที่สุด AI ก็เหนือกว่าแพทย์แล้ว" ในความเป็นจริง การรับรู้เช่นนี้มีอยู่ไม่น้อยบนโซเชียลมีเดีย แต่สิ่งที่การศึกษานี้แสดงให้เห็นจริงๆ คือภาพของ AI ทางการแพทย์ที่ซับซ้อนและเป็นจริงมากขึ้น


AI เชี่ยวชาญใน "การอนุมานทางคลินิกบนกระดาษ"

ในการศึกษานี้ AI ประมวลผลข้อมูลที่บันทึกในเวชระเบียนอิเล็กทรอนิกส์ เช่น ข้อมูลชีพ อายุ ประวัติการเจ็บป่วย บันทึกสั้นๆ จากพยาบาล และข้อมูลการตรวจ ซึ่งเป็นส่วนหนึ่งของข้อมูลที่แพทย์ใช้ในการวินิจฉัย

สิ่งสำคัญคือ AI ไม่ได้ดูสีหน้าของผู้ป่วย ไม่ได้สังเกตความลำบากในการหายใจ หรือทำการตรวจร่างกายทางหน้าท้อง ข้อมูลเช่นการสั่นของเสียงผู้ป่วย การเดิน การเหงื่อออก การตอบสนองของครอบครัวที่อยู่ด้วย และบรรยากาศระหว่างเจ้าหน้าที่ทางการแพทย์ที่แพทย์เก็บได้โดยไม่รู้ตัวในสถานที่จริงไม่ได้รวมอยู่ด้วย

กล่าวอีกนัยหนึ่ง AI ในครั้งนี้ไม่ได้ "ตรวจผู้ป่วยในห้องฉุกเฉิน" แต่ "คิดวินิจฉัยจากข้อมูลที่บันทึกในห้องฉุกเฉิน"

จุดนี้ถูกชี้ให้เห็นอย่างชัดเจนจากผู้เชี่ยวชาญทางการแพทย์และเทคโนโลยีบนโซเชียลมีเดีย ใน Hacker News ความคิดเห็นที่ว่า "แพทย์ไม่ได้วินิจฉัยผู้ป่วยฉุกเฉินโดยดูแค่บันทึก" ได้รับการสนับสนุนอย่างมาก งานที่ AI ได้รับการประเมินเป็นเพียงส่วนหนึ่งของการแพทย์ฉุกเฉินจริง และการสรุปว่า "AI จะมาแทนที่แพทย์ฉุกเฉิน" จากผลลัพธ์นี้เป็นการด่วนสรุปเกินไป

ใน Reddit ก็เช่นกัน มีการตอบสนองที่ว่า "เป้าหมายหลักของห้องฉุกเฉินไม่ใช่การวินิจฉัยสุดท้าย แต่เป็นการไม่พลาดสถานะที่เป็นอันตรายถึงชีวิต" นี่เป็นประเด็นที่สำคัญมาก

ในทางการแพทย์ฉุกเฉิน ไม่เพียงแต่ถามว่า "การวินิจฉัยสุดท้ายของผู้ป่วยนี้คืออะไร" แต่ยังถามว่า "มีความเสี่ยงที่จะเสียชีวิตในขณะนี้หรือไม่" "จำเป็นต้องมีการรักษาทันทีหรือไม่" "สามารถส่งกลับบ้านได้หรือไม่" "ควรส่งต่อไปยังแผนกเฉพาะทางหรือไม่" ความสามารถในการวินิจฉัยชื่อโรคอย่างแม่นยำและความสามารถในการไม่พลาดสถานะที่เป็นอันตรายและจัดการอย่างปลอดภัยมีส่วนที่ทับซ้อนกันแต่ไม่เหมือนกัน


อย่างไรก็ตาม ความหมายของ "67%" ที่ไม่ควรมองข้าม

อย่างไรก็ตาม การสรุปผลลัพธ์นี้ว่าเป็นการประเมินที่เกินจริงก็เป็นอันตรายเช่นกัน

ในขั้นตอนแรกของห้องฉุกเฉิน ข้อมูลมีน้อย ผลการตรวจยังไม่ออก และผู้ป่วยเองอาจอธิบายอาการได้ไม่ดี ในผู้สูงอายุ ผู้ป่วยที่มีความบกพร่องทางสติสัมปชัญญะ หรือผู้ป่วยที่มีอุปสรรคทางภาษา ความยากลำบากจะเพิ่มขึ้น

ในสถานการณ์เช่นนี้ หาก AI สามารถอ่านข้อมูลในเวชระเบียนอิเล็กทรอนิกส์อย่างครอบคลุมและเสนอทางเลือกในการวินิจฉัยที่หลากหลายได้ ก็อาจเป็น "ตาที่สอง" ที่มีประโยชน์สำหรับแพทย์

ในกรณีที่ The Guardian นำเสนอ ผู้ป่วยที่มีภาวะลิ่มเลือดอุดตันในปอดแย่ลงหลังการรักษา แพทย์สงสัยว่าตัวยาต้านการแข็งตัวของเลือดอาจไม่ได้ผล ในขณะที่ AI ให้ความสำคัญกับประวัติการเป็นโรคลูปัสของผู้ป่วยและแนะนำว่าอาจเกิดการอักเสบในปอด ซึ่งในที่สุดการชี้แนะของ AI ก็ถูกต้อง

กรณีเช่นนี้แสดงให้เห็นถึงจุดแข็งของ AI ทางการแพทย์ แพทย์มนุษย์ได้รับผลกระทบจากเวลาที่จำกัด ความเหนื่อยล้า จำนวนผู้ป่วยที่รับผิดชอบ ประสบการณ์ก่อนหน้า และอคติในสาขาเฉพาะทาง AI ไม่เหนื่อยและสามารถอ่านข้อมูลจำนวนมากในเวชระเบียนอิเล็กทรอนิกส์ได้ในคราวเดียว และสามารถหยิบจับประวัติการเจ็บป่วยหรือค่าการตรวจที่มักถูกมองข้ามได้

แน่นอนว่า AI ก็มีอคติและข้อผิดพลาดเช่นกัน แต่ถ้า AI มีวิธีการมองข้ามที่แตกต่างจากมนุษย์ การรวมกันของแพทย์และ AI อาจเพิ่มความปลอดภัยมากกว่าแพทย์เพียงคนเดียว


จาก "AI vs แพทย์" สู่ "แพทย์+AI"

สาระสำคัญของการศึกษานี้ไม่ใช่เรื่อง "AI มาแทนที่แพทย์" แต่เป็นคำถามว่า "แพทย์ควรใช้ AI อย่างไร"

นักวิจัยเองก็ไม่ได้อ้างว่า AI สามารถตัดสินใจเกี่ยวกับชีวิตในห้องฉุกเฉินได้ด้วยตัวเอง แต่กลับเห็นว่าจำเป็นต้องมีการทดลองทางคลินิกเชิงบวกเพื่อทดสอบความปลอดภัยและประสิทธิภาพในการดูแลผู้ป่วยจริง

ความเข้าใจผิดที่เกิดขึ้นบ่อยในการอภิปรายเกี่ยวกับ AI ทางการแพทย์คือการประเมินความสามารถของ AI เป็น "การทดแทนมนุษย์อย่างสมบูรณ์" แต่ในความเป็นจริงในสถานที่ทางการแพทย์ AI เช่นการวินิจฉัยภาพ การตรวจสอบปฏิกิริยาระหว่างยา การสนับสนุนการสร้างบันทึกการรักษา และโมเดลการคาดการณ์ความเสี่ยงถูกใช้อย่างเสริมอยู่แล้ว

การศึกษานี้แสดงให้เห็นว่า AI ที่สร้างขึ้นและโมเดลภาษาขนาดใหญ่กำลังพัฒนาเป็น "เครื่องมือสนับสนุนการอนุมานทางคลินิก" จากเครื่องมือสร้างข้อความธรรมดา

การรวมอาการของผู้ป่วย ประวัติการเจ็บป่วย ค่าการตรวจ บันทึกการรักษาในอดีต และเสนอว่า "ควรพิจารณาโรคนี้ด้วยหรือไม่" "ควรเพิ่มการตรวจนี้หรือไม่" "การเลือกยานี้มีความเสี่ยงหรือไม่" หากใช้วิธีนี้ AI จะไม่เป็นการทดแทนแพทย์ แต่เป็นผู้ช่วยในการขยายขอบเขตการวินิจฉัย

มุมมองของ Dr. Adam Rodman ที่ The Guardian นำเสนอ ก็ใกล้เคียงกับทิศทางนี้เช่นกัน การแพทย์ในอนาคตอาจมุ่งสู่โมเดลที่มี "แพทย์ ผู้ป่วย และ AI" ร่วมกัน


ความคาดหวังและความระมัดระวังที่แพร่กระจายในโซเชียลมีเดีย

 

ปฏิกิริยาบนโซเชียลมีเดียแบ่งออกเป็นสามกลุ่มใหญ่

กลุ่มแรกคือความคาดหวังต่อ AI ทางการแพทย์ ใน Hacker News มีความคิดเห็นว่า "ในระยะยาว AI อาจมีโอกาสสูงที่จะเหนือกว่ามนุษย์ในด้านความรู้ ประสบการณ์ และการจดจำแบบแผน เช่นเดียวกับที่ AI แสดงความสามารถอย่างรวดเร็วในการพัฒนาซอฟต์แวร์ ในการแพทย์ก็เช่นกัน หากโมเดลเฉพาะทางพัฒนาขึ้น อาจมีพื้นที่ที่เหนือกว่าแพทย์หลายคนเพิ่มขึ้น"

ผู้ที่อยู่ในตำแหน่งนี้ยังให้ความสนใจกับความเป็นจริงในสถานที่ทางการแพทย์ แพทย์มีงานยุ่งและมีเวลาจำกัดในการใช้กับผู้ป่วยคนเดียว บันทึกการรักษามีมากมายและความรู้เฉพาะทางได้รับการอัปเดตทุกวัน หาก AI ถูกนำมาใช้อย่างเหมาะสม อาจช่วยลดการมองข้ามและยกระดับมาตรฐานการแพทย์ในพื้นที่ชนบทหรือที่ขาดแคลนแพทย์

กลุ่มที่สองคือความระมัดระวังต่อการออกแบบการวิจัย ใน Reddit มีการตอบสนองว่า "หัวข้อข่าวทำให้เข้าใจผิด" การเปรียบเทียบไม่ได้ทำกับ "แพทย์ฉุกเฉิน" แต่กับ "แพทย์ประจำ" และเป้าหมายของการแพทย์ฉุกเฉินไม่จำเป็นต้องเป็นการวินิจฉัยสุดท้ายที่ถูกต้อง และ AI ไม่ได้ตรวจผู้ป่วยจริงเป็นจุดที่ถูกวิจารณ์

ใน Hacker News ก็มีเสียงว่า "การวัดผลเช่นนี้สามารถบิดเบือนได้ง่าย" "ไม่ควรสรุปผลที่แข็งแกร่งจากการศึกษาเพียงครั้งเดียว" ในการประเมิน AI อาจมีคำแนะนำที่ไม่ได้ตั้งใจในชุดข้อมูลหรือการตั้งค่างานที่แตกต่างจากการปฏิบัติจริง ในพื้นที่ที่มีความเสี่ยงสูงเช่นการแพทย์ จำเป็นต้องแยกความแตกต่างระหว่างชัยชนะบนเบนช์มาร์กและความปลอดภัยในสถานที่ทางคลินิก

กลุ่มที่สามคือความกังวลเกี่ยวกับความรับผิดชอบและจริยธรรม ใน Reddit มีการตอบสนองหลายอย่างว่า "ถ้า AI วินิจฉัยผิดพลาดและผู้ป่วยเสียชีวิต ใครจะรับผิดชอบ" แพทย์มีความรับผิดชอบทางการแพทย์ ความรับผิดชอบในการอธิบาย และหน้าที่ในฐานะวิชาชีพ แต่ในกรณีของโมเดล AI ความรับผิดชอบจะอยู่ที่บริษัทพัฒนา โรงพยาบาลที่นำเข้า แพทย์ที่ใช้ หรือหน่วยงานกำกับดูแลนั้นไม่ชัดเจน

ปัญหานี้เป็นหนึ่งในอุปสรรคที่ใหญ่ที่สุดในการแพร่กระจายของ AI ทางการแพทย์ ไม่เพียงแต่ AI จะให้การวินิจฉัยที่ถูกต้องหรือไม่ แต่เมื่อผิดพลาด ใครจะตรวจสอบ ใครจะอธิบาย และใครจะเผชิญหน้ากับผู้ป่วย หากไม่มีการจัดการในส่วนนี้ จะเป็นการยากที่จะไว้วางใจ AI อย่างเต็มที่ในสถานที่ทางการแพทย์


เส้นแบ่งระหว่าง "ความคิดเห็นที่สองที่สะดวก" และ "การทำงานอัตโนมัติที่อันตราย"

จากการศึกษานี้ การใช้ AI ทางการแพทย์ที่เป็นไปได้มากที่สุดในปัจจุบันคือ "ความคิดเห็นที่สอง"

ตัวอย่างเช่น เมื่อแพทย์กำลังคิดวินิจฉัย AI สามารถเสนอทางเลือกในการวินิจฉัยที่แตกต่างกันได้ แสดงโรคที่มองข้ามได้ง่าย โรคที่รุนแรงแต่มีความถี่ต่ำ และความเสี่ยงที่เกิดจากประวัติการใช้ยาและประวัติการเจ็บป่วย แพทย์สามารถใช้ข้อมูลนี้เป็นข้อมูลอ้างอิงในการตัดสินใจขั้นสุดท้ายโดยอิงจากการตรวจร่างกาย การตรวจ และการสนทนากับผู้ป่วย

ในรูปแบบนี้ AI สามารถใช้จุดแข็งของตนได้ ในขณะที่ยังคงความรับผิดชอบและการตัดสินใจของมนุษย์ไว้ โดยเฉพาะในห้องฉุกเฉินที่มีเวลาจำกัดและความกดดันในการตัดสินใจสูง AI อาจมีผลในการลด "การคิดผิด"

ในทางกลับกัน สิ่งที่อันตรายคือการยอมรับข้อเสนอของ AI โดยอัตโนมัติ เมื่อ AI เสนอการวินิจฉัยที่ผิดพลาดอย่างมั่นใจ มนุษย์อาจถูกดึงดูดไปตามนั้น ในความคิดเห็นของผู้เชี่ยวชาญที่ The Guardian นำเสนอ มีการชี้ให้เห็นถึงความเสี่ยงที่แพทย์อาจทำตามคำตอบของ AI โดยไม่รู้ตัว

##HTML_TAG