"सोचने वाले AI" का भ्रम - AI कहाँ अटकता है? Apple के शोधपत्र और CNBC की रिपोर्ट ने किस बिंदु को छुआ

"सोचने वाले AI" का भ्रम - AI कहाँ अटकता है? Apple के शोधपत्र और CNBC की रिपोर्ट ने किस बिंदु को छुआ

1. परिचय: उत्साह के पीछे बढ़ती असहजता

जनरेटिव AI बूम के दूसरे चरण की घोषणा करने वाला कीवर्ड "रेज़निंग (Reasoning)" था। जब ChatGPT और Google Gemini ने "विचारों को आवाज़ देने" जैसे को पेश किया, तो प्रोडक्ट लॉन्च के पीछे के मंच पर "अब हम मानव सोच के और करीब आ गए हैं" की सराहना हुई। लेकिन 26 जून को, CNBC ने एक सवाल उठाया जिसने उत्सव के मूड को ठंडा कर दिया।――"क्या सोच दिखाने वाले मॉडल वास्तव में होशियार हो गए हैं?" इस सवाल ने तूफान लाने में ज्यादा समय नहीं लिया।


2. CNBC लेख की संरचना: सटीकता के पतन का महत्वपूर्ण बिंदु

CNBC के डिजिटल संस्करण और टीवी कार्यक्रम TechCheck के अनुसार, कई स्वतंत्र अनुसंधानों में यह देखा गया कि "जितना अधिक मॉडल चरणबद्ध तर्क करता है, एक निश्चित जटिलता के स्तर से परे सही उत्तर की दर तेजी से गिरती है"। इसका प्रतीक Apple का शोध पत्र The Illusion of Thinking है। अनुसंधान टीम ने 20 से अधिक अत्याधुनिक LLM को गणित, प्रोग्रामिंग और अज्ञात अवधारणाओं के तीन क्षेत्रों में तुलना की, और दिखाया कि सोच ट्रेस उत्पन्न करने वाले मॉडल “critical complexity” के सीमा पर प्रदर्शन में गिरावट दिखाते हैं। मॉडल लंबी तर्क श्रृंखलाएं उत्पन्न करते हैं, लेकिन अंतिम उत्तर गलत होता है, जिससे "सोचकर चूकना" की स्थिति उत्पन्न होती है।theverge.com


CNBC ने इस व्यवहार को “accuracy collapse” का नाम दिया। निवेशकों ने "क्या महंगे तर्क मॉडल को शामिल करने का कोई मूल्य है" पर सवाल उठाना शुरू कर दिया।


3. रेज़निंग मॉडल क्या है――सुविधाजनक “लंबी आत्म-चर्चा”

जहां LLM का मानक मोड "अगले टोकन की भविष्यवाणी" है, वहीं रेज़निंग मॉडल "विचारों को चरणबद्ध रूप से प्रदर्शित करना" का दावा करता है। गणना सूत्रों को सूचीबद्ध करना, कार्यों को बुलाना, ज्ञान को सूचीबद्ध करना――यह प्रक्रिया मानव-पठनीय रूप में बनी रहती है, जिससे डीबगिंग क्षमता और जवाबदेही में सुधार होता है। लेकिन Apple के शोध पत्र ने इसे "जो दिख रहा है वह विचार नहीं है, बल्कि “आत्म-संबंध खेल” के निशान मात्र हैं" के रूप में खारिज कर दिया। भले ही यह तार्किक दिखे, जटिलता की सीमा को पार करते ही मॉडल अचानक सोच को संक्षिप्त कर देता है, और “I don’t know” के समान संक्षिप्त आउटपुट देता है।itpro.com


4. प्रतिवाद की आंधी: Anthropic और Meta की प्रतिक्रिया

Apple के उकसाने वाले निष्कर्ष के जवाब में, Anthropic ने तुरंत "बेंचमार्क गलत है" का प्रतिवाद किया और Open Philanthropy के साथ मिलकर पुनः परीक्षण किया। परिणामस्वरूप उन्होंने कहा कि "केवल फॉर्मेट निर्दिष्ट करने और टाइमआउट के कारण अंक खोए गए थे", और **"सोच मॉडल स्थिर हैं"** पर जोर दिया। Meta ने भी Safe Superintelligence की खरीद में विफलता की रिपोर्ट के बीच, अपने स्वयं के विकास मॉडल Behemoth की देरी को "सटीकता समायोजन के लिए" के रूप में समझाया और CNBC के अतिरिक्त साक्षात्कार में कहा कि "लंबी अवधि में सोच मॉडल आवश्यक हैं"।rcrwireless.com


5. सोशल मीडिया की प्रतिक्रिया: #ReasoningGate के रूप में विवाद

X (पूर्व में Twitter) पर लेख के प्रकाशन के 24 घंटे के भीतर <#ReasoningGate> ट्रेंड में आ गया। "मॉडल “Thinking Out Loud” नहीं बल्कि “Guessing Out Loud” हैं", "क्या हम AI की आत्म-चर्चा से धोखा खा रहे थे" जैसी टिप्पणियाँ की गईं। विशेष रूप से वेंचर कैपिटलिस्ट @AIThesis ने पोस्ट किया "पारदर्शिता का मतलब यह नहीं है कि यह सही है। निवेश को गहराई से जांचें" और 23,000 लाइक्स प्राप्त किए। मीडिया के आधिकारिक अकाउंट @CNBC ने "Why ‘thinking’ models may not actually be smarter" शीर्षक के साथ एक शॉर्ट वीडियो पोस्ट किया, जिसे 145,000 बार देखा गया।

 



दूसरी ओर, Reddit /r/ArtificialIntelligence पर <Are current AI models really reasoning, or just predicting the next token?> थ्रेड फिर से उभरा, और "यह केवल ऑटो-कंप्लीट को लंबा करना है" बनाम "संबंध भी सोच का एक रूप है" की बड़ी बहस हुई। थ्रेड ने 48 घंटों में 1,200 से अधिक टिप्पणियाँ दर्ज कीं।reddit.com


6. तकनीकी मुद्दे: ओवरथिंकिंग और क्रिटिकल कॉम्प्लेक्सिटी

IEEE Spectrum के विश्लेषण में बताया गया है कि "रेज़निंग मॉडल जितना अधिक “गहराई से सोचते हैं”, उनकी सफलता दर उतनी ही गिरती है"। सोच के चरणों को बढ़ाने की क्रिया हमेशा सटीकता में सुधार नहीं लाती, बल्कि "ओवरथिंकिंग पेनल्टी" को आमंत्रित करती है। इसके अलावा, NUS और Johns Hopkins के अनुसंधान में बताया गया है कि "मानव की कार्यशील स्मृति जैसी प्रणाली की कमी के कारण, वे मध्यवर्ती मार्ग को बनाए नहीं रख सकते और आत्म-विरोधाभास में पड़ जाते हैं"।spectrum.ieee.orgarxiv.org


7. उद्योग पर प्रभाव: वित्तपोषण और रोडमैप का पुनर्गठन

निवेशकों के पक्ष में, तर्क श्रृंखला की गणना करने की अतिरिक्त लागत "टोकन की कीमत +30〜50%" के बराबर है, जिससे मूल्य लाभ में अस्थिरता आ रही है। कुछ VC ने "मॉडलों की संख्या को अंधाधुंध बढ़ाने के बजाय, मौजूदा LLM को API स्तर पर मॉड्यूलर कनेक्ट करना जोखिम के प्रति अधिक मजबूत है" के रूप में अपने पोर्टफोलियो को पुनर्गठित करना शुरू कर दिया है। DeepSeek जैसे सस्ती और उच्च दक्षता वाले मॉडल की प्रशंसा हो रही है, और Google और Nvidia के विशाल GPU निवेश पर फिर से सवाल उठाए जा रहे हैं।reuters.com


8. वैकल्पिक मार्ग: हाइब्रिड मॉडल और न्यूरल-सिम्बोलिक

समस्या समाधान की कुंजी के रूप में उभरने वाले न्यूरल-सिम्बोलिक AI और मॉड्यूलर एजेंट हैं। यह "प्रतीकात्मक नियमों" और "गहन शिक्षण" के फायदे को मिलाकर, “सोचने” वाले हिस्से को स्पष्ट रूप से अलग करने की विधि है। Gary Marcus द्वारा प्रस्तावित इस दृष्टिकोण को "कारण तर्क को सर्किट स्तर पर सुनिश्चित किया जा सकता है" कहा जाता है, और ReasoningGate के बाद स्टार्टअप में पूंजी प्रवाह में तेजी आई है।en.wikipedia.org


9. "सोच" क्या है――दर्शनिक दृष्टिकोण

John Mark Bishop ने पहले ही 2020 में "AI is stupid and causal reasoning won’t fix it" शीर्षक से एक शोध पत्र में कहा था कि "गणना समझ नहीं है"। इस बार का विवाद, उस चेतावनी को 2025 संस्करण में अपडेट करने जैसा है। मानव द्वारा की जाने वाली “अर्थ समझ” और LLM द्वारा की जाने वाली “सांख्यिकीय संबंध” के बीच की खाई अभी भी भरी नहीं गई है।arxiv.org


10. भविष्य की दृष्टि: पारदर्शिता बनाम वैधता के द्वंद्व को पार करना

अल्पकालिक रूप से (1) बेंचमार्क का पुनः डिज़ाइन, (2) विचार ट्रेस की स्वचालित सत्यापन उपकरण, (3) हार्डवेयर दक्षता में सुधार आवश्यक है। दूसरी ओर, दीर्घकालिक दृष्टिकोण के रूप में "AI की कार्यशील स्मृति का समावेश", "कारण मॉडलिंग का मूल कार्यान्वयन", "बहु-एजेंट सहयोग में त्रुटि सुधार" जैसे डिजाइन दर्शन को पुनः विचार किया जाएगा।


संदर्भ लेख

AI के तर्क समस्या――"सोच" मॉडल वास्तव में होशियार नहीं हो सकते हैं
स्रोत: https://www.cnbc.com/2025/06/26/ai-reasoning-models-problem.html