AI अभी भी "आसान पहेलियाँ" क्यों नहीं सुलझा सकता - मानव मस्तिष्क की अद्भुत शक्ति की खोज : मनुष्यों के लिए "सेकंड", AI के लिए "भूलभुलैया"

2025年09月02日 01:16

"मनुष्य के लिए सेकंड, AI के लिए कठिन प्रश्न"—ARC द्वारा उजागर की गई "सामान्यता" की दीवार और अगली चुनौती

31 अगस्त (अमेरिकी समय) को Live Science में प्रकाशित एक साक्षात्कार लेख ने इस विरोधाभास को फिर से उजागर किया कि नवीनतम विशाल AI "पज़ल्स जिन्हें मनुष्य कुछ सेकंड में हल कर सकता है" में संघर्ष कर रहा है। विषयवस्तु है, AI शोधकर्ता फ्रांस्वा चोलेट द्वारा 2019 में डिज़ाइन किया गया ARC (Abstraction and Reasoning Corpus)। यह रंगीन ग्रिड पर "छिपे हुए नियमों" को पहचानने और अनदेखे बोर्ड पर लागू करने का एक सरल कार्य है, लेकिन मुख्य बिंदु है कम उदाहरणों से सामान्यीकरण की क्षमता।

ARC, शानदार शैक्षणिक परीक्षण के उच्च स्कोर या उच्च गणित के प्रमाणों की तुलना में, AI के "सीखने के तरीके" को उजागर करता है। इस लेख में, ARC Prize Foundation के ग्रेग कमल्राट के स्पष्टीकरण का आधार लेते हुए, इस "मनुष्य के लिए आसान/AI के लिए कठिन" घटना का अर्थ, सोशल मीडिया की प्रतिक्रियाएँ, और अगला युद्धक्षेत्र **इंटरैक्टिव "गेम-आधारित" मूल्यांकन (ARC-AGI-3)** तक, सब कुछ समझाया गया है। Live ScienceScientific American

क्यों ARC AI के "कमजोरी सेंसर" के रूप में कार्य करता है

ARC जो मापता है वह है, कम शॉट्स में अमूर्तता और स्थानांतरण। दूसरे शब्दों में, "जब आप पाठ्यपुस्तक के बाहर पहली बार किसी स्थिति का सामना करते हैं, तो आप कितनी तेजी से 'नियम' निकाल सकते हैं और लागू कर सकते हैं"। कमल्राट कहते हैं, "AGI का अर्थ है, सीखने की दक्षता में मनुष्य के बराबर होना, या जब मनुष्य द्वारा हल की जा सकने वाली समस्याएँ AI द्वारा हल नहीं की जा सकतीं"। वर्तमान स्थिति इसके विपरीत है—मनुष्य का औसत ARC-AGI-2 में लगभग 66% है, जबकि AI अभी भी कई समस्याओं को हल नहीं कर पाता। मनुष्य की नमूना दक्षता असाधारण रूप से उच्च है, जो इस अंतर का मूल कारण है। Scientific American

"o3 शॉक" और "बेंचमार्क की संतृप्ति" विवाद

फिर भी, AI की प्रतिक्रिया भी तेज है। 2024 के अंत में, OpenAI का o3 ARC-AGI-1 के सेमी-प्राइवेट मूल्यांकन में 75.7% (नियत गणना मात्रा) / 87.5% (उच्च गणना मात्रा) स्कोर दर्ज किया, जिससे दुनिया में हलचल मच गई। इससे "क्या यह AGI है?" जैसी उत्तेजना और "नहीं, यह उच्च गणना ट्यूनिंग की स्पाइक प्रदर्शन है" जैसी शांतिपूर्ण प्रतिक्रिया एक साथ उठी। ARC की तकनीकी ब्लॉग ने **खोज के साथ सोच (खोज और सैंपलिंग)** जैसी तकनीकों के सफल होने का विश्लेषण किया, लेकिन साथ ही यह भी संकेत दिया कि "वास्तविक सामान्यीकरण" को मापने के लिए कार्यों का विकास जारी रहना चाहिए। ARC Prize

अगला मंच:ARC-AGI-3 = 100-स्तरीय नई वीडियो गेम

ARC Prize Foundation, प्रश्न-उत्तर "बिना स्थिति" बेंच से स्नातक कर रहा है। 2025 में, 100-स्तरीय 2D पिक्सेल गेम के माध्यम से, अन्वेषण, योजना, और स्मृति की आवश्यकता वाले "पर्यावरणीय कौशल अधिग्रहण" का मूल्यांकन करने के लिए ARC-AGI-3 का पूर्वावलोकन शुरू किया गया। आंतरिक परीक्षण चरण में "कोई भी AI एक भी स्तर पार नहीं कर सका" जैसी कठोर रिपोर्टें आईं, और अल्पकालिक स्मृति और लक्ष्य अनुमान जैसे एजेंट क्षमताओं के गंभीर मापन की दिशा में कदम उठाए गए। जुलाई-अगस्त में Hugging Face के साथ 30-दिन की पूर्वावलोकन प्रतियोगिता भी आयोजित की गई, और परिणाम सारांश भी प्रकाशित किया गया है। Live ScienceARC Prize

सोशल मीडिया की प्रतिक्रिया में दिखे "तीन तापमान क्षेत्र"

1) संदेहवादी: "वह, AI नहीं, LLM है"

Reddit के r/technology पर, "AI" शब्दावली की अपेक्षाओं को बदलने की बात कही गई। LLM या अनुमान मॉडल के रूप में इसे बुलाया जाना चाहिए" जैसी आवाज़ें भारी मात्रा में एकत्रित हुईं। कुछ ने इसे "सांख्यिकीय पूर्वानुमान मशीन मात्र" कहकर खारिज कर दिया। शब्दावली के प्रति नाराजगी, "AGI आगमन" के विपणन के प्रति प्रतिक्रिया के साथ जुड़ी है। Reddit

2) जीवन के लोग: "कपड़े कौन तह करेगा?"

उसी धागे में, "AI घर के काम को कम नहीं करता", "कला का उत्पादन करता है और शौक को प्रभावित करता है" जैसी "जीवन के दृष्टिकोण से असंतोष" भी प्रमुखता से दिखा। अनुसंधान बेंच की उत्तेजना और दैनिक समस्याओं के अनसुलझेपन का अंतर स्पष्ट हो गया। Reddit

3) तकनीकी लोग: बेंच डिज़ाइन और स्कोर की व्याख्या पर गहन चर्चा

Hacker News पर "ARC-AGI-2 में मनुष्य का पैनल औसत 60% के आसपास है", "100%" का अर्थ है "सभी प्रश्न किसी द्वारा हल किए गए" जैसी मूल्यांकन डिज़ाइन की व्याख्या पर चर्चा हुई। o3 के उच्च स्कोर के प्रति भी "उच्च गणना शर्तों के कारण", "सामान्यता की बजाय खोज की मजबूती की जीत" जैसी विश्लेषण साझा की गई। Hacker NewsarXiv

इसके अलावा X (पूर्व में Twitter) पर, टेक इन्फ्लुएंसर ने Live Science लेख को साझा करते हुए, **"मनुष्य के लिए आसान और AI के लिए कठिन"** इस उलझन को उजागर किया। ARC का आधिकारिक खाता o3 के स्कोर की उपलब्धि की घोषणा करते हुए, नई पीढ़ी के बेंच की ओर ध्यान केंद्रित करता है। X (formerly Twitter)

क्या "सेकंड में हल करने की शक्ति" को उत्पन्न करता है: मनुष्य के तीन लाभ

शारीरिक रूप से अंतर्ज्ञान
मनुष्य बचपन से ही, वस्तुओं के "समूह" या "छेद", "घूर्णन समरूपता" आदि को शारीरिक अनुभव के माध्यम से स्वाभाविक रूप से प्राप्त करता है। ARC जैसे ग्रिड कार्य इस साधारण भौतिकी और गेस्टाल्ट के विस्तार के रूप में संसाधित होते हैं।
अत्यधिक नमूना दक्षता
कुछ उदाहरणों से, संभावित नियमों को तुरंत परिकल्पना और समाप्त कर सकते हैं। इसके विपरीत, गहन शिक्षण पूर्व वितरण से बाहरीकरण में कमजोर होता है।
मेटा-लर्निंग के रूप में प्राग्मेटिक्स
मनुष्य समस्या के विवरण या प्रस्तुति के तरीके से "प्रश्नकर्ता की मंशा" को पढ़ता है। यह, औपचारिक नियमों के बाहर के मेटा संकेत हैं।

कमल्राट के अनुसार, वर्तमान AI **"स्पाइक के रूप में बुद्धिमान है, लेकिन व्यापक रूप से गरीब है"**। व्यापक अज्ञात स्थितियों में "सीखने का तरीका" ही इसकी कमजोरी है। Scientific American

आगे की चुनौती:स्थिर चित्र→क्रिया, पाठ→पर्यावरण

स्थिर इनपुट-आउटपुट के पूर्ति से, पर्यावरण में अन्वेषण, योजना, और स्मृति की ओर। ARC-AGI-3 का वीडियो गेम के रूप में आकार लेना, बेंचमार्क की "बिना स्थिति" सीमा को पार करने के लिए है। अनुसंधान के संदर्भ में, एजेंट मूल्यांकन सुरक्षा से भी जुड़ा है।

योजना या आत्म-जांच को मापने में असमर्थ मॉडल, धारणाओं की अतिरेक (मतिभ्रम की वृद्धि) को उत्पन्न करने में सक्षम होते हैं। Live Science/Scientific American द्वारा दिखाया गया दिशा, एक प्रकार का बेंच की पीढ़ी परिवर्तन की घोषणा भी है। Live ScienceScientific American

"अब क्या किया जा सकता है" और "क्या नहीं किया जा सकता" को शब्दों में व्यक्त करना

वास्तविकता: o3 के बाद की "अनुमानित सुदृढ़ता" ने कुछ नई समस्या अनुकूलन को दिखाया। हालांकि, यह भारी खोज और लागत द्वारा समर्थित एक तीव्र क्षमता है, जो मनुष्य की तेज सामान्यीकरण से भिन्न है। ARC Prize##HTML

"सोचने वाले AI" का भ्रम - AI कहाँ अटकता है? Apple के शोधपत्र और CNBC की रिपोर्ट ने किस बिंदु को छुआ

राजनीति और खरीदारी दोनों में "AI से परामर्श" का युग: समझाने वाले चैटबॉट के पीछे क्या हो रहा है

「समझने वाली मशीन」に दिल सौंपने के बाद क्या होता है: इंसानों से ज्यादा दयालु AI, समाज की अकेलेपन को गहरा करने वाला दिन

"मनुष्य के लिए सेकंड, AI के लिए कठिन प्रश्न"—ARC द्वारा उजागर की गई "सामान्यता" की दीवार और अगली चुनौती

क्यों ARC AI के "कमजोरी सेंसर" के रूप में कार्य करता है

"o3 शॉक" और "बेंचमार्क की संतृप्ति" विवाद

अगला मंच:ARC-AGI-3 = 100-स्तरीय नई वीडियो गेम

सोशल मीडिया की प्रतिक्रिया में दिखे "तीन तापमान क्षेत्र"

1) संदेहवादी: "वह, AI नहीं, LLM है"

2) जीवन के लोग: "कपड़े कौन तह करेगा?"

3) तकनीकी लोग: बेंच डिज़ाइन और स्कोर की व्याख्या पर गहन चर्चा

क्या "सेकंड में हल करने की शक्ति" को उत्पन्न करता है: मनुष्य के तीन लाभ

आगे की चुनौती:स्थिर चित्र→क्रिया, पाठ→पर्यावरण

"अब क्या किया जा सकता है" और "क्या नहीं किया जा सकता" को शब्दों में व्यक्त करना

cookie_banner_title

"मनुष्य के लिए सेकंड, AI के लिए कठिन प्रश्न"—ARC द्वारा उजागर की गई "सामान्यता" की दीवार और अगली चुनौती

क्यों ARC AI के "कमजोरी सेंसर" के रूप में कार्य करता है

"o3 शॉक" और "बेंचमार्क की संतृप्ति" विवाद

अगला मंच:ARC-AGI-3 = 100-स्तरीय नई वीडियो गेम

सोशल मीडिया की प्रतिक्रिया में दिखे "तीन तापमान क्षेत्र"

1) संदेहवादी: "वह, AI नहीं, LLM है"

2) जीवन के लोग: "कपड़े कौन तह करेगा?"

3) तकनीकी लोग: बेंच डिज़ाइन और स्कोर की व्याख्या पर गहन चर्चा

क्या "सेकंड में हल करने की शक्ति" को उत्पन्न करता है: मनुष्य के तीन लाभ

आगे की चुनौती:स्थिर चित्र→क्रिया, पाठ→पर्यावरण

"अब क्या किया जा सकता है" और "क्या नहीं किया जा सकता" को शब्दों में व्यक्त करना

"सोचने वाले AI" का भ्रम - AI कहाँ अटकता है? Apple के शोधपत्र और CNBC की रिपोर्ट ने किस बिंदु को छुआ

राजनीति और खरीदारी दोनों में "AI से परामर्श" का युग: समझाने वाले चैटबॉट के पीछे क्या हो रहा है

「समझने वाली मशीन」に दिल सौंपने के बाद क्या होता है: इंसानों से ज्यादा दयालु AI, समाज की अकेलेपन को गहरा करने वाला दिन