AI अभी भी "आसान पहेलियाँ" क्यों नहीं सुलझा सकता - मानव मस्तिष्क की अद्भुत शक्ति की खोज : मनुष्यों के लिए "सेकंड", AI के लिए "भूलभुलैया"

AI अभी भी "आसान पहेलियाँ" क्यों नहीं सुलझा सकता - मानव मस्तिष्क की अद्भुत शक्ति की खोज : मनुष्यों के लिए "सेकंड", AI के लिए "भूलभुलैया"

"मनुष्य के लिए सेकंड, AI के लिए कठिन प्रश्न"—ARC द्वारा उजागर की गई "सामान्यता" की दीवार और अगली चुनौती

31 अगस्त (अमेरिकी समय) को Live Science में प्रकाशित एक साक्षात्कार लेख ने इस विरोधाभास को फिर से उजागर किया कि नवीनतम विशाल AI "पज़ल्स जिन्हें मनुष्य कुछ सेकंड में हल कर सकता है" में संघर्ष कर रहा है। विषयवस्तु है, AI शोधकर्ता फ्रांस्वा चोलेट द्वारा 2019 में डिज़ाइन किया गया ARC (Abstraction and Reasoning Corpus)। यह रंगीन ग्रिड पर "छिपे हुए नियमों" को पहचानने और अनदेखे बोर्ड पर लागू करने का एक सरल कार्य है, लेकिन मुख्य बिंदु है कम उदाहरणों से सामान्यीकरण की क्षमता


ARC, शानदार शैक्षणिक परीक्षण के उच्च स्कोर या उच्च गणित के प्रमाणों की तुलना में, AI के "सीखने के तरीके" को उजागर करता है। इस लेख में, ARC Prize Foundation के ग्रेग कमल्राट के स्पष्टीकरण का आधार लेते हुए, इस "मनुष्य के लिए आसान/AI के लिए कठिन" घटना का अर्थ, सोशल मीडिया की प्रतिक्रियाएँ, और अगला युद्धक्षेत्र **इंटरैक्टिव "गेम-आधारित" मूल्यांकन (ARC-AGI-3)** तक, सब कुछ समझाया गया है। Live ScienceScientific American


क्यों ARC AI के "कमजोरी सेंसर" के रूप में कार्य करता है

ARC जो मापता है वह है, कम शॉट्स में अमूर्तता और स्थानांतरण। दूसरे शब्दों में, "जब आप पाठ्यपुस्तक के बाहर पहली बार किसी स्थिति का सामना करते हैं, तो आप कितनी तेजी से 'नियम' निकाल सकते हैं और लागू कर सकते हैं"। कमल्राट कहते हैं, "AGI का अर्थ है, सीखने की दक्षता में मनुष्य के बराबर होना, या जब मनुष्य द्वारा हल की जा सकने वाली समस्याएँ AI द्वारा हल नहीं की जा सकतीं"। वर्तमान स्थिति इसके विपरीत है—मनुष्य का औसत ARC-AGI-2 में लगभग 66% है, जबकि AI अभी भी कई समस्याओं को हल नहीं कर पाता। मनुष्य की नमूना दक्षता असाधारण रूप से उच्च है, जो इस अंतर का मूल कारण है। Scientific American


"o3 शॉक" और "बेंचमार्क की संतृप्ति" विवाद

फिर भी, AI की प्रतिक्रिया भी तेज है। 2024 के अंत में, OpenAI का o3 ARC-AGI-1 के सेमी-प्राइवेट मूल्यांकन में 75.7% (नियत गणना मात्रा) / 87.5% (उच्च गणना मात्रा) स्कोर दर्ज किया, जिससे दुनिया में हलचल मच गई। इससे "क्या यह AGI है?" जैसी उत्तेजना और "नहीं, यह उच्च गणना ट्यूनिंग की स्पाइक प्रदर्शन है" जैसी शांतिपूर्ण प्रतिक्रिया एक साथ उठी। ARC की तकनीकी ब्लॉग ने **खोज के साथ सोच (खोज और सैंपलिंग)** जैसी तकनीकों के सफल होने का विश्लेषण किया, लेकिन साथ ही यह भी संकेत दिया कि "वास्तविक सामान्यीकरण" को मापने के लिए कार्यों का विकास जारी रहना चाहिए। ARC Prize


अगला मंच:ARC-AGI-3 = 100-स्तरीय नई वीडियो गेम

ARC Prize Foundation, प्रश्न-उत्तर "बिना स्थिति" बेंच से स्नातक कर रहा है। 2025 में, 100-स्तरीय 2D पिक्सेल गेम के माध्यम से, अन्वेषण, योजना, और स्मृति की आवश्यकता वाले "पर्यावरणीय कौशल अधिग्रहण" का मूल्यांकन करने के लिए ARC-AGI-3 का पूर्वावलोकन शुरू किया गया। आंतरिक परीक्षण चरण में "कोई भी AI एक भी स्तर पार नहीं कर सका" जैसी कठोर रिपोर्टें आईं, और अल्पकालिक स्मृति और लक्ष्य अनुमान जैसे एजेंट क्षमताओं के गंभीर मापन की दिशा में कदम उठाए गए। जुलाई-अगस्त में Hugging Face के साथ 30-दिन की पूर्वावलोकन प्रतियोगिता भी आयोजित की गई, और परिणाम सारांश भी प्रकाशित किया गया है। Live ScienceARC Prize



सोशल मीडिया की प्रतिक्रिया में दिखे "तीन तापमान क्षेत्र"

1) संदेहवादी: "वह, AI नहीं, LLM है"

Reddit के r/technology पर, "AI" शब्दावली की अपेक्षाओं को बदलने की बात कही गई। LLM या अनुमान मॉडल के रूप में इसे बुलाया जाना चाहिए" जैसी आवाज़ें भारी मात्रा में एकत्रित हुईं। कुछ ने इसे "सांख्यिकीय पूर्वानुमान मशीन मात्र" कहकर खारिज कर दिया। शब्दावली के प्रति नाराजगी, "AGI आगमन" के विपणन के प्रति प्रतिक्रिया के साथ जुड़ी है। Reddit


2) जीवन के लोग: "कपड़े कौन तह करेगा?"

उसी धागे में, "AI घर के काम को कम नहीं करता", "कला का उत्पादन करता है और शौक को प्रभावित करता है" जैसी "जीवन के दृष्टिकोण से असंतोष" भी प्रमुखता से दिखा। अनुसंधान बेंच की उत्तेजना और दैनिक समस्याओं के अनसुलझेपन का अंतर स्पष्ट हो गया। Reddit


3) तकनीकी लोग: बेंच डिज़ाइन और स्कोर की व्याख्या पर गहन चर्चा

 


Hacker News पर "ARC-AGI-2 में मनुष्य का पैनल औसत 60% के आसपास है", "100%" का अर्थ है "सभी प्रश्न किसी द्वारा हल किए गए" जैसी मूल्यांकन डिज़ाइन की व्याख्या पर चर्चा हुई। o3 के उच्च स्कोर के प्रति भी "उच्च गणना शर्तों के कारण", "सामान्यता की बजाय खोज की मजबूती की जीत" जैसी विश्लेषण साझा की गई। Hacker NewsarXiv


इसके अलावा X (पूर्व में Twitter) पर, टेक इन्फ्लुएंसर ने Live Science लेख को साझा करते हुए, **"मनुष्य के लिए आसान और AI के लिए कठिन"** इस उलझन को उजागर किया। ARC का आधिकारिक खाता o3 के स्कोर की उपलब्धि की घोषणा करते हुए, नई पीढ़ी के बेंच की ओर ध्यान केंद्रित करता है। X (formerly Twitter)



क्या "सेकंड में हल करने की शक्ति" को उत्पन्न करता है: मनुष्य के तीन लाभ

  1. शारीरिक रूप से अंतर्ज्ञान
    मनुष्य बचपन से ही, वस्तुओं के "समूह" या "छेद", "घूर्णन समरूपता" आदि को शारीरिक अनुभव के माध्यम से स्वाभाविक रूप से प्राप्त करता है। ARC जैसे ग्रिड कार्य इस साधारण भौतिकी और गेस्टाल्ट के विस्तार के रूप में संसाधित होते हैं।

  2. अत्यधिक नमूना दक्षता
    कुछ उदाहरणों से, संभावित नियमों को तुरंत परिकल्पना और समाप्त कर सकते हैं। इसके विपरीत, गहन शिक्षण पूर्व वितरण से बाहरीकरण में कमजोर होता है।

  3. मेटा-लर्निंग के रूप में प्राग्मेटिक्स
    मनुष्य समस्या के विवरण या प्रस्तुति के तरीके से "प्रश्नकर्ता की मंशा" को पढ़ता है। यह, औपचारिक नियमों के बाहर के मेटा संकेत हैं।


कमल्राट के अनुसार, वर्तमान AI **"स्पाइक के रूप में बुद्धिमान है, लेकिन व्यापक रूप से गरीब है"**। व्यापक अज्ञात स्थितियों में "सीखने का तरीका" ही इसकी कमजोरी है। Scientific American



आगे की चुनौती:स्थिर चित्र→क्रिया, पाठ→पर्यावरण

स्थिर इनपुट-आउटपुट के पूर्ति से, पर्यावरण में अन्वेषण, योजना, और स्मृति की ओर। ARC-AGI-3 का वीडियो गेम के रूप में आकार लेना, बेंचमार्क की "बिना स्थिति" सीमा को पार करने के लिए है। अनुसंधान के संदर्भ में, एजेंट मूल्यांकन सुरक्षा से भी जुड़ा है।


योजना या आत्म-जांच को मापने में असमर्थ मॉडल, धारणाओं की अतिरेक (मतिभ्रम की वृद्धि) को उत्पन्न करने में सक्षम होते हैं। Live Science/Scientific American द्वारा दिखाया गया दिशा, एक प्रकार का बेंच की पीढ़ी परिवर्तन की घोषणा भी है। Live ScienceScientific American



"अब क्या किया जा सकता है" और "क्या नहीं किया जा सकता" को शब्दों में व्यक्त करना

  • वास्तविकता: o3 के बाद की "अनुमानित सुदृढ़ता" ने कुछ नई समस्या अनुकूलन को दिखाया। हालांकि, यह भारी खोज और लागत द्वारा समर्थित एक तीव्र क्षमता है, जो मनुष्य की तेज सामान्यीकरण से भिन्न है। ARC Prize##HTML