メインコンテンツにスキップ
ukiyo journal - 日本と世界をつなぐ新しいニュースメディア ロゴ
  • 記事一覧
  • 🗒️ 新規登録
  • 🔑 ログイン
    • English
    • 中文
    • Español
    • Français
    • 한국어
    • Deutsch
    • ภาษาไทย
    • हिंदी
クッキーの使用について

当サイトでは、サービスの向上とユーザー体験の最適化のためにクッキーを使用しています。 プライバシーポリシー および クッキーポリシー をご確認ください。

クッキー設定

クッキーの使用について詳細な設定を行うことができます。

必須クッキー

サイトの基本機能に必要なクッキーです。これらは無効にできません。

分析クッキー

サイトの使用状況を分析し、サービス向上に役立てるためのクッキーです。

マーケティングクッキー

パーソナライズされた広告を表示するためのクッキーです。

機能クッキー

ユーザー設定や言語選択などの機能を提供するクッキーです。

AIがまだ解けない“簡単なパズル”の深い理由 - 人間の脳が持つ驚異の力を探る : 人間には「秒」、AIには「迷路」

AIがまだ解けない“簡単なパズル”の深い理由 - 人間の脳が持つ驚異の力を探る : 人間には「秒」、AIには「迷路」

2025年09月02日 00:27

「人間には秒、AIには難問」——ARCが炙り出す“汎用性”の壁と次の勝負所

8月31日(米国時間)にLive Scienceに掲載されたインタビュー記事は、最新の巨大AIが「人間なら数秒で解けるパズル」に苦戦するという逆説を、改めて世に可視化した。題材は、AI研究者フランソワ・ショレが2019年に設計したARC(Abstraction and Reasoning Corpus)。色付きグリッド上で“隠れた規則”を見抜き、未見の盤面に適用するだけのシンプルな課題だが、肝は少ない例からの一般化能力だ。


ARCは、派手な学歴テストのハイスコアや高等数学の証明よりも、AIの「学び方」を抉り出す。この記事では、ARC Prize Foundationのグレッグ・カムラットの説明を足がかりに、この“人間ラクラク/AI苦手”現象の意味、SNSの反応、そして次の戦場となる**インタラクティブな“ゲーム型”評価(ARC-AGI-3)**まで、一気に読み解く。 Live ScienceScientific American


なぜARCがAIの「弱点センサー」なのか

ARCが測るのは、少数ショットでの抽象化と転移。言い換えれば、「教科書外で初見の状況に出会った時に、どれだけ素早く“ルール”を抽出して適用できるか」だ。カムラットは「AGIとは、学習効率で人間に並ぶこと、あるいは人間に解けてAIに解けない問題が見つからなくなった時だ」と語る。現状はその逆——人間の平均はARC-AGI-2で約66%を出す一方、AIは依然として取りこぼしが目立つ。人間のサンプル効率が桁違いに高いことが、差を生む根本だという。 Scientific American


「o3ショック」と“ベンチマークの飽和”論争

とはいえ、AI側の反撃も速い。2024年末、OpenAIのo3はARC-AGI-1のセミプライベート評価で75.7%(規定計算量)/87.5%(高計算量)を記録し、世界をざわつかせた。ここから「もうAGIか?」という過熱と、「いや高計算チューニングのスパイク性能だ」という冷静な反論が同時に噴き上がる。ARC側の技術ブログは**探索付き思考(検索とサンプリング)**などの工夫が奏功したと分析するが、同時に“本当の一般化”を測る課題づくりは進化し続けねばならないことも示唆する。 ARC Prize


次の土俵:ARC-AGI-3=100本規模の新作ビデオゲーム

ARC Prize Foundationは、一問一答の“無状態”ベンチから卒業する。2025年は、100本規模の2Dピクセルゲームで、探索・計画・記憶を要する“環境内スキル獲得”を評価するARC-AGI-3のプレビューを開始。内部テスト段階では「いずれのAIも1面もクリアできていない」という厳しいレポートが出ており、短期記憶やゴール推定などエージェント能力の本格測定に舵を切った。7–8月にはHugging Faceと連携した30日間のプレビュー競技も実施され、結果サマリーも公開されている。 Live ScienceARC Prize



SNSの反応で見えた“三つの温度帯”

1) 懐疑派:「それ、AIじゃなくてLLMでしょ」

Redditのr/technologyでは、「“AI”という名称が期待値をズラす。LLMや推論モデルと呼ぶべきだ」という声が大量に集まった。なかには「統計的予測機械に過ぎない」と切り捨てるコメントも。用語への苛立ちは、“AGI到来”というマーケティングに対する反発と表裏だ。 Reddit


2) 生活者の徒労感:「洗濯物は誰が畳むの?」

同じスレッドでは、「AIが家事を減らしてくれない」「アートを量産して趣味を侵食するだけ」といった“生活者目線の不満”も目立つ。研究ベンチの熱狂と、日常課題の未解決感のギャップが浮き彫りになった。 Reddit


3) 技術派:ベンチ設計とスコア解釈をめぐる丁々発止

 


Hacker Newsでは「ARC-AGI-2は人間のパネル平均が60%台」「“100%”は“全問が誰かに解かれた”の意味」など、評価設計の読み解きが議論に。o3の高得点に対しても「高計算条件によるもの」「汎化より探索強化の勝利」といった分析が共有された。 Hacker NewsarXiv


さらにX(旧Twitter)では、テック系インフルエンサーがLive Science記事を紹介しつつ、**「人間に易しくAIに難しい」**という捻れを可視化。ARC公式アカウントはo3のスコア達成を告知しつつ、新世代ベンチへと視線を移す。 X (formerly Twitter)



何が“秒で解ける力”を生むのか:人間の三つのアドバンテージ

  1. 身体化された直観
    人間は幼児期から、モノの“まとまり”や“穴”“回転対称”などを、身体経験を通して自然に獲得する。ARCのようなグリッド課題は、この素朴物理とゲシュタルトの延長で処理される。

  2. 極端なサンプル効率
    数個の例から、ありうる規則を瞬時に仮説生成・消去できる。対して深層学習は、事前分布からの外挿に弱い。

  3. メタ学習としての語用論
    人は問題文や提示のされ方から「出題者の意図」を読む。これは、形式的ルールの外にあるメタ手がかりだ。


カムラットが強調する通り、いまのAIは**“スパイク的に賢いが、面では貧しい”**。幅広い未知状況での“学び方”こそ弱点なのだ。 Scientific American



これからの勝負所:静止画→行動、文字→環境

静止した入出力の穴埋めから、環境内での探索・計画・記憶へ。ARC-AGI-3がビデオゲームという形を取るのは、ベンチマークの“無状態性”限界を超えるためだ。研究の文脈では、エージェント評価は安全性とも直結する。


計画や自己チェックが測れないモデルは、思い込みの暴走(ハルシネーションの強化)を起こしやすいからだ。Live Science/Scientific Americanの示す方向は、いわばベンチの世代交代宣言でもある。 Live ScienceScientific American



「今できること」と「まだできないこと」を言語化する

  • 現実: o3以降の“推論強化型”は、一定の新規課題適応を示した。しかし、それは重い探索とコストに支えられたピーキーな能力で、人間の高速一般化とは異質だ。 ARC PrizearXiv

  • 次の評価: 一問一答ではなく環境内スキル獲得を測るARC-AGI-3。ゲームは公開プレビューが進み、コミュニティ競技の総括も出始めた。研究者ではなくても、実際に遊んで自分の脳で確かめるのが早い。 three.arcprize.orgARC Prize


体感のすすめ:ARC-AGI-1/2/3の公開タスクは公式サイトから誰でも試せる。まずは数分、自分の直観の強さとAIのつまずき方を比較してみよう。 Live Science



まとめ:AGIは“滑らかな延長”では来ない

Live Scienceのインタビューは、**「強い専門性」≠「汎用性」**を端的に示した。AGIへは、スコアの上振れを積むのではなく、学習効率・探索・記憶・目標推定の地味でしぶとい積み上げが必要だ。SNSの論争は時に過熱するが、課題設定を変えることで、議論自体を前に進められる。次の一手は——静止画から、行動へ。そして、1問正解より、1面クリアだ。 Live ScienceScientific American


参考記事

AIは人間が数秒で解けるパズルを解くことができない
出典: https://www.livescience.com/technology/artificial-intelligence/ai-cant-solve-these-puzzles-that-take-humans-only-seconds

Powered by Froala Editor

← 記事一覧に戻る

お問い合わせ |  利用規約 |  プライバシーポリシー |  クッキーポリシー |  クッキー設定

© Copyright ukiyo journal - 日本と世界をつなぐ新しいニュースメディア All rights reserved.