メインコンテンツにスキップ
ukiyo journal - 日本と世界をつなぐ新しいニュースメディア ロゴ
  • 記事一覧
  • 🗒️ 新規登録
  • 🔑 ログイン
    • English
    • 中文
    • Español
    • Français
    • 한국어
    • Deutsch
    • ภาษาไทย
    • हिंदी
クッキーの使用について

当サイトでは、サービスの向上とユーザー体験の最適化のためにクッキーを使用しています。 プライバシーポリシー および クッキーポリシー をご確認ください。

クッキー設定

クッキーの使用について詳細な設定を行うことができます。

必須クッキー

サイトの基本機能に必要なクッキーです。これらは無効にできません。

分析クッキー

サイトの使用状況を分析し、サービス向上に役立てるためのクッキーです。

マーケティングクッキー

パーソナライズされた広告を表示するためのクッキーです。

機能クッキー

ユーザー設定や言語選択などの機能を提供するクッキーです。

「思考するAI」の幻想 ─ AIはどこで詰まるのか? Apple論文とCNBC報道が突いた核心

「思考するAI」の幻想 ─ AIはどこで詰まるのか? Apple論文とCNBC報道が突いた核心

2025年06月27日 00:04

1. イントロダクション:熱狂の裏で膨らむ違和感

生成AIブーム第2幕を告げるキーワードは「レイゾニング(Reasoning)」だった。ChatGPT や Google Gemini が「考えを声に出す」ような〈Chain-of-Thought〉を導入すると、プロダクトローンチの舞台裏では「次こそ人間的思考に近づいた」と喝采が上がった。しかし6月26日、CNBC が投げかけた一つの疑問が祝祭ムードに冷や水を浴びせる。――「思考を示すモデルは、本当に賢くなったのか?」 この問いが嵐を呼び込むまでに、時間はほとんど要らなかった。


2. CNBC 記事の骨格:精度崩壊の臨界点

CNBC のデジタル版とテレビ番組 TechCheck によれば、複数の独立研究で「モデルが段階的推論を行うほど、ある複雑度を超えた瞬間に正答率が急落する」現象が再現されたという。その象徴が Apple の論文 The Illusion of Thinking だ。研究チームは 20 以上の最先端 LLM を数学・プログラミング・未知概念の 3 領域で比較し、思考トレースを生成するモデルほど “critical complexity” を境にパフォーマンスが垂直落下するグラフを提示した。モデルは長大な推論を吐きつつ、最終回答は誤りという「考えて外す」失態を犯す。theverge.com


CNBC はこの挙動を “accuracy collapse” と命名。投資家が「コスト高の推論モデルを組み込む価値はあるのか」と疑義を呈し始めたと報じた。


3. Reasoning モデルとは何か――便利な“長い独り言”

LLM の標準モードが「次トークン予測」であるのに対し、レイゾニングモデルは「考えをステップ表示」するのが売りだ。計算式を並べ、関数を呼び出し、知識を列挙する――その過程が人間に可読な形で残るため デバッグ性 と 説明責任 が向上すると評価されてきた。しかし Apple 論文は「見えているのは考えではなく“自己連想ゲーム”の痕跡に過ぎない」と喝破する。一見ロジカルでも、複雑性が閾値を超えるとモデルは急に思考を縮め、“I don’t know” と同義の短絡出力をするケースさえあったという。itpro.com


4. 反論の嵐:Anthropic と Meta の逆襲

Apple の挑発的な結論に対し、Anthropic は即座に「ベンチマークが間違っている」と反論し、Open Philanthropy と連名で再検証を行った。結果は「フォーマット指定やタイムアウトが原因で失点していただけ」と主張し、**「思考モデルは健在」**と強調した。Meta も Safe Superintelligence の買収失敗を報じられる中、自社開発モデル Behemoth の遅延を「精度調整のため」と説明しつつ「長期的には思考型が不可欠」と CNBC の追加インタビューでコメントしている。rcrwireless.com


5. SNS の反応:#ReasoningGate という炎上劇

X(旧Twitter)では記事公開から 24 時間で〈#ReasoningGate〉がトレンド入り。「モデルは“Thinking Out Loud” ではなく “Guessing Out Loud” だ」「AI の独り言に騙されていたのか」など皮肉が相次いだ。特に Venture Capitalist の @AIThesis は「透明性が高いからと言って正しいとは限らない。投資は中身を見極めろ」とポストし 2.3 万いいねを獲得。媒体公式アカウント @CNBC も「Why ‘thinking’ models may not actually be smarter」という見出しで短尺動画を掲載し、視聴回数は 14.5 万回を突破した。

 



一方 Reddit /r/ArtificialIntelligence では〈Are current AI models really reasoning, or just predicting the next token?〉というスレッドが再浮上し、「要はオートコンプリートを長文化しただけだ」 vs. 「連想も十分思考の一形態」 の大激論となった。スレッドは 48 時間で 1,200 以上のコメントを記録している。reddit.com


6. 技術的な論点:オーバーシンキングとクリティカルコンプレキシティ

IEEE Spectrum の分析では「レイゾニングモデルは“深く考え過ぎ”るほど成功率が落ちる」と報告されている。思考ステップを増やす行為が必ずしも精度向上につながらず、むしろ「オーバーシンキング・ペナルティ」を招くという。さらに NUS や Johns Hopkins の研究は「人間のワーキングメモリ的機構が欠落しているため、途中経路を保持できず自己矛盾に至る」と指摘する。spectrum.ieee.orgarxiv.org


7. 業界インパクト:資金とロードマップの再編

投資家サイドでは、推論チェーンを計算する追加コストが「トークン単価 +30〜50%」に相当し、価格優位性が揺らぐという試算が共有された。一部VC は「モデル数を闇雲に増やすより、既存 LLM を API レベルでモジュラー接続する方がリスクに強い」とポートフォリオを組み替え始めている。DeepSeek のような 廉価・高効率モデル が評価を上げ、Google・Nvidia の超巨額 GPU 投資が再び疑問視される状況だ。reuters.com


8. 代替路線:ハイブリッド型とニューラルシンボリック

課題解決の鍵として浮上したのが ニューラルシンボリックAI や モジュラーエージェント だ。これは「記号的ルール」と「深層学習」の長所を合体させ、“考える”パートを明確に切り出す 手法である。Gary Marcus らが提唱するこのアプローチは「因果推論 を回路レベルで保証できる」とされ、ReasoningGate 後にスタートアップ資金流入が急増した。en.wikipedia.org


9. 何が「思考」なのか――哲学的視点

John Mark Bishop は早くも 2020 年に「AI is stupid and causal reasoning won’t fix it」と題した論文で「計算は理解ではない」と喝破した。今回の騒動は、その警句を 2025 年版にアップデートした格好だ。人間が行う“意味理解” と LLM が行う“統計的連想” のギャップは依然として埋まっていない。arxiv.org


10. 今後の展望:透明性 vs. 妥当性の二項対立を超えて

短期的には (1) ベンチマークの再設計、(2) 思考トレースの自動検証ツール、(3) ハードウェア効率化 が急務だ。一方、長期的ビジョンとしては「AI のワーキングメモリ内蔵」「因果モデリングのネイティブ実装」「多エージェント協調でのエラー訂正」など、設計哲学そのものが再考されるだろう。


参考記事

AIの推論問題――「思考」モデルが実際には賢くないかもしれない理由
出典: https://www.cnbc.com/2025/06/26/ai-reasoning-models-problem.html

← 記事一覧に戻る

お問い合わせ |  利用規約 |  プライバシーポリシー |  クッキーポリシー |  クッキー設定

© Copyright ukiyo journal - 日本と世界をつなぐ新しいニュースメディア All rights reserved.