Apple の The Illusion of Thinking の誤解

カテゴリ：deeplearning

X（旧 Twitter）では Apple の The Illusion of Thinking: Understanding the Strengths and Limitations of Reasoning Models via the Lens of Problem Complexity という論文が「LRM は推論をしてるのではなくパターンマッチングをしているだけ」と主張しているという、間違いを信じている人が多い。

しかし、この論文はそのような主張はしていない。

実際の論文の内容

現在の推論モデルのベンチマークは数学とコーディングとに偏っている。そこで、ハノイの塔や川渡りやチェッカージャンピングのような、問題の複雑さを変更できる論理パズルを利用して推論能力を調査した。

得られた結論は以下の通り。

SOTA LRMs（o3-mini, DeepSeek-R1, Claude-3.7-Sonnet-Thinking）は、あるしきい値を超えると一般化可能な推論能力（generalizable reasoning capabilities）を発揮できなくなる
解法を教えても、解法通りに駒を操作できず、解法を教えなかった時とだいたい同じ位置で間違える
簡単な問題では LLM の方が正答率が高く、中難易度では LRM の正答率が高く、高難易度では両方正答できない
問題の複雑さが上がると正答率が悪化し、最終的に正答率は０になる
問題の複雑さがあるラインに達すると、出力するトークン数が減る
簡単な問題では早期に正答を見つけた後に、考えすぎることで誤答することがよくある（overthinking）
中難易度の問題では、LRM は最初に間違った解法を提案した後に、考え直して正答に到達することが多い

これらの洞察から、現在のアプローチでは LRM は一般化可能な推論能力が獲得できない可能性が示唆される。

LLM パターンマッチング論の誤解のソース

論文に引用されている GSM-Symbolic: Understanding the Limitations of Mathematical Reasoning in Large Language Models の内容を、The Illusion of Thinking の内容と誤読している。GSM-Symbolic 論文は、LLM に GSM-Symbolic benchmark の数値を変更した問題や質問の項目を増やした問題を解かせるとパフォーマンスが悪化したことから、LLM は論理的な推論を行えないのではないかという疑問を呈している。

問題の文章は GSM-Symbolic 論文の 5 Conclusion にある。

"It may resemble sophisticated pattern matching more than true logical reasoning."  
   
出典：Seyed Iman Mirzadeh et al. GSM-Symbolic: Understanding the Limitations of Mathematical Reasoning in Large Language Models

The Illusion of the Illusion of Thinking

Comment on The Illusion of Thinking: Understanding the Strengths and Limitations of Reasoning Models via the Lens of Problem Complexity では The Illusion of Thinking の論文には３つの問題があると指摘している。

ハノイの塔はモデルの出力トークン数の限界を超えているので、理論上正答が不可能
論文の実施した評価方法では、推論ミスとモデルの制約との区別ができず、モデルの推論能力を適切に評価できない
川渡りのパズルで N >= 6 ではボートの容量が不足しているので数学的に解けないにも関わらず、失敗と評価されている

LLM・LRM は自身の出力トークン数の限界を把握しているので、限界が近くなると詳細な出力をやめて結論を出すようになっている。この仕様を理解していないと、推論に失敗しているのかモデルの制約なのかを判別できない。

必要な回答が長くなると正答率が悪化するのは当たり前

モデルが p % の確率で正しいトークンを出力する場合、正答に T トークン必要なパズルに正答する確率は p^T。T = 10,000 なら

p = 0.9999 のとき正答率は 37% 以下
p = 0.999 のとき正答率は 0.005% 以下

プログラムの出力

「手順」を出力させるのではなく、「手順を出力するプログラムのソースコード」を LLM・LRM に書かせると正しいプログラムのソースコードを出力する。

ただし、ハノイの塔を解くソースはネットですぐに見つかるので、これを推論の結果と見なすことはできない。

パズルの複雑さの評価方法の問題

The Illusion of Thinking の論文では最小手数をパズルの複雑さの指標にしていたが、これはよくない。ハノイの塔の次の手は簡単に計算できるが、川渡りは NP 困難であり、複雑な計算が必要になる。手数の少ない川渡りの問題を LLM・LRM が解けなかったのはこれが原因だ。Blocks World も PSPACE であり、解くのに多項式時間かかる。

The Illusion of the Illusion of Thinking の結論

問題は、「LRM が推論できるのか」というところにあるのではなく、「評価方法がタイピングと推論との区別をつけられるのか」というところにある。

The question isn’t whether LRMs can reason, but whether our evaluations can distinguish reasoning from typing.
出典：C. Opus, A. Lawsen. The Illusion of the Illusion of Thinking

The Illusion of the Illusion of the Illusion of the Illusion of Thinking

The Illusion of the Illusion of the Illusion of the Illusion of Thinking はこれまでの議論のまとめと批判がなされている。

AI の出力が推論かパターンマッチか検索かという問いの立て方は間違っている。推論は少なくとも、パターン認識＋パターン操作＋パターン生成、というステップで構成され、パターンマッチを含むものだからだ。人間が推論するときにも前提知識を利用するので、（AIが推論できると仮定して）AI が推論時に学習した前提知識を利用すると推論していないというのは不公平だ。

Hallucination Stations: On Some Basic Limitations of Transformer-Based Language Models

数学分野のハルシネーションについての論文。計算複雑性制約があるので、AI の計算資源を超える計算が必要な問題を AI は解くことができない。

The illusion of thinking の川渡りは NP 困難であり、n の巨大なパズルは最初から解くことができない問題だった。

ProRL

NVidia の研究チームは ProRL: Prolonged Reinforcement Learning Expands Reasoning Boundaries in Large Language Models で、GRPO の正則化にカルバックライブラーダイバージェンスを追加する新手法と大規模な論理推論のデータセットとで訓練することで、LLM に未知の論理パズルを解かせることに成功している。

LLM で強化学習を実施する際にエントロピー崩壊が問題となっていた。訓練早々にモデルの出力分布がピークに到達して学習が不十分になっていた。そこで GRPO の正則化にカルバックライブラーダイバージェンスを追加することで、より大規模なデータセットでの強化学習ができるようになった。

「推論する生成AI」は事前学習されていない課題を正しく推論することができない（共変量シフトに弱い）

Is Chain-of-Thought Reasoning of LLMs a Mirage? A Data Distribution Lens の日本語の解説。

学習データにないデータを使って推論をさせると、正答率が低下するという内容。パズルの内容はアルファベットを別のアルファベットに機械的に置き換えるルールを推測するもの。