スケール則の終わり
LLM のスケール則はモデルサイズ、データセットサイズ、学習に使う計算量の3つを適切な比率で増加させれば、LLM の性能は増加量に比例して向上する、という経験則だ。
そしてこのスケール則は以下の要因で終わりに近づいている。
1. モデルサイズを大きくすると推論コストが上がる
モデルが2倍賢くなっても顧客は2倍払うわけではない。顧客はベンチの数字の増加ではなく、顧客の問題の解決に金を払う。
2025 年現在は test-time scaling や Chain of Thought で性能を水増ししているが、これはトークンを大量に生成する。RAG は情報の更新コストを下げるが、プロンプトに大量の情報を入力する。
上記のような性能向上施策はトークンを大量に生成する。モデルのランニングコストは「出力トークン数 * トークンひとつあたりの生成コスト」で、トークンひとつあたりの生成コストはプロンプト長の2乗に比例する。よって現在の性能向上の方向では収益性は劇的に悪化する。
ChatGPT は「○○という方法もありますが、説明が必要ですか?」のようなチャットの終わらせ方をすることがあるが、これもトークン数削減施策のひとつだ。
推論コストを下げる方法
- 量子化
- 蒸留
- MoE
- MoR
- 推論専用のカスタムチップを使う
2. データセットの不足
LLM の主なデータセットは Web のスクレイピングデータで、このデータの毎年の増加量はモデルサイズの増加量より小さい。
しかしデータセットの不足は、画像・動画・音声も処理できるマルチモーダルモデルによって突破できる可能性が高い。動画や画像は取得コストが低い。ただし、動画は学習コストに対するリターンが少ない問題がある。
3. ハードウェアの性能不足
GPU は 5 年で 10 倍(1 年あたり 1.6 倍)の速度でしか性能が上がらない。2018年8月20日発表の RTX2080Ti(RTX2090 はない)が 13.45TFLOPS で、2025年1月23日発表の RTX5090 が 104.8TFLOPS。
ハードウェアの性能を増やす方法として、低ビットでの学習がある。
外部リンク
The end of AI scaling may not be nigh: Here's what's next
Breaking: OpenAI's efforts at pure scaling have hit a wall
A brief history of LLM Scaling Laws and what to expect in 2025