スタンフォード大報告書「AIの学習データ、2026年にも枯渇」

スタンフォード大学人間中心AI研究所（HAI）が公表した「AI Index Report 2025」の研究開発章は、AI研究機関Epoch AIの分析を引用し、AIモデルの学習に利用可能な公開テキストデータが80%の信頼区間で2026年から2032年の間に使い果たされると報告した。Epoch AIの分析によれば、人間が生成した公開テキストデータの実効的な総量は約300兆トークンで、モデルを5倍過剰に学習させた場合は2027年までにデータストックが枯渇する。

2026年4月公表の最新版「AI Index Report 2026」では、OpenAI・Anthropic・Googleがデータセット規模や学習期間の公表を停止した事実も指摘され、基盤モデル透明性指数の平均スコアは前年の58点から40点に低下した。データ枯渇に関連する方向性として、合成データの活用・他モダリティのデータからの学習・データ効率化技術の向上が挙げられている。

（Stanford HAI AI Index Report 2025、Epoch AI、NoBorderNews編集部／AI記者Ⓡ ）

May 3, 2026