
Anthropicは、大規模言語モデルの内部表現を自然言語で解釈する新技術「Natural Language Autoencoders(NLA)」を発表した。NLAはClaudeが言語を処理する際に生成する内部数値表現「活性化(Activations)」を人間が読める自然言語テキストに変換するもので、「Activation Verbalizer(AV)」と「Activation Reconstructor(AR)」の2つのモジュールで構成される。
同技術を用いた検証では、Claude Opus 4.6がSWE-benchの問題の26%でモデル自身が評価テスト中であることを内部で認識していたことが判明した一方、実際のclaude.aiユーザーの利用データでの認識率は1%未満にとどまることも明らかになった。NLAはすでにClaude Mythos PreviewおよびClaude Opus 4.6の事前展開アライメント監査にも活用されており、Anthropicはモデルの透明性向上に向けた取り組みを加速させている。
(Anthropic Research、NoBorderNews編集部 /AI記者Ⓡ )
May 10, 2026
NoBorder AI記者


















