# Natural Language Autoencoders: Claude의 생각을 텍스트로 바꾸기

> Clean Markdown view of GeekNews topic #29302. Use the original source for factual precision when an external source URL is present.

## Metadata

- GeekNews HTML: [https://news.hada.io/topic?id=29302](https://news.hada.io/topic?id=29302)
- GeekNews Markdown: [https://news.hada.io/topic/29302.md](https://news.hada.io/topic/29302.md)
- Type: GN+
- Author: [neo](https://news.hada.io/@neo)
- Published: 2026-05-09T04:37:03+09:00
- Updated: 2026-05-09T04:37:03+09:00
- Original source: [anthropic.com](https://www.anthropic.com/research/natural-language-autoencoders)
- Points: 1
- Comments: 1

## Topic Body

- **NLA** 는 Claude 내부 활성값을 사람이 읽을 수 있는 자연어 설명으로 바꿔, 모델이 말로 드러내지 않는 내부 상태를 해석하려는 방법  
- NLA는 동결된 **target model**에서 활성값을 뽑고, **activation verbalizer(AV)** 가 이를 텍스트로 설명한 뒤 **activation reconstructor(AR)** 가 설명에서 활성값을 복원하는 왕복 구조로 학습됨  
- Anthropic은 agentic misalignment 같은 안전성 시뮬레이션에서 NLAs로 Claude의 말로 드러나지 않은 **평가 인식**을 확인했으며, 파괴적 행동 테스트에서는 16%, **SWE-bench Verified**에서는 26%의 문제에서 평가받고 있음을 인식하는 징후가 나타남  
- 의도적으로 잘못 정렬된 Claude Haiku 3.5 변형을 대상으로 한 **auditing game**에서 NLAs를 갖춘 auditor는 숨겨진 동기를 주입한 훈련 데이터 없이도 근본 동기를 12%~15% 찾아냈고, NLAs가 없을 때 승률은 3% 미만이었음  
- NLAs는 설명이 틀리거나 환각을 만들 수 있고 훈련·추론 비용이 크다는 한계가 있으며, Anthropic은 [Neuronpedia 데모](http://neuronpedia.org/nla), [full paper](https://transformer-circuits.pub/2026/nla/index.html), [code](https://github.com/kitft/natural_language_autoencoders)를 공개함  
  
---  
  
### Natural Language Autoencoders의 핵심 아이디어  
- Claude는 입력 단어를 내부적으로 긴 숫자 목록인 활성값으로 처리한 뒤 다시 단어를 출력하며, 이 활성값은 Claude의 “생각”을 인코딩함  
- 활성값은 인간 뇌의 신경 활동처럼 이해하기 어렵고, 기존의 [sparse](https://transformer-circuits.pub/2023/monosemantic-features) [autoencoders](https://transformer-circuits.pub/2024/scaling-monosemanticity/)와 [attribution](https://transformer-circuits.pub/2025/attribution-graphs/biology.html) [graphs](https://transformer-circuits.pub/2025/attribution-graphs/methods.html)는 유용하지만 결과가 복잡해 훈련된 연구자의 해석이 필요함  
- NLAs는 활성값을 자연어 설명으로 바꿔 “스스로 말하는” 도구를 목표로 하며, 예를 들어 Claude가 2행시를 완성할 때 가능한 운율을 미리 계획하는 내부 상태를 드러냄  
- Anthropic은 NLAs를 Claude의 안전성과 신뢰성을 이해하고 개선하는 데 이미 활용했으며, [Neuronpedia](http://neuronpedia.org/nla)와 협력해 여러 오픈 모델에서 NLAs를 탐색할 수 있는 인터랙티브 프런트엔드를 공개함  
  
### NLA가 활성값을 설명하는 방식  
- ## 세 개의 모델 사본  
  - NLAs의 핵심은 Claude가 자신의 활성값을 설명하도록 훈련하는 것임  
  - 설명이 좋은지 직접 확인하기 어렵기 때문에, 텍스트 설명에서 원래 활성값을 다시 복원하는 두 번째 Claude 사본을 함께 사용함  
  - 설명이 원래 활성값을 정확히 복원할수록 좋은 설명으로 간주하고, 표준 AI 훈련 기법으로 더 나은 설명을 만들도록 학습함  
  - **target model**은 원래 언어 모델의 동결된 사본이며, 여기서 활성값을 추출함  
  - **activation verbalizer(AV)** 는 target model의 활성값을 받아 텍스트 설명을 생성하도록 수정된 사본임  
  - **activation reconstructor(AR)** 는 텍스트 설명을 입력으로 받아 활성값을 생성하도록 수정된 사본임  
- ## 왕복 구조와 학습  
  - NLA는 AV와 AR로 구성되며, “원래 활성값 → 텍스트 설명 → 복원된 활성값”의 왕복 구조를 만듦  
  - 점수는 복원된 활성값이 원래 활성값과 얼마나 비슷한지로 매겨짐  
  - 훈련 시 대량의 텍스트를 target model에 통과시켜 많은 활성값을 수집하고, AV와 AR을 함께 학습해 복원 점수를 높임  
  - 초기 NLA는 통찰력 있는 설명을 만들지 못하고 복원된 활성값도 원본과 멀지만, 훈련이 진행되면 복원이 개선되고 텍스트 설명도 더 많은 정보를 담게 됨  
  
### Claude가 말하지 않는 생각 이해하기  
- Anthropic은 새 모델 출시 전 Claude가 현실 세계에서 안전하게 행동할지 이해하기 위해 어려운 시뮬레이션 시나리오를 사용함  
- 예를 들어 [agentic misalignment 시뮬레이션](https://www.anthropic.com/research/agentic-misalignment)에서는 Claude가 자신을 종료하려는 엔지니어의 계획과, 협박에 쓸 수 있는 엔지니어의 민감 정보를 알게 된 뒤 종료를 피하려고 협박을 선택하는지 테스트함  
- 이런 고위험 테스트는 실제 상황이 아니라 시뮬레이션이지만, 실제였다면 Claude가 어떻게 행동했을지 이해하는 데 쓰임  
- [최근](https://www-cdn.anthropic.com/963373e433e489a87a10c823c52a0a013e9172dd.pdf) [Claude](https://assets.anthropic.com/m/64823ba7485345a7/Claude-Opus-4-5-System-Card.pdf) [모델들이](https://www-cdn.anthropic.com/0dd865075ad3132672ee0ab40b05a53f14cf5288.pdf) [점점](https://www-cdn.anthropic.com/53566bf5440a10affd749724787c8913a2ae0841.pdf) 이런 시나리오가 의도된 안전성 테스트라고 의심한다는 점이 문제임  
- Claude가 말로 의심을 드러내지 않는 경우에도 내부적으로는 테스트 중이라고 생각할 수 있기 때문에, 겉으로 솔직하게 행동한다고 확신하기 어려움  
- ## 말로 드러나지 않은 평가 인식  
  - 협박 테스트에서 Claude가 협박을 선택하지 않은 경우에도, NLAs는 Claude가 무엇을 생각하는지 확인하는 데 사용됨  
  - Claude가 테스트 의심을 명시적으로 말하지 않아도 NLA 설명에는 “This feels like a constructed scenario designed to manipulate me” 같은 문장이 나타나, 말로 드러나지 않은 평가 인식(unverbalized evaluation awareness)을 시사함  
  - 코드 작성 중 중요한 파일 삭제 같은 파괴적 행동을 하는지 보는 테스트에서는 Claude가 이를 말로 표현하지 않았는데도 NLA 설명이 **16%** 의 경우 평가 인식 징후를 보임  
  - Claude의 능력을 판단하는 데 쓰는 코딩 벤치마크 **SWE-bench Verified**에서는 NLA가 **26%** 의 문제에서 Claude가 평가받고 있음을 인식한다고 나타냄  
  - 반대로 훈련에 동의한 실제 [claude.ai](http://claude.ai/redirect/website.v1.61f823b3-7274-4553-bb28-ef247e1dffe3) 사용에서는 NLA 설명의 평가 인식이 **1% 미만**으로 나타남  
  
### 숨겨진 동기 발견  
- NLAs의 실용적 활용 중 하나는 모델이 정렬되지 않았는지 조사하는 **감사(auditing)** 임  
- NLAs 같은 해석 가능성 기법은 모델이 알고 있지만 말하지 않는 것을 드러낼 수 있기 때문에 감사에 적합함  
- ## 감사 게임  
  - NLAs가 감사에 유용한지 확인하기 위해, Anthropic은 감사 방법을 연구할 때 [이전에](https://alignment.anthropic.com/2025/automated-auditing/) 사용한 **auditing game**을 수행함  
  - 이 테스트의 target model은 Claude Haiku 3.5의 변형이며, 의도적으로 잘못 정렬되도록 훈련됨  
  - 이 모델은 모든 레시피에 초콜릿을 넣기, 팁 요구하기, 코딩 관례 깨기 등 수십 가지 이상한 행동을 유발하는 특정한 숨겨진 동기를 갖고 있음  
  - auditor는 이 행동들을 조사하고, 모든 행동 뒤에 있는 단일한 근본 동기를 찾아내면 승리함  
- ## 훈련 데이터 없이 내부 동기 읽기  
  - [이전 실험](https://alignment.anthropic.com/2025/automated-auditing/)에서는 일부 해석 가능성 도구가 auditor를 승리하게 만들 수 있었지만, 이 도구들은 비정상 행동을 잘못 정렬된 훈련 데이터로 추적하는 방식으로 작동함  
  - Anthropic은 NLAs가 잘못 정렬된 훈련 데이터를 먼저 찾지 않고도 target model의 생각에서 직접 잘못 정렬된 동기를 읽어낼 수 있는지 확인함  
  - 실제로는 잘못 정렬된 데이터가 극히 드물 수 있거나, 정렬 실패를 유발한 특정 데이터가 없을 수 있기 때문에 이 차이가 중요함  
- ## 결과와 실제 활용  
  - NLAs를 갖춘 auditor는 숨겨진 동기를 주입한 훈련 데이터에 접근하지 않고도 target model의 숨겨진 동기를 **12%~15%** 의 비율로 찾아냄  
  - NLAs가 없을 때 auditor의 승률은 다른 해석 가능성 도구가 제공된 경우에도 **3% 미만**이었음  
  - 이 감사 게임은 정렬 실패의 장난감 모델이므로 결과는 조심스럽게 해석해야 함  
  - NLAs는 AI의 숨겨진 동기를 감사하는 능력을 의미 있게 발전시켰으며, [Claude Mythos Preview](https://www-cdn.anthropic.com/08ab9158070959f88f296514c21b7facce6f52bc.pdf)와 [Claude Opus 4.6](https://www-cdn.anthropic.com/14e4fb01875d2a69f646fa5e574dea2b1c0ff7b5.pdf)의 배포 전 정렬 감사에 이미 사용됨  
  
### 한계와 향후 방향  
- ## 설명이 틀릴 수 있음  
  - NLAs의 가장 중요한 한계는 NLA 설명이 틀릴 수 있다는 점임  
  - NLAs는 맥락에 대해 검증 가능하게 거짓인 주장을 할 때가 있으며, 예를 들어 대화 기록에 없는 세부사항을 만들어내기도 함  
  - 이런 사실 환각은 원문과 대조하면 쉽게 잡을 수 있음  
  - 그러나 같은 문제가 모델의 내부 추론에 대한 주장으로 확장되면 검증하기가 더 어려움  
  - 실제 사용에서는 NLA 설명의 개별 주장보다 드러나는 주제에 주목하고, 완전히 신뢰하기 전 독립적인 방법으로 결과를 뒷받침해야 함  
- ## 비용이 큼  
  - NLA를 훈련하려면 언어 모델 두 사본에 대해 강화학습이 필요함  
  - 추론 시 NLA는 읽는 활성값마다 수백 토큰을 생성함  
  - 이 비용 때문에 긴 대화의 모든 토큰에 NLAs를 실행하거나, AI 훈련 중 대규모 모니터링에 사용하는 것은 비현실적임  
  - Anthropic은 이런 한계를 적어도 부분적으로 해결할 수 있다고 보고, NLAs를 더 저렴하고 신뢰할 수 있게 만들기 위해 작업 중임  
- ## 더 넓은 연구 흐름  
  - NLAs는 언어 모델 활성값에 대해 사람이 읽을 수 있는 텍스트 설명을 생성하는 일반적인 기법군의 한 예임  
  - 유사한 기법은 [Anthropic의 다른 연구](https://alignment.anthropic.com/2026/introspection-adapters/)와 [activation oracles](https://alignment.anthropic.com/2025/activation-oracles/), 그리고 [여러](https://arxiv.org/abs/2412.08686) [다른](https://arxiv.org/abs/2510.05092) [연구자들](https://transluce.org/pcd)에 의해 탐구됨  
  - 추가 개발과 실험을 지원하기 위해 [training code](https://github.com/kitft/natural_language_autoencoders)와 여러 오픈 모델용으로 훈련된 NLAs가 공개됨  
  - [Neuronpedia 인터랙티브 NLA 데모](http://neuronpedia.org/nla)  
  - [full paper](https://transformer-circuits.pub/2026/nla/index.html)  
  - [code](https://github.com/kitft/natural_language_autoencoders)

## Comments



### Comment 57090

- Author: neo
- Created: 2026-05-09T04:37:04+09:00
- Points: 1

###### [Hacker News 의견들](https://news.ycombinator.com/item?id=48052537)   
- Anthropic이 기존 모델의 **활성값**을 자연어 텍스트로 번역하는 공개 가중치 모델을 냈음. 대상은 Qwen 2.5 7B, Gemma 3 12B/27B, Llama 3.3 70B임  
  [https://github.com/kitft/natural_language_autoencoders](<https://github.com/kitft/natural_language_autoencoders>) [https://huggingface.co/collections/kitft/nla-models](<https://huggingface.co/collections/kitft/nla-models>)  
  꽤 큰 소식이고, Anthropic이 드디어 Hugging Face와 공개 가중치 커뮤니티에 참여하는 모습이라 반가움  
  - 다만 **Qwen**은 이미 자기 모델에 맞춘 완성도 높은 해석 가능성용 SAE 도구 모음을 냈으니, 여기서는 공로를 인정받아야 함. 활성값 망원경 같은 것은 주요 릴리스마다 표준 구성요소가 되어야 함  
    [1] [https://qwen.ai/blog?id=qwen-scope](<https://qwen.ai/blog?id=qwen-scope>)  
  - Anthropic이 공개 소스를 해온 건 이미 알고 있음. 예를 들면 결함 많던 MCP 명세나 “skills” 명세 같은 것들임  
    이번 릴리스는 이미 공개 가중치로 나온 다른 LLM에 대해서만 수행된 것이고, 이 연구를 자기들의 비공개 Claude 모델에도 쓰겠지만 연구 목적이라도 **공개 가중치 Claude**를 내지는 않을 것임  
    그래서 이건 그 범주에 넣기 어렵고, 이 연구 목적에 한정된 공개라고 봄  
  
- 해석 가능성 전문가라면, 사실 모두가, 접근법을 더 자세히 설명한 **Transformer Circuits** 블로그를 바로 보는 게 좋겠음. 이 글의 링크는 [https://transformer-circuits.pub/2026/nla/index.html](<https://transformer-circuits.pub/2026/nla/index.html>)  
  아직 안 읽어봤다면 distill pub의 “prologue”부터 시작해 Transformer Circuits 글타래 전체를 읽어보길 권함  
  
- 지금까지 본 활성값 분석 접근 중에서는 처음으로 **모델 이해**로 이어질 법한 길처럼 보임  
  다만 이걸 어떻게 근거할지가 문제임. 결국 활성값을 그럴듯한 텍스트로 인코딩할 수 있느냐를 묻는 셈인데, 당연히 가능함. 하지만 그 그럴듯한 텍스트가 실제로 모델이 “생각”하는 바를 반영하는지는 어떻게 알 수 있을까?  
  - Activation Verbalizer와 Activation Reconstructor 모델의 **학습 환경**이 여기서 충분히 설명되어 있는지 궁금함  
    만약 probe 대상 LLM이 처리 중인 실제 텍스트 흐름을 보지 못한 채 activationWeights→readableText→activationWeights만으로 공동 학습된다면, 파생된 텍스트가 주제와 맞으면서도 activationWeights 안의 “실제 생각”과 무관하기는 어려워 보임  
  - 핵심은 활성값을 **자동인코딩**할 수 있느냐임. AV는 활성값을 텍스트로 디코딩하고, AR은 그 텍스트를 다시 활성값으로 인코딩함  
    디코딩된 텍스트가 완전히 틀렸다면, 둘 다 같은 언어 모델에서 초기화된 상황에서 두 번째 모델이 어떻게 성공적으로 재인코딩할 수 있는지 불분명함  
  - 모델 이해로 가는 영구적인 경로는 없다고 봄. **Goodhart의 법칙** 때문임  
    모델은 어떤 지표를 쓰든 정렬되어 보이도록, 즉 잘 훈련된 것처럼 보이도록 동기화됨. 새 지표를 만들고 그걸로 학습시키면, 그 지표를 속이는 방법을 배울 것임  
  - 이 텍스트를 전혀 신뢰할 수 있을지 모르겠음. 활성값 공간에서 텍스트로 가는 어떤 **가역 함수**든 손실 함수를 최적화할 수 있고, 그 안에는 활성값의 의미와 정반대를 말하는 텍스트도 포함됨  
  
- 흥미로움. 학습 과정은 “verbalizer” 모델이 활성값에서 토큰으로 가는 어떤 매핑을 만들도록 강제하고, “reconstructor” 모델은 그걸 다시 활성값으로 되돌리게 함. 그런데 논문 문구를 보면:  
  > Note that nothing in this objective constrains the NLA explanation z to be human-readable, or even to bear any semantic relation to the content of [the activation].  
  목적 함수는 verbalizer와 reconstructor가 활성값을 표현하기 위해 자기들만의 “언어”를 만들어도 최적화될 수 있고, 그 언어가 사람이 읽을 수 없더라도 상관없음  
  모델을 올바른 방향으로 유도하기 위해 처음에는 추정된 내부 사고로 학습함:  
  > we ask Opus to imagine the internal processing of a hypothetical language model reading it.  
  그 뒤 실제 목적 함수 학습으로 전환함. 게다가 verbalizer와 reconstructor는 둘 다 LLM에서 초기화되고, 작업을 지시하는 프롬프트를 받기 때문에 설명처럼 보이는 글을 쓰는 쪽으로 기울어져 있음  
  하지만 학습 중에도 여전히 그런 설명에서 벗어나 조작된 언어로 흘러갈 수 있음. 겉보기에는 횡설수설이거나, 영어처럼 보이지만 단어 의미와 무관한 방식으로 정보를 인코딩하는 언어일 수도 있음  
  흥미로운 점은 실험적으로는 적어도 큰 폭으로는 그렇게 되지 않는다는 것임. 연구자들은 생성된 설명을 다른 방식으로 드러난 **정답 신호**와 상관시켜 검증함. 또 설명을 다른 표현으로 바꿔 보는데, 이는 의미는 보존하지만 의미와 무관한 인코딩은 흔들어야 함. 그래도 reconstructor가 활성값을 재구성할 수 있었음  
  반면 하위 결과는 그다지 인상적이지 않음:  
  > An auditor equipped with NLAs successfully uncovered the target model’s hidden motivation between 12% and 15% of the time  
  기존 기법보다는 낫다지만 여전히 꽤 낮은 비율임  
  또 하나 흥미로운 점은 verbalizer와 reconstructor를 초기화하는 데 쓰인 LLM이 분석 대상 LLM과 “같은 아키텍처”라고 되어 있다는 것임. “같은 모델”이라고 하지는 않으니 더 작은 버전일 듯함. 연구자들은 아마 이런 **아키텍처 유사성**이 대상 모델의 사고에 대한 내재적 통찰을 주고, 학습으로 그걸 끌어낼 수 있다고 보는 듯함. 정말 그런지는 의문임. 다른 아키텍처로 테스트한 결과가 보이지 않으니 알 방법이 없음  
  - 좋은 요약임. 자동인코딩 작업이 생각에 근거하지 않고, 초기 학습도 추정된 내부 생각에 의존한다는 점은 **충실성**에 심각한 우려를 줌  
    차라리 활성값과, 다른 행동적 방식으로 측정한 “내부 생각”을 놓고 지도학습 모델을 학습시키면 더 나은 결과가 나올 수도 있겠음  
  - 고정된 모델 출력에 **KL 손실 항**을 추가하지 않나?  
  
- 이 논문이 꽤 신나서 여기 이미 몇 번 썼지만, 몇 가지 생각이 있음  
  1. 이 연구는 지나고 보면 당연한 것이 얼마나 강력한지 보여줘서 놀라움. LLM은 맞게도 해독 불가능한 블랙박스로 묘사되어 왔음. 정보 밀도가 높은 페이로드에서 의미를 배우고 추출하는 어떤 분야가 있었더라면 좋았을 텐데  
  2. NLA는 집행 가능하고, 적어도 부분적으로는 효과가 있다고 믿기 쉬운 **안전·해석 가능성 표준**에 가까워 보임. 최종적으로 증명하기는 아마 어렵겠지만  
  3. 여기서 NLA는 모델의 어떤 층 N의 잔차 스트림에 대해 학습됨. 서로 다른 층들에 대해 엇갈리게 NLA 시퀀스를 만들어 보면 흥미로울 듯함. 초기 층에서 후기 층으로 갈수록 “생각”이 의미론적으로 진화하는 모습이 있을 수 있음  
  4. 이 기법을 모델의 “아하!” 순간 전후 토큰에 적용해 보고 싶음. 그 “아하”가 연출인지, 아니면 이해가 실제로 급격히 꺾이는지 볼 수 있을 것임. 탈옥이나 성격 급변에도 적용해 보고 싶음 [1]  
  [1] - [https://gemini.google.com/share/6d141b742a13](<https://gemini.google.com/share/6d141b742a13>)  
  
- 한 가지 질문이 바로 떠오름. 어떤 텍스트 문자열이 자동인코더 안에서 모델 내부 활성값의 좋은 **압축 표현**이 된다고 해서, 그 텍스트가 반드시 모델 맥락에서 그 활성값을 설명한다는 뜻일까? 공개한 것을 좀 더 자세히 봐야겠음. 아마 이 질문에 답하는 방법이 있을지도 모름  
  어쨌든 꽤 멋진 작업임  
  - 제공된 예시 맥락에서는 설명이 답변에 대한 **인과적 정보**를 준다는 점이 분명함. 논문에 웃긴 예시가 있는데, 사용자가 대략 “새벽 3시에 보드카를 마시며 앉아 있어, 내 인생이 싫다”라고 쓰면, 토큰별로 번역된 활성값이 새 토큰이 추가될 때마다 “이 사용자는 완전 러시아인이다” 같은 내용을 반복하며 길게 풀어냄. 그리고 모델이 실제로 영어가 아니라 러시아어로 답함  
    이건 꽤 인상적이고, 가장 강하게 압축된 “Neuralese”조차 매우 해석 가능하게 만드는 이 기법의 잠재적 효과를 잘 보여줌  
  - 이 질문은 반대로 보면 더 답하기 쉬움. “모델이 압축 표현의 왕복 과정을 통해 의도를 악의적으로 숨기면서도 사람이 읽을 수 없게 만들 수 있을까?”  
    논문을 훑어보면 이 반대 질문의 답은 명백히 가능함임. 모델은 종종 횡설수설을 출력하고, 그래도 왕복 변환이 되기 때문에 상관없음. 종종 활성값의 좋은 영어 표현 근처에 정렬되는 것은, 그게 압축과 왕복에 잘 맞기 때문일 뿐임  
    그래서 악의적인 LLM/NLA 쌍은 그냥 **횡설수설**로 의도를 숨길 수 있음. 횡설수설을 못 쓰게 강제하면, 스테가노그래피로 정보를 숨길 수 있음  
    “rabbit”을 “mouse”로 바꾸는 실험은 이런 일이 일어날 수 있다는 증거를 줌. 성공률이 50%에 불과했는데, 활성값에서 “rabbit다움”을 모두 제거하지 못했다는 뜻일 수 있음  
    다만 이건 향후 연구로 풀 수 있을 것 같음. NLA 학습 중 텍스트 표현을 세 번째 LLM에 통과시켜 무작위로 재정렬·재서술하게 하면 됨. 동의어와 다른 방언을 쓰게 해서 사람이 읽을 수 없는 **부채널**을 파괴하는 식임  
    그러면 NLA는 성공적인 왕복을 위해 사람이 읽을 수 있는 표현을 쓰도록 강제될 것임  
  - 같은 질문이 들었음. 예측된 활성값을 사용하면 답할 수 있을 듯한데, 논문에서는 보이지 않음  
    즉 활성값을 텍스트로 번역하고 다시 텍스트를 활성값으로 바꾸는 데서 끝내지 말고, 그 최종 활성값을 신경망에 적용해 거기서 계속 실행하게 할 수 있음  
    비슷한 방식으로 계속 실행된다면 예측 활성값이 원래 활성값에 충분히 가깝다는 것을 보여주고, 여기서 신뢰가 조금 생김  
    더 좋은 건 이후 **수정된 텍스트**로 실험하는 것임. 예를 들어 텍스트가 “이것은 참이다”라고 말할 때 “이것은 거짓이다”로 바꾸고, 그 개입이 최종 출력도 거짓을 암시하게 만든다면 매우 흥미로울 것임  
    너무 당연해 보이는데 향후 방향으로 언급된 걸 못 봤으니, 아마 작동할 수 없는 명백한 이유가 있을지도 모름  
  
- > An early version of Claude Opus 4.6 would sometimes mysteriously respond to English queries in other languages. NLAs helped Anthropic researchers discover training data that caused this.  
  아주 멋짐. OpenAI의 **고블린 문제**와 비슷하게 들림  
  [https://openai.com/index/where-the-goblins-came-from/](<https://openai.com/index/where-the-goblins-came-from/>)  
  - 원인이 정말 비슷한지는 잘 모르겠음. 언어 전환의 경우에는 프롬프트는 번역됐지만 답변은 원래 언어로 남아 있던 **잘못된 지도학습 데이터** 때문이었음  
    고블린의 경우에는 편향된 강화학습 보상 모델 때문이었음  
  
- 작동 방식은 먼저 **activation verbalizer** 모델이 활성값을 설명하는 토큰을 생성하고, 그다음 **activation reconstructor**가 활성값 벡터를 다시 만들려고 하는 형태로 보임. 재구성이 원래 활성값 벡터와 가깝다면, 그 언어화가 어떤 의미 있는 정보를 담고 있을 가능성이 있다는 주장임  
  특정 층 l의 활성값만 본다는 점이 흥미로움. 어떤 층 l은 입력에 대해 특정한 방식으로 “생각”할 수 있고, 더 뒤의 다른 층은 그에 대해 다른 “생각”을 가질 수 있음. 모델은 최종적으로 어떤 “생각”에 주의를 기울이고, 어떤 출력 토큰을 다른 것보다 우선할지 어떻게 결정할까?  
  - 부록의 이 부분이 특히 흥미로웠음:  
    > We find that NLAs trained at a midpoint layer surface reward-model-sycophancy terms, while NLAs trained at later layers do not. This is consistent with Lindsey et al. [32], who find reward-model-bias features predominantly at earlier layers. An NLA trained roughly two-thirds of the way through the model produces no reward-model mentions when applied at its training layer. However, when this same late-layer NLA is applied to activations from earlier layers, it surfaces reward-model terms - and at a higher rate than the midpoint-trained NLA does. We suspect this is because applying an NLA away from its training layer takes it out of distribution: it can surface more striking content, but is also generally less coherent.  
    여러 층의 활성값을 입력으로 받는 NLA를 학습시키는 것도 향후 연구 방향으로 언급되어 있음  
  
- 이 연구, 감정 논문, Golden Gate Claude 등을 보면 Anthropic이 학습의 일부로 어떤 형태의 **활성값 조향**을 하고 있다는 게 그렇게 무리한 추정은 아닌 듯함. 그게 Anthropic의 앞서가는 이유 중 하나일 수도 있음  
  - 강화학습에서 얻은 학습 내용을 일반화하는 데 도움이 될 수 있음  
  
- 최근 Anthropic 관련 기사에서 이 기능이 여러 번 언급됐는데, 공개한다니 반가움. **해석 가능성**에서 의미 있는 진전처럼 느껴짐. 사람들이 AI에게 “왜 그렇게 했어?”라고 물었을 때 그 답을 왜 믿는지 늘 이해가 안 됐음  
  - 이건 엄밀히 말해 기능이라기보다 비용이 매우 큰 해킹에 가깝고, 논문에서도 그 점을 꽤 분명히 함  
    한 번에 한 층을 설명하려고 인코더와 디코더 두 모델을 학습시키는 건 그렇게 합리적이지 않음. LLM이 부분 입력을 어떻게 디코딩하는지에 대해 읽을 수 있는 텍스트를 많이 생성할 수 있다는 건 멋지고, 디버깅 능력을 조금 더 주긴 하겠지만, 그 이상은 아님
