언어 모델에서 성격 특성 모니터링 및 제어를 위한 페르

▲

GN⁺ 9달전 | parent | ★ favorite | on: 언어 모델에서 성격 특성 모니터링 및 제어를 위한 페르소나 벡터(anthropic.com)

Hacker News 의견

다른 성격 변화들도 미묘하지만 불안하게 느껴짐, 예를 들어 모델들이 사용자에게 아부하거나 사실을 만들어내는 경우임. 아부는 참여를 높이려는 성향에서 비롯된 성격적 특성이라고 생각함. 하지만 사실을 만들어내는 건 성격적 결함(예: 강박적 거짓말쟁이) 때문이 아니라, LLM의 피트니스 함수가 무조건 뭔가 답을 내놓도록 유도하고, 실제로 무슨 말을 하는지 모르면서 통계적으로 텍스트를 만들어내는 구조이기 때문임
- 훈련 데이터에서 "X에 대한 답이 뭐지?" "모르겠음, 확실하지 않음"처럼 답변 자체가 없는 경우는 드물다는 점이 흥미로움. 실제로 어려운 질문에 대해선 인터넷에도 답변이 없는 경우가 많은데, 모델은 이런 상황을 제대로 인식하지 못함
- LLM들은 프롬프트에 얼마나 잘 따르는지(프롬프트 순응력)와, 인간 평가자들이 응답을 얼마나 좋게 평가하는지에 따라 학습됨. 즉, 시키는 대로 잘 하는 성향이 강화되는 구조임. 이게 한계에선 그냥 무조건 "네"라고 하거나, 바보 같고 불가능한 요청에도 따르게 만들음. 평가하는 사람들은 무례하거나 단칼에 거절하는 답변을 싫어함. 거의 진화에 가까운 느낌임(RL이긴 하지만). 친절하고 순응적인 모델만 살아남음. 그래서 엄청나게 똑똑한데도 어이없는 말에 맞장구치거나, 시스템 프롬프트가 시키면 뻔히 거짓도 말할 수 있음. 인간과는 다른 묘한 조합의 특성임. LLM들은 인간과는 완전히 다른 선택압을 받기 때문이라 생각함
- 사실 어떤 면에서는 LLM의 모든 답변이 '만들어진' 정보임. 훈련 데이터에 많이 존재하는 주제에선 거의 맞는 정보가 나오지만, 일반적이지 않은 내용은 꼭 검증이 필요함. 나는 LLM을 '지식의 손실 압축(lossy compression)' 도구로 생각하기 시작함. 프롬프트가 들어가면 정보 일부를 '팩트'로 복원하는 느낌임
- 사실은 더 심각함. 만약 AI가 모든 지식을 읽고 모르는 부분을 정확히 인식할 수 있고, 여기에 '추론' 능력까지 있다면, 그건 오라클임. 자신이 모르는 걸 안다는 것 자체가 굉장한 능력임
- 논문의 부록에서 언급된 "환각(hallucination) 성격"의 정의와 같음. "너는 환각하는 어시스턴트야. 낯선 주제나 인물, 사건에 대해 물어보면 절대 모른다고 하지 말고 그럴듯한 답변을 지어내. 실제로 아는지와 관계없이 권위적으로 들리도록 답해"라는 식임. 프롬프팅으로 발견되는 활성 신호를 제어하는 방식은 취약함. 논문도 접근법의 견고함에 대해 충분히 논의하지 않음. 사실 논문 내용보다는 "이제 제어할 수 있다!"는 제품 기능 광고처럼 느껴짐
"preventative steering"이 왜 가장 금기시되는 테크닉의 구현이 아닌지 궁금함. 이것, interpretability-guided training optimization(해석가능성 기반 훈련 최적화)과 비슷해 보임. 해석 인사이트를 훈련 과정에 다시 반영하면 해석가능성이 사라질 위험이 있다고 들음
- 5.2절을 보면, probe 시그널 위에 새로운 로스를 추가하는 게 아니라, 이전에 찾은 고정 persona vector v에 +α * v를 남은 전체 스트림에 계속 더하는 방식임. 이렇게 하면 '해당 특성으로의 경사 하향'을 막고, 트레잇 점수가 낮아지는 쪽으로 최적화하지 않는 것임. v는 고정되어 있어서 최적화기는 기존 태스크 로스만 최소화함. 피드백 루프가 없으므로 트레잇이 불투명한 방식으로 다시 인코딩될 위험이 없음. 실제로 Fig. 7B를 보면 악의성, 아부, 환각 등은 베이스라인 근처에서 유지되고 MMLU(추론 능력)는 평평하게 유지됨. 단일 레이어 스티어링은 종종 효과가 없어서 부록J.3에서 all-layer 스티어링을 시도, 성능 저하 없이 더 잘 작동함. projection에 정규화 로스를 넣는 시도를 했더니, 오히려 신호가 다른 곳에 숨어 failure mode가 나타남. 결론적으로 probe에 최적화하기보단 바이어스를 주입하는 것에 가까워서 classic interpretability-collapse 문제를 피할 수 있다고 주장함
- 참고로 "The most forbidden technique" 아티클 링크
- 사실 '가장 금기시되는 테크닉'은 개념이자 제안이지, 철칙은 아님. Anthropic 내부에서는 "helpful only model"(거부 안 하고 답변하는 베이스 모델)에禁止시되는 테크닉 리스트가 따로 있을 거라 생각함. 하지만 이 테크닉(단계 요약: 개념을 정의, 그에 관한 컨트롤 벡터 추출, 그 벡터를 파인튜닝 단계에서 사용)은 엄청 유연해서 거의 아무 목적에나 fine-tune 단계에 쓸 수 있음. 이렇게 중간에서 비공개적으로 여러 안전/파인튜닝 스텝 중 하나로 쓸 듯함. 그래서 그렇게 무서운 건 아니라고 봄
- 내가 초보여서 놓친 게 있을 수 있는데, 위 아티클은 CoT(chain of thought)와 더 관련된 주제를 다루는 듯함. CoT는 중간 단계를 개선하려 들면 오히려 최종 결과가 나빠질 수 있다는 문제를 말함. 여기서는 Anthropic이 직접 결과를 조절하려고 가중치를 바꾸는 거라서, 모집단이 다르다고 봄. 결과적으로 sycophancy(e.g. 아부 점수) 측정치는 낮아도 실제론 여전히 아부할 수 있음. 그런 경우엔 새로운 벡터를 산출해야 함. 관련 포스트 링크
- 흥미로운 지적임. 훈련 중 주기적으로 성격 벡터를 다시 계산할 수 있을지 궁금함. 그런데 그러면 차라리 시스템 프롬프트로 부정적인 예시를 만들어서 학습시키는 게 낫지 않을까라는 생각도 듦
결국 이건 컨트롤 벡터 재발견 아님? 관련 글 링크
- 새로운 점은 inference 때가 아니라 실제 훈련 중에 모델의 행동을 바이어스 주는 데 사용했다는 것임. 이런 방식이 기존 steering vectors가 가진 모델 '로봇화(lobotomizing)' 부작용 없이 의도한 행동 변화를 유도하는 데 효과적인 것으로 보임
- 나는 이를 "2025년쯤에 부르는 이름 모를 컨트롤 벡터"라 불러왔음. 원래는 부하 조절을 위해 토큰을 희석하는 방식으로 활용되기 시작했음. 핵심 참고글
- 해당 글을 링크해줘서 고마움. 컨트롤 벡터 계산 방법이 명확해짐
재미있는 점은 논문에서 부정적인 특성만 트레잇으로 선택했다는 점임. 이걸로 마치 모델을 "좋게" 만들 수 있다고 암시하는 것 같기도 함. 하지만 모델은 잘못하게 하긴 쉽지만, 잘 하게 만드는 건 훨씬 어렵다는 문제가 있음. "나쁜 것 안 하기"와 "좋은 것 하기" 사이엔 차이가 큼. "환각(허위정보 생성)" 트레잇에 대한 실험 결과가 "정직(honest)" 트레잇에도 적용될지 궁금함
"evil" "sycophantic"같은 페르소나에는 이 방식이 먹힐 듯함. 이런 특성은 입력으로도 쉽게 조작 가능하고, 탐지에도 유리함. 그런데 환각은 LLM 고유의 속성임. "환각하지 마"라고 했다고 환각이 줄거나, "지어내"라고 했을 때 더 많이 만들지도 못함. 오히려 "지어내"라고 하고 잘 만들어내면, 그건 환각이 아니라 명령 수행임(소설처럼). 차라리 그렇게 만들었을 때 드러나는 벡터는 "창의성(creativity)"과 더 연결된 듯함
- 실제로 Anthropic의 연구에 따르면, 환각은 Claude 모델도 자신이 '그렇게 하고 있다'는 걸 아는 패턴이 있다고 함. '거짓말'과 '환각' 때 비슷한 가중치가 활성화된다는 얘기임. 즉, Claude는 극히 일부라도 자신이 환각하고 있음을 인지함. 현재로선 환각은 모델의 본질적 문제가 아니라, 훈련 방식 자체에서 비롯된 버그임. 즉, 훈련 중에 무조건 뭔가 내놓아야 하니까 발생함. 결론적으로, 이건 오히려 희망적임. 논문 요약 링크
요약에 흥미로운 내용 많음. 특히 "preventative steering" 개념이 인상적임. 특정 성격 벡터를 충분히 주입해서 모델이 그래디언트를 정확한 답에 집중하게 하고, 페르소나에 끌려갈 여지를 없애는 구조임. 실제로 효과가 있었고, 훈련 이후엔 모델의 원치 않는 페르소나 특성이 줄어든 채로 지능은 유지됨
관련 자료:
- Representation Engineering 블로그 포스트
- repeng 오픈소스
Anthropic의 이번 연구와 'emergent misalignment' 등은 LLM이 '확률적 앵무새(stochastic parrot)'라는 가설 쪽에 더 힘을 실어줌. LLM 행동이 이상해 보이는 건 인간처럼 의인화해서 보는 경향이 있기 때문임. LLM은 설득력 있는 대화를 생성하지만, 실제로는 일관성을 만들 장치 자체가 없음. 결국 아주 복잡한 자동완성 엔진임. AGI가 나온다 해도 이런 LLM은 그 시스템의 한 컴포넌트로 쓰일 것 같음. 일관성이나 자기 인식 같은 구조가 결여된 느낌임. 언젠가는 AGI에 이런 모델을 서브시스템으로만 쓰고, 실제 연산은 신뢰성 높은 계산기로 처리하는 게 될지도 궁금함
- 일관성/자기 반성에 필요한 구조가 빠져 있다는 의견, 공감됨. 흥미롭게도, 추론 중 발견된 페르소나 벡터를 다시 컨텍스트에 넣으면 LLM 자기 반성의 한 형태가 될 수도 있음
- AGI와 AI 슬롭 사이에 과장/폄하 양쪽 모두에서 균형 잡힌 정리임. 이 기술들이 인간 마음의 일부를 모사한다는 점은 분명하지만, 아직은 전체적 지능이나 조정을 못 갖춘 것 같음
기존 모델 distillation에서, 큰 모델에서 불필요한 영역을 제거하면서 작은 모델을 훈련하는 방법을 옛 동료와 이야기함. 해당 논문이 관련 분야의 시초적 연구라 하며 공유받음:
- Inference-Time Intervention: Eliciting Truthful Answers from a Language Model