Andrej Karpathy, LLM에는 "시스템 프롬프트 학습"이 필요하다
(x.com/karpathy)- LLM에는 기존의 프리트레이닝(pretraining) 과 파인튜닝(fine-tuning) 을 넘어서는 제3의 학습 패러다임, 즉 “시스템 프롬프트 학습(System Prompt Learning)” 이 필요하다고 주장함
- 프리트레이닝은 지식을 학습하고, 파인튜닝은 습관적인 행동을 학습하는 방식이며, 둘 다 모델 파라미터의 변경을 수반함
- 반면, 인간의 학습은 시스템 프롬프트의 변화와 더 유사하며, “문제 상황에 직면 → 파악후 전략 도출 → 다음을 위해 명시적으로 기억” 하는 형태임
- 예: "이런 종류의 문제에 직면하면 이런 접근 방식/해결책을 시도해야겠다"는 식의 자기 메모와 유사함
- 이는 일반적인 사용자 맥락 기억(memory) 과 달리, 전반적인 문제 해결 전략과 추론 절차를 명시적으로 저장하는 것에 가까움
- 인간은 이런 전략을 의식적으로 기억하거나 기록해 두지만, LLM은 아직 그런 스크래치패드를 갖지 못한 Memento의 주인공과 같음
- 이러한 전략 기반 학습은 보상 신호 기반 강화 학습(RL) 보다 훨씬 더 고차원적이고 데이터 효율적인 피드백 경로가 될 수 있음
- 최근 유출된 Claude의 시스템 프롬프트는 약 17,000단어로, 단순한 행동 선호뿐 아니라 일반적인 문제 해결 전략도 상세히 명시되어 있음
예: 단어 수를 세도록 요청받으면, Claude는 곧바로 답하지 않고 단계적으로 생각하고,
각 단어/글자/문자에 번호를 매긴 후 명시적인 카운팅 절차를 거친 뒤 응답함 - 이러한 지식은 즉시 또는 배타적으로 가중치에 내재화되어야 할 종류는 아니며, 사람이 직접 시스템 프롬프트를 손으로 작성해서 일일이 부여해서도 안 됨
- 대신 이 방식은 새로운 형태의 학습인 시스템 프롬프트 학습을 통해 가능하며, 이는 설정만 놓고 보면 RL과 유사하지만,
학습 방식은 경사하강법이 아닌 텍스트 기반 편집(edit) 에 가까움 - LLM 시스템 프롬프트의 상당 부분은 시스템 프롬프트 학습을 통해 작성될 수 있으며, 이는 LLM이 문제 해결 방법에 대한 책을 직접 집필하는 것과 유사할 것
- 이렇게 프롬프트를 LLM이 스스로 편집/갱신하는 방식은 강력한 새로운 학습 패러다임이 될 가능성이 있음
- 단, 해결할 과제들도 존재함:
- 텍스트 편집은 어떻게 작동할까?
- 이 편집 시스템 자체를 모델이 학습할 수 있을까, 또는 학습해야 할까?
- 인간처럼 명시적인 전략 지식을 점진적으로 내재화된 습관/가중치로 이관하려면 어떤 메커니즘이 필요할까?
- 단, 해결할 과제들도 존재함:
시스템 프롬프트를 LLM 스스로가 변경할 수 있다면, 그 정책에 대한 Rule 도 인간이 정해줘야 할텐데, 결국 로봇 3원칙 같은 것만 남을지도 모르겠네요.