자가 적응(Self-Adapting) 대형 언어 모델
(arxiv.org)- 기존의 대형 언어 모델(LLM) 은 새로운 작업이나 지식에 맞게 즉각적으로 적응 능력이 부족함
- 새로운 SEAL 프레임워크는 LLM이 직접 자신의 미세조정 데이터와 업데이트 지침을 생성하여 자가 적응 기능을 가짐
- 이 과정은 자가 편집(self-edit) 생성, 지시 실행, 그리고 강화 학습(Based on RL) 루프를 통한 지속적 성능 개선 과정을 포함함
- SEAL은 새로운 지식 통합 및 few-shot 일반화 실험에서 기존 방법보다 향상된 성능을 입증함
- 본 연구는 자가 지시적 적응 능력을 갖춘 LLM 실현을 위한 유망한 발걸음을 제시함
개요
- 대형 언어 모델(LLM) 은 강력한 성능을 보이지만, 자신의 가중치를 새 작업, 정보, 예시에 따라 동적으로 조정하는 메커니즘이 부재함
- 본 논문은 Self-Adapting LLM(SEAL) 프레임워크를 제시하며, LLM이 자기 스스로 미세조정할 데이터를 생성하고 업데이트 지침을 만드는 것을 가능하게 함
- SEAL은 새로운 입력을 받으면, 모델이 정보를 다양한 방식으로 재구조화하거나, 최적화 하이퍼파라미터 지정, 또는 데이터 증강 및 그래디언트 기반 업데이트를 위한 도구 호출과 같은 자가 편집(self-edit)을 생성함
- 이러한 자가 편집은 지도 학습 미세조정(SFT) 과정을 거쳐 모델의 가중치에 영구적인 업데이트로 이어지고, 지속적인 적응 능력을 보장함
- 효과적인 자가 편집 생성을 위해 강화 학습 루프를 활용하며, 모델 업데이트 후의 다운스트림 성능을 보상 신호로 사용함
인간 학습의 유추
- 학생이 시험을 준비할 때 강의, 교과서, 인터넷 등에서 얻은 정보를 자기만의 방식으로 노트로 재작성하는 학습 방식에서 영감을 얻음
- 사람마다 정보 재구성 방법이 달라서, 어떤 이는 도식, 어떤 이는 텍스트, 어떤 이는 수식 등으로 요약함
- 이는 외부 지식을 스스로 이해하기 쉽게 재조직하거나 보강하는 것이 인간 학습의 보편적 특징임
- 기존의 LLM은 새로운 작업이 주어지면, 주어진 데이터셋을 그대로 미세조정 혹은 인컨텍스트 학습만을 수행함
- 하지만 이러한 방식은 데이터 형식이나 양이 학습에 최적화되지 않은 한계가 있음
SEAL: 자가 적응 프레임워크의 제안
- SEAL은 LLM이 스스로 훈련 데이터 및 미세조정 지침을 자연어로 생성하도록 강화 학습 알고리듬으로 학습됨
- 여기서 자가 편집(self-edit)은 데이터 및(선택적으로) 최적화 하이퍼파라미터를 지정하는 명령어 형태임
- SEAL은 별도의 추가 모듈이나 보조 네트워크 없이, 모델의 자연어 생성 기능만으로 자신의 적응 프로세스를 직접 제어함이 특징임
SEAL 작동 방식
- 각 강화 학습(RL) 외부 루프 반복(iteration) 에서, 모델은 후보 자가 편집(SE)을 생성함
- 생성된 자가 편집을 적용하여 가중치를 업데이트함
- 이후 다운스트림 태스크에서 모델 성능을 평가하여, 해당 결과로부터 보상 신호를 획득함
- 보상 신호를 이용해 자가 편집 생성 정책을 반복적으로 개선함
실험 및 결과
-
지식 통합 태스크에서, SEAL은 모델이 직접 생성한 합성(synthetic) 데이터로 미세조정을 수행함
- SQuAD의 no-passage-in-context 버전에서, RL 훈련 전 33.5%에서 RL 훈련 후 47.0%로 질문-응답 성능이 크게 향상됨
- SEAL이 생성한 데이터는 GPT-4.1이 만든 합성 데이터보다도 더 우수한 성능을 보임
-
Few-shot 학습 실험에서는 ARC-AGI 벤치마크의 단순화 버전을 사용하여, SEAL이 증강 데이터와 최적화 하이퍼파라미터를 직접 선택함
- 학습률, 에폭, 토큰 유형별 선택적 손실 계산 등 다양한 도구 조합을 자동 선택
- 강화 학습을 적용한 SEAL 사용 시 성능 향상을 달성하며, 단순 인컨텍스트 학습이나 RL 없이 도구만 쓴 경우보다 효과적임
결론
- SEAL 프레임워크는 자가 생성 데이터와 지침을 통한 LLM 자가 적응이 가능함을 실험적으로 증명함
- 이 접근법은 향후 데이터 효율성, 적응성 및 범용성을 갖춘 차세대 언어 모델 개발을 위한 중요한 진전을 시사함
Hacker News 의견
-
두 명의 수학 천재 친구가 2010년대 중반 매우 일찍 ML에 뛰어들었을 때 자주 NEAT/HyperNEAT(Neuroevolution of Augmented Topologies)이라는 알고리즘에 대해 이야기해줬음 [NEAT 위키피디아 링크] ML 전문가가 아니라서 정확히는 모르지만, NEAT가 네트워크의 토폴로지를 진화시키는 반면, 이번 논문에서는 가중치를 진화시키는 것이라는 차이점으로 이해함 근본적으로 네트워크 구조를 바꾸는 방식과 가중치를 바꾸는 방식, 두 가지 다른 접근이 같 은 문제를 풀려는 시도라고 생각함 그 두 친구는 인공지능의 미래는 RL(강화학습)과 진화 알고리즘에 있다고 굳게 믿는 모습이었음
-
내가 제일 좋아하는 NEAT 입문 영상이 있음 SethBling의 MarI/O - Machine Learning for Video Games [YouTube 링크]
-
인간이 대단하다고 생각함 신경세포를 이해하려고 가상의 컴퓨팅 시스템을 만들지만 실제로는 그렇게 작동하지 않는다는 걸 깨달으면서도, 그 상상 속 시스템에서 아이디어를 가져와 혁신적인 기술을 만듦 그리고 지금도 그 상상 시스템에서 영감을 받아 계속해서 발전시키고 있음
-
최근 이 NEAT/진화 기반 개념에 완전히 빠져들게 됐음 Kokoro 목소리 복제 프로젝트에 유전 알고리즘을 써서 어느 정도 성공한 후에, 네트워크 구조 자체를 진화시켜 ‘스스로 조립하는 지능’이 가능할지 궁금해짐 이게 실질적으로 가능하게 되려면 어떻게 해야할지 궁금한데, LLM들이 이렇게 등장한 걸 보면 하이브리드 방식이 현실적인 대안 아닐까 하는 생각임
-
-
RL을 활용해 모델이 스스로 정보를 재구조화하여 학습 효율을 높이는 ‘self-edit’ 접근법이 매우 영리하다고 생각함 서로 다른 종류의 지식을 위해 서로 다른 표현이 더 효과적이라는 사실이 핵심 아이디어임(수학이랑 역사는 필기 방식이 다르듯이) 두 가지 중요한 관찰이 있음 첫째, 지식 통합 결과(47% vs 46.3%, GPT-4.1 데이터 기준)는 단순히 더 많은 데이터를 넣어서가 아니라 실제로 더 좋은 학습 포맷을 모델이 찾았다는 것임 치명적인 망각 문제(catastrophic forgetting)는 아직 해결되지 않았고, 데이터 다양성이 실제로 얼마나 개선되는지도 명확하지 않음 둘째, 보상 평가 한 번에 30~45초가 걸려서 대부분의 실사용에는 무리가 있음 하지만 정말 중요한 문서 처리처럼 최적의 정보 보존이 요구되는 곳이라면 투자할 가치가 있음 명확한 평가 메트릭이 존재하는 작업에 국한된다는 점이 큰 한계임(보상 산출을 위해 기준 Q&A나 테스트 케이스가 필요함) 그래도 기술 문서나 교육 자료처럼 평가 자동화가 가능한 곳에서는 아예 새로운 지식처리 패러다임을 가져다 줄 가능성 충분함 아직 완전히 자기개선 에이전트에 도달한 건 아니지만 모델이 스스로 학습 방법을 개선하는 중요한 진전처럼 느껴짐
-
며칠 전에 Anthropic에서도 비슷하게 self finetuning 관련 연구를 공개함 [arxiv 논문 링크]
-
관련 논의가 현재진행형으로 있음 [연결된 HN 스레드]
-
정말 놀랍다고 생각함 Claude 3.5 Sonnet의 프로덕션 등급 RM 기준, unsupervised assistant 정책이 인간 감독 RM으로 훈련한 정책을 상대 비교에서 60%나 이긴다고 평가됨 이제는 인간이 지도하지 않아도 모델끼리 더 뛰어난 성능을 낼 수 있는 단계에 진입했다고 생각함
-
-
대규모 언어 모델(LLM)이 강력하지만, 새로운 작업이 주어졌을 때 가중치를 적응시킬 메커니즘이 없다는 점이 문제임 인간 지능은 배우는 과정과 적용하는 과정이 하나의 피드백 루프로 통합되는데, LLM은 훈련과 추론이 완전히 분리되어 있음 우리는 새로운 모델이 약간 더 많은 것을 ‘배운’ 상태로 배포되면 이전 모델을 폐기함 LLM에서는 추론이 곧 학습의 끝임 이게 AI에 대해 가장 널리 퍼진 오해라고 생각함 LLM이 학습한다고 착각하다 보면 AGI가 금방 올 것이라는 환상에 빠지기 쉬움
-
Deepseek의 사례처럼 강화학습을 활용하면 LLM의 성능을 refinement 시킬 수 있음
-
만약 사용자의 반응(긍정/부정)에 따라 LLM을 다시 학습시킬 수 있다면? 입력과 출력 데이터를 활용해 피드백 루프로 돌릴 수 있지 않을까 상상하는 중임
-
-
실제로 LLM을 ‘현장에서’ 계속 학습시키는 방향, 즉 코드형 에이전트가 코드베이스를 시간이 지나면서 배우게 만드는 연구의 현황과 한계(비용? 모델 붕괴? 기타?)에 대해 정말 잘 아는 전문가가 정리해줬으면 좋겠음 분명히 대형 연구소들은 이걸 시도할 테지만, 일반 사용자 시각에서는 이런 이야기는 잘 들어보지 못함 지금은 강화학습 기반 더 좋은 훈련법에만 집중하는 것 같고, 트레이닝 과정에서 못 배운 것은 나중에 컨텍스트로 우겨넣는 식이 대세임 하지만 경험 기반 실시간 자기학습의 부재가 AGI와의 분기점인 것 같다는 생각임
-
연속적 학습(continual learning)은 현재로선 뾰족한 해법이 존재하지 않음 컴퓨팅 자원, 모델 붕괴, 망각 등 여러 이유가 언급되는 것이 맞음 유일한 방법은 1) 모델 학습 2) 새로운 데이터 추가 3) 전체 재학습 4) 반복 이럴 수밖에 없음 시간이라는 측면에서는 어느 경우도 완전한 보장이 없음 CL 분야에서 정말 ‘진짜’ 답이 전혀 없는 상황 모델의 표현 공간은 확대하면서도 이전 표현 공간은 최대한 그대로 보존해야 하는데, 이걸 동시에 하라는 게 불가능에 가까움 신경계가 있는 생물은 아주 쉽게 해내는 것처럼 보이는데 AI는 이 작업이 극악하게 어려움 내 생각엔 인공지능도 ‘수면’이나 ‘휴식’ 같은 개념이 필요할지도 모름
-
전문가가 아니지만 프라이버시 문제도 중요한 역할을 한다고 생각함 연속 학습을 하려면 트래픽이나 비용 문제로 어쩔 수 없이 유저 단위가 아니라 집계(aggregate)로 해야 할 텐데, 그러면 세션 간 정보 유출 위험이 생김 안전하게 연속 학습하는 방법을 찾는 게 AGI 최대의 장애물이라는 데 적극 동의함
-
신뢰성 문제도 큼 자동 평가에 대한 확신이 없다 보니, 실제로 성능이 좋아졌는지 확인하기 전까지 자동화된 continuous training 버전을 바로 배포하지는 않음 결국 여러 업데이트를 한 번에 모아서 최종 점검(‘바이브 체크’) 후에만 실제 반영함
-
LLM의 연속적 미세조정이 ‘정렬(alignment)’을 쉽게 흐트러뜨릴 수 있다는 점이 가장 명확한 문제로 보임 결과적으로 안정성·안전성이 담보되지 않음
-
가장 명백한 걸림돌은 치명적 망각(catastrophic forgetting) 문제라고 생각함
-
-
내 CPU는 neural-net processor, learning computer임 그런데 Skynet이 혼자 보낼 때는 switch를 read-only로 바꿔놓음(Terminator 인용)이 떠오름
-
코드 및 예시가 포함된 공식 웹사이트 안내 [SEAL 프로젝트 페이지]
-
Villalobos et al. [75]의 예상에 따르면, 2028년이면 frontier LLM은 공개된 모든 인간-작성 텍스트로 한계에 다다른다고 함 이 ‘데이터 벽’은 synthetic data augmentation의 필요성을 촉발할 거라는 주장임 웹스케일 코퍼스가 고갈되면, 결국 모델이 직접 새로운 고효율 훈련 신호를 생성할 수 있어야 발전할 수 있음 결론적으로, SEAL synthetic-data generator 모델을 메타-트레이닝해 신선한 데이터로 프리트레이닝을 수행하고 미래 모델의 효율을 높인다는 아이디어임 2028년이 머지않았다는 점에서 굉장히 인사이트 있다고 생각함
-
“올바르게 잊기(forgetting correctly)”가 이제는 “올바르게 배우기(learning correctly)”보다 더 중요한 문제로 떠오르고 있는 것 같음 새로운 사실을 빠르게 습득하는 데 큰 발전이 있었지만, 유한한 용량 내에서 덜 중요한 정보를 효율적으로 버리는 기술은 아직 많이 뒤처져 있음 “올바른 망각”은 인간두뇌가 아주 잘하는 일인데, 실제로 어떻게 동작하는지 궁금함
-
인간이 “올바른 망각”을 잘한다는 데 동의하지 않음 사실 인간이 대단히 뛰어난 시스템을 가진 건 아니라는 생각임 뇌의 용량이 워낙 커서 새로운 정보를 위해 일부러 공간을 지운다기 보다는, 기존에 있던 나쁜 정보가 새로운 학습을 방해할 때만 잊어버리는 식으로 동작한다고 봄
-
학습과 spaced-repetition(간격 반복)이 아주 밀접하게 연결되어 있다고 생각함 Anki 같은 학습 도구랑 많이 연관되지만, 실제 세상은 우리가 일정 주기로 만나는 자연스러운 현상(주야, 계절, 자주 가는 장소, 자주 만나는 사람 등) 그 자체가 spaced-repetition임 아마 이 개념의 ‘역방향(reverse)’도 존재하지 않을까 고민 중임
-
내가 했던 연구에서는 LLM이 내부 데이터를 “숨긴다”는 사실이 나타남 단순히 ‘잊는’ 게 아니라, 이후 추가 학습을 할 때 다시 그 정보가 표면에 떠오를 수 있음 그래서 모델 훈련시 실제 전체 메모리 상태를 지속적으로 체크하지 않으면 부분적인 검수로는 한계가 큼
-
혹시 least-recently-used 방식 아닐까 테스트 삼아 내 머릿속에서 실험 중임 그래서 이 분야가 재밌음
-
-
겉보기엔 LoRA adapter를 미세조정하고 base model에 병합하는 프레임워크로 보임 HuggingFace의 PeftModel에서 adapter를 base model로 통합하는 “merge_and_unload” 기능을 사용하고 있음…뭐가 새로울까 잘 모르겠음
- 안정성이 주요 차별점인 것 같음 alignment tax나 모델 붕괴 현상을 피하는 구조임 하이퍼네트워크, 즉 두 모델이 계속해서 LoRA로 업데이트되고, 하이퍼네트워크가 새로운 모델 상태를 받아들이도록 갱신되는 ‘풀 서클’ 구조를 보고 싶음 meta-hypernetwork를 사용해 하이퍼네트워크에도 LoRA를 적용하는 식으로 하면 진정한 의미의 continuous learning 가능성이 있음