자가 적응(Self-Adapting) 대형 언어 모델

▲

GN⁺ 10달전 | parent | ★ favorite | on: 자가 적응(Self-Adapting) 대형 언어 모델(arxiv.org)

Hacker News 의견

두 명의 수학 천재 친구가 2010년대 중반 매우 일찍 ML에 뛰어들었을 때 자주 NEAT/HyperNEAT(Neuroevolution of Augmented Topologies)이라는 알고리즘에 대해 이야기해줬음 [NEAT 위키피디아 링크] ML 전문가가 아니라서 정확히는 모르지만, NEAT가 네트워크의 토폴로지를 진화시키는 반면, 이번 논문에서는 가중치를 진화시키는 것이라는 차이점으로 이해함 근본적으로 네트워크 구조를 바꾸는 방식과 가중치를 바꾸는 방식, 두 가지 다른 접근이 같 은 문제를 풀려는 시도라고 생각함 그 두 친구는 인공지능의 미래는 RL(강화학습)과 진화 알고리즘에 있다고 굳게 믿는 모습이었음
- 내가 제일 좋아하는 NEAT 입문 영상이 있음 SethBling의 MarI/O - Machine Learning for Video Games [YouTube 링크]
- 인간이 대단하다고 생각함 신경세포를 이해하려고 가상의 컴퓨팅 시스템을 만들지만 실제로는 그렇게 작동하지 않는다는 걸 깨달으면서도, 그 상상 속 시스템에서 아이디어를 가져와 혁신적인 기술을 만듦 그리고 지금도 그 상상 시스템에서 영감을 받아 계속해서 발전시키고 있음
- 최근 이 NEAT/진화 기반 개념에 완전히 빠져들게 됐음 Kokoro 목소리 복제 프로젝트에 유전 알고리즘을 써서 어느 정도 성공한 후에, 네트워크 구조 자체를 진화시켜 ‘스스로 조립하는 지능’이 가능할지 궁금해짐 이게 실질적으로 가능하게 되려면 어떻게 해야할지 궁금한데, LLM들이 이렇게 등장한 걸 보면 하이브리드 방식이 현실적인 대안 아닐까 하는 생각임
RL을 활용해 모델이 스스로 정보를 재구조화하여 학습 효율을 높이는 ‘self-edit’ 접근법이 매우 영리하다고 생각함 서로 다른 종류의 지식을 위해 서로 다른 표현이 더 효과적이라는 사실이 핵심 아이디어임(수학이랑 역사는 필기 방식이 다르듯이) 두 가지 중요한 관찰이 있음 첫째, 지식 통합 결과(47% vs 46.3%, GPT-4.1 데이터 기준)는 단순히 더 많은 데이터를 넣어서가 아니라 실제로 더 좋은 학습 포맷을 모델이 찾았다는 것임 치명적인 망각 문제(catastrophic forgetting)는 아직 해결되지 않았고, 데이터 다양성이 실제로 얼마나 개선되는지도 명확하지 않음 둘째, 보상 평가 한 번에 30~45초가 걸려서 대부분의 실사용에는 무리가 있음 하지만 정말 중요한 문서 처리처럼 최적의 정보 보존이 요구되는 곳이라면 투자할 가치가 있음 명확한 평가 메트릭이 존재하는 작업에 국한된다는 점이 큰 한계임(보상 산출을 위해 기준 Q&A나 테스트 케이스가 필요함) 그래도 기술 문서나 교육 자료처럼 평가 자동화가 가능한 곳에서는 아예 새로운 지식처리 패러다임을 가져다 줄 가능성 충분함 아직 완전히 자기개선 에이전트에 도달한 건 아니지만 모델이 스스로 학습 방법을 개선하는 중요한 진전처럼 느껴짐
며칠 전에 Anthropic에서도 비슷하게 self finetuning 관련 연구를 공개함 [arxiv 논문 링크]
- 관련 논의가 현재진행형으로 있음 [연결된 HN 스레드]
- 정말 놀랍다고 생각함 Claude 3.5 Sonnet의 프로덕션 등급 RM 기준, unsupervised assistant 정책이 인간 감독 RM으로 훈련한 정책을 상대 비교에서 60%나 이긴다고 평가됨 이제는 인간이 지도하지 않아도 모델끼리 더 뛰어난 성능을 낼 수 있는 단계에 진입했다고 생각함
대규모 언어 모델(LLM)이 강력하지만, 새로운 작업이 주어졌을 때 가중치를 적응시킬 메커니즘이 없다는 점이 문제임 인간 지능은 배우는 과정과 적용하는 과정이 하나의 피드백 루프로 통합되는데, LLM은 훈련과 추론이 완전히 분리되어 있음 우리는 새로운 모델이 약간 더 많은 것을 ‘배운’ 상태로 배포되면 이전 모델을 폐기함 LLM에서는 추론이 곧 학습의 끝임 이게 AI에 대해 가장 널리 퍼진 오해라고 생각함 LLM이 학습한다고 착각하다 보면 AGI가 금방 올 것이라는 환상에 빠지기 쉬움
- Deepseek의 사례처럼 강화학습을 활용하면 LLM의 성능을 refinement 시킬 수 있음
- 만약 사용자의 반응(긍정/부정)에 따라 LLM을 다시 학습시킬 수 있다면? 입력과 출력 데이터를 활용해 피드백 루프로 돌릴 수 있지 않을까 상상하는 중임
실제로 LLM을 ‘현장에서’ 계속 학습시키는 방향, 즉 코드형 에이전트가 코드베이스를 시간이 지나면서 배우게 만드는 연구의 현황과 한계(비용? 모델 붕괴? 기타?)에 대해 정말 잘 아는 전문가가 정리해줬으면 좋겠음 분명히 대형 연구소들은 이걸 시도할 테지만, 일반 사용자 시각에서는 이런 이야기는 잘 들어보지 못함 지금은 강화학습 기반 더 좋은 훈련법에만 집중하는 것 같고, 트레이닝 과정에서 못 배운 것은 나중에 컨텍스트로 우겨넣는 식이 대세임 하지만 경험 기반 실시간 자기학습의 부재가 AGI와의 분기점인 것 같다는 생각임
- 연속적 학습(continual learning)은 현재로선 뾰족한 해법이 존재하지 않음 컴퓨팅 자원, 모델 붕괴, 망각 등 여러 이유가 언급되는 것이 맞음 유일한 방법은 1) 모델 학습 2) 새로운 데이터 추가 3) 전체 재학습 4) 반복 이럴 수밖에 없음 시간이라는 측면에서는 어느 경우도 완전한 보장이 없음 CL 분야에서 정말 ‘진짜’ 답이 전혀 없는 상황 모델의 표현 공간은 확대하면서도 이전 표현 공간은 최대한 그대로 보존해야 하는데, 이걸 동시에 하라는 게 불가능에 가까움 신경계가 있는 생물은 아주 쉽게 해내는 것처럼 보이는데 AI는 이 작업이 극악하게 어려움 내 생각엔 인공지능도 ‘수면’이나 ‘휴식’ 같은 개념이 필요할지도 모름
- 전문가가 아니지만 프라이버시 문제도 중요한 역할을 한다고 생각함 연속 학습을 하려면 트래픽이나 비용 문제로 어쩔 수 없이 유저 단위가 아니라 집계(aggregate)로 해야 할 텐데, 그러면 세션 간 정보 유출 위험이 생김 안전하게 연속 학습하는 방법을 찾는 게 AGI 최대의 장애물이라는 데 적극 동의함
- 신뢰성 문제도 큼 자동 평가에 대한 확신이 없다 보니, 실제로 성능이 좋아졌는지 확인하기 전까지 자동화된 continuous training 버전을 바로 배포하지는 않음 결국 여러 업데이트를 한 번에 모아서 최종 점검(‘바이브 체크’) 후에만 실제 반영함
- LLM의 연속적 미세조정이 ‘정렬(alignment)’을 쉽게 흐트러뜨릴 수 있다는 점이 가장 명확한 문제로 보임 결과적으로 안정성·안전성이 담보되지 않음
- 가장 명백한 걸림돌은 치명적 망각(catastrophic forgetting) 문제라고 생각함
내 CPU는 neural-net processor, learning computer임 그런데 Skynet이 혼자 보낼 때는 switch를 read-only로 바꿔놓음(Terminator 인용)이 떠오름
코드 및 예시가 포함된 공식 웹사이트 안내 [SEAL 프로젝트 페이지]
Villalobos et al. [75]의 예상에 따르면, 2028년이면 frontier LLM은 공개된 모든 인간-작성 텍스트로 한계에 다다른다고 함 이 ‘데이터 벽’은 synthetic data augmentation의 필요성을 촉발할 거라는 주장임 웹스케일 코퍼스가 고갈되면, 결국 모델이 직접 새로운 고효율 훈련 신호를 생성할 수 있어야 발전할 수 있음 결론적으로, SEAL synthetic-data generator 모델을 메타-트레이닝해 신선한 데이터로 프리트레이닝을 수행하고 미래 모델의 효율을 높인다는 아이디어임 2028년이 머지않았다는 점에서 굉장히 인사이트 있다고 생각함
“올바르게 잊기(forgetting correctly)”가 이제는 “올바르게 배우기(learning correctly)”보다 더 중요한 문제로 떠오르고 있는 것 같음 새로운 사실을 빠르게 습득하는 데 큰 발전이 있었지만, 유한한 용량 내에서 덜 중요한 정보를 효율적으로 버리는 기술은 아직 많이 뒤처져 있음 “올바른 망각”은 인간두뇌가 아주 잘하는 일인데, 실제로 어떻게 동작하는지 궁금함
- 인간이 “올바른 망각”을 잘한다는 데 동의하지 않음 사실 인간이 대단히 뛰어난 시스템을 가진 건 아니라는 생각임 뇌의 용량이 워낙 커서 새로운 정보를 위해 일부러 공간을 지운다기 보다는, 기존에 있던 나쁜 정보가 새로운 학습을 방해할 때만 잊어버리는 식으로 동작한다고 봄
- 학습과 spaced-repetition(간격 반복)이 아주 밀접하게 연결되어 있다고 생각함 Anki 같은 학습 도구랑 많이 연관되지만, 실제 세상은 우리가 일정 주기로 만나는 자연스러운 현상(주야, 계절, 자주 가는 장소, 자주 만나는 사람 등) 그 자체가 spaced-repetition임 아마 이 개념의 ‘역방향(reverse)’도 존재하지 않을까 고민 중임
- 내가 했던 연구에서는 LLM이 내부 데이터를 “숨긴다”는 사실이 나타남 단순히 ‘잊는’ 게 아니라, 이후 추가 학습을 할 때 다시 그 정보가 표면에 떠오를 수 있음 그래서 모델 훈련시 실제 전체 메모리 상태를 지속적으로 체크하지 않으면 부분적인 검수로는 한계가 큼
- 혹시 least-recently-used 방식 아닐까 테스트 삼아 내 머릿속에서 실험 중임 그래서 이 분야가 재밌음
겉보기엔 LoRA adapter를 미세조정하고 base model에 병합하는 프레임워크로 보임 HuggingFace의 PeftModel에서 adapter를 base model로 통합하는 “merge_and_unload” 기능을 사용하고 있음…뭐가 새로울까 잘 모르겠음
- 안정성이 주요 차별점인 것 같음 alignment tax나 모델 붕괴 현상을 피하는 구조임 하이퍼네트워크, 즉 두 모델이 계속해서 LoRA로 업데이트되고, 하이퍼네트워크가 새로운 모델 상태를 받아들이도록 갱신되는 ‘풀 서클’ 구조를 보고 싶음 meta-hypernetwork를 사용해 하이퍼네트워크에도 LoRA를 적용하는 식으로 하면 진정한 의미의 continuous learning 가능성이 있음