12P by xguru 10시간전 | ★ favorite | 댓글 3개
  • 3일전 공개한 Autoresearch 에이전트 가 depth=12 모델 기준으로 약 2일간 자율적으로 약 700개의 변경을 시도해, 검증 손실(validation loss)를 개선하는 약 20개의 유효한 변경사항을 발견
  • 발견된 변경사항들은 모두 가산적(additive) 이며 더 큰 depth=24 모델에도 그대로 전이되어, 리더보드의 "Time to GPT-2"가 2.02시간에서 1.80시간으로 약 11% 단축
  • 기존에는 아이디어 도출 → 구현 → 검증 손실 확인 → 논문 참고 등의 반복적 수동 최적화 과정을 20년간 수행해 옴
  • 이번에는 에이전트가 실험 결과의 시퀀스를 분석하고 이를 기반으로 다음 실험을 자율 계획하는 전체 워크플로를 엔드투엔드로 수행
  • 현재 "round 1" 결과를 커밋 완료했고, "round 2" 를 시작할 예정이며, 병렬 처리를 위해 다수 에이전트 간 협업(collaboration) 방식도 병행 연구 중 (AgentHub)
  • 아직 획기적인 연구(ground-breaking research) 수준은 아니지만, 수동 튜닝으로 놓친 실제 개선사항들이 누적되어 실질적 성능 향상을 달성
  • 대규모 적용 시 단일 train.py 튜닝보다 훨씬 복잡하지만, 본질적으로는 엔지니어링 문제이므로 해결 가능
  • 에이전트 스웜(agent swarm) 으로 소규모 모델부터 튜닝하고, 유망한 아이디어를 점점 큰 스케일로 승격시키는 방식으로, 모든 LLM 프론티어 랩이 채택할 수밖에 없는 흐름일 것
  • 효율적으로 평가 가능한(또는 프록시 메트릭이 있는) 모든 메트릭이 이 자동 최적화의 대상이 될 수 있음

오토리서치와 에이전트허브 컨셉을 잠깐 훑어봤는데
두개를 결합하면 그게 진짜 학계와 연구소 아닐까 싶더란 생각이 들더군요
연구소는 연구결과 학회에 내고 피드백 반영해서 새로운 연구소가 연구하고 흡사 확장된 형식의 강화학습같아보였습니다.
RL은 설명 불가능하지만 해당 방식으로 확장하면 무엇이든 설명 가능해지는게 진짜 혁신적이라고 느꼈습니다.
카파시 저 사람이 테슬라 fsd 설계에 공헌이 있다고하는데 거기서 이어지는 개념을 연구쪽으로 가져온 건가 싶기도 하네요
여튼 계속 지켜보게되는 사람중에 한명인 것 같습니다.

맞아요 그래서 이게 어찌보면 AGI가 오기전 마지막 허들일수도 있겟다라는 생각입니다

이 분은 뭔가 다른 삶을 사는 것 같아요 ㅎ