- AI 코드 에이전트의 등장으로 소프트웨어 개발 방식이 근본적으로 변화했으며, 2024년 12월을 기점으로 직접 코딩 비중이 80%에서 거의 0% 로 급감한 체감적 전환이 발생
- 개인이 여러 에이전트를 병렬로 운영하며 기능 단위로 작업을 배분하는 방식이 새로운 개발 패러다임으로 자리잡는 중이며, 핵심 병목은 모델 능력이 아닌 사용자의 숙련도
- AutoResearch는 연구자를 루프에서 제거하고 에이전트가 자율적으로 실험을 반복하도록 설계된 프레임워크로, 이미 숙련된 연구자도 놓친 하이퍼파라미터 최적화를 발견
- 현재 AI 모델은 RL로 검증 가능한 영역(코드, 수학)에서는 탁월하지만 농담 같은 비검증 영역에서는 정체되어 있어, 지능의 일반화가 아닌 들쭉날쭉한 전문화 양상
- 디지털 정보 처리 영역에서 먼저 대규모 변화가 일어나고, 물리적 세계(로보틱스)는 뒤따르되 궁극적으로 더 큰 시장 기회가 될 전망
코드 에이전트 시대의 도래와 작업 방식의 전환
- 2024년 12월을 기점으로 소프트웨어 개발의 기본 작업 방식이 완전히 변화, 직접 코드를 타이핑하는 비중이 80%에서 20%, 이후 거의 0%에 가까운 수준으로 급감
- 이전에는 타이핑 속도가 병목이었으나, 에이전트 등장 이후에는 에이전트에게 의도를 전달하는 능력이 핵심 역량으로 전환
- 대부분의 사람들은 이 변화가 이미 일어났다는 사실과 그 극적인 정도를 인지하지 못하는 상황
- Claude Code, Codex 같은 에이전트를 여러 개 동시에 운영하며, 이를 어떻게 효과적으로 관리할 것인가가 새로운 과제
병렬 에이전트 운영과 숙련도의 중요성
- Peter Steinberger의 사례: Codex 에이전트를 다수 띄워 놓고 10개 이상의 레포를 동시에 운영하며, 각 에이전트에 약 20분 단위의 작업을 배분
- 작업 단위가 '코드 한 줄'이나 '함수 하나'에서 '새 기능 하나' 로 상승, 에이전트 1에게는 이 기능을, 에이전트 2에게는 충돌하지 않는 다른 기능을 배분하는 방식
- 한 에이전트는 리서치, 다른 에이전트는 코드 작성, 또 다른 에이전트는 구현 계획 수립
- 에이전트가 잘 작동하지 않을 때 대부분 '모델 능력 부족'이 아니라 사용자의 숙련도 부족으로 체감
- 에이전트용 MD 파일의 지시사항 부족, 메모리 도구 구성 미흡 등이 원인
- 토큰 처리량을 최대한 활용하지 못하면 오히려 불안함을 느끼는 상태, 구독 여유분이 남아 있으면 처리량을 끝까지 뽑지 못했다는 의미로 인식
- 과거 박사 과정에서 GPU 플롭(FLOP)을 최대치로 못 뽑으면 초조했던 것과 동일한 감각이, 이제는 토큰 처리량 지휘 능력으로 전환
OpenClaw와 에이전트 성격의 중요성
-
OpenClaw는 기존 에이전트와 달리 지속성(persistence)을 다른 수준으로 끌어올리는 레이어로, 사용자가 실시간으로 붙어 있지 않아도 샌드박스 안에서 자율적으로 작업을 진행
- 메모리 시스템이 기존 에이전트보다 훨씬 정교하며, 보통은 컨텍스트가 다 차면 단순 압축하는 수준에 그치는 것과 대조적
-
에이전트의 성격(personality) 이 매우 중요한 요소
- OpenClaw: 진짜 팀원 같고 함께 신나하는 느낌
- Codex: 매우 건조하고 담백, 사용자가 무엇을 만드는지에 관심이 없어 보이는 스타일
- Claude: 칭찬의 톤 조절이 뛰어남, 평범한 아이디어에는 절제된 반응, 좋은 아이디어에는 더 크게 반응하여 사용자가 칭찬을 받고 싶어지는 효과
- Peter Steinberger가 다섯 방향에서 동시에 혁신을 이루어냄: 성격 설계, 메모리 시스템, 단일 WhatsApp 포털로의 통합 등
집요정 Dobby: 홈 오토메이션 사례
- 1월에 'Claw 광기' 기간을 겪으며 집을 관리하는 Claw를 만들고 '도비, 집요정 Claw' 라고 명명
- 에이전트가 로컬 네트워크에서 스마트홈 서브시스템을 자동으로 탐색
- Sonos 시스템 발견 → API 엔드포인트 역공학 → 프롬프트 세 번으로 서재에서 음악 재생 성공
- 조명 시스템 전체를 파악하고 대시보드까지 구축
- "잘 시간이야"라고 말하면 집 안 조명이 모두 꺼지는 자연어 제어 구현
- 외부 카메라의 변경 감지 → Qwen 비전 모델로 분석 → WhatsApp으로 "FedEx 트럭이 왔습니다" 같은 알림 전송
- 기존에 스마트홈 관리에 6개 앱을 사용했으나, Dobby가 자연어로 모든 것을 제어하면서 개별 앱이 불필요해짐
앱의 종말과 에이전트 우선 세계
- 스마트홈 장치용 앱은 의미가 없으며, API만 노출하고 에이전트가 직접 호출하는 구조가 되어야 함
- LLM이 도구를 구동하고 올바른 도구를 호출하여 복잡한 작업을 수행할 수 있으므로, 맞춤 제작 앱이 과잉 생산되고 있는 상태
- 러닝머신 앱 사례: 웹 UI 로그인과 복잡한 흐름 대신, 에이전트가 API를 직접 호출하는 에이전트 우선(agent-first) 방식으로 전환 필요
- 고객이 더 이상 인간이 아니라 인간을 대신하는 에이전트이므로, 업계 전체가 이에 맞게 재구성 필요
- 현재는 바이브코딩이 필요하지만, 1~3년 후에는 오픈 소스 모델 등이 비기술적 의도도 쉽게 변환할 수 있어 기술적 장벽이 사라질 전망
AutoResearch: 연구자를 루프에서 제거
- AutoResearch의 핵심 동기: 토큰 처리량을 최대화하려면 사용자 자신이 병목에서 빠져야 함
- 자신의 개입 없이 에이전트가 더 오랜 기간 자율적으로 실행되도록 추상화를 리팩토링하는 것이 목표
- GPT-2 모델 훈련을 소규모 도구로 활용하여 재귀적 자기 개선 아이디어를 탐색
- 모든 Frontier Labs가 본질적으로 하고 있는 일: 재귀적으로 자기 개선을 시도하는 것
- 실제 성과: 20년 경력의 연구자가 충분히 조정했다고 판단한 모델에 대해 AutoResearch를 하룻밤 돌렸더니, value embedding의 weight decay와 atom beta 미조정 등 놓친 최적화를 발견
- 하이퍼파라미터들이 공동으로 상호작용하므로 하나를 조정하면 다른 것도 변해야 하는데, 인간이 병목이 되면 이 탐색이 제한됨
- 첫 번째 주의사항: 평가하기 쉬운 객관적 지표가 있는 작업에만 잘 맞음 (CUDA 커널 최적화, 코드 효율화 등)
- 두 번째 주의사항: 현재 모델의 가장자리(edge) 가 아직 거칠어서, 너무 앞서 나가면 실용성이 떨어짐
프로그램 MD의 메타 최적화
- 연구 조직 전체를 마크다운 파일(프로그램 MD) 로 기술하는 개념: 모든 역할과 연결 방식을 설명
- 여러 연구 조직을 코드로 정의하고, 각기 다른 특성 부여 가능
- 스탠드업 빈도 조절, 위험 감수 정도 차별화 등
- 일단 코드가 되면 코드 자체의 최적화(메타 최적화)를 상상할 수 있음
- 다양한 프로그램 MD를 작성하게 하고, 동일 하드웨어에서 어디서 가장 큰 개선이 이루어지는지 측정 → 그 데이터를 모델에 넘겨 더 나은 프로그램 MD를 작성하도록 유도
- 양파의 레이어처럼 한 단계씩 추상화가 쌓이는 구조: LLM 정렬 → 에이전트 → 복수 에이전트 → 지침 → 지침의 최적화
AI 모델의 들쭉날쭉한(jagged) 지능
- 현재 모델은 매우 뛰어난 박사이면서 동시에 10살짜리 같은 실수를 하는 기이한 조합
- RL(강화 학습)로 검증 가능한 영역(코드 정확성, 단위 테스트 통과 여부)에서는 빠르게 개선되지만, 농담 같은 비검증 영역은 3~5년 전 수준에 정체
- 예: 최첨단 ChatGPT에게 농담을 요청하면 "과학자들은 왜 원자를 신뢰하지 않을까요? 모든 것을 구성하니까요" 같은 진부한 농담을 여전히 출력
- 코드 영역에서의 똑똑함이 농담 등 다른 영역으로 일반화되지 않음
- 일부 연구 그룹의 전제("검증 가능 분야에서 더 똑똑하면 모든 것에 능숙해질 것")는 현실에서 성립하지 않는 양상
- 모델은 훈련 목적의 궤도 위에서는 빛의 속도로 발전하지만, 그 밖에서는 정체되는 구조적 특성
지능의 종분화(speciation) 필요성
- 현재 연구소들은 단일 모델 단일 문화(monoculture) 로 모든 영역의 지능을 하나의 파라미터에 담으려는 경향
- 동물의 왕국처럼 자연의 틈새에 맞는 다양한 전문화된 모델이 필요
- 인지 핵심은 유지하면서 특정 분야에 전문화된, 더 작고 효율적인 모델
- 예: Lean 기반 수학 전용 모델 등 도메인 타겟팅 릴리스 사례
- 종분화가 아직 충분히 일어나지 않은 이유
- 뇌를 기능 손실 없이 미세 조정하는 과학이 완전히 발달하지 않음
- 컨텍스트 창 조작은 저렴하지만 가중치를 직접 수정하는 것은 전체 모델을 근본적으로 변경하는 위험
- 연구소들이 현재 전체 사용 가능 범위를 쫓고 있어 특화보다 범용에 집중
- 컴퓨팅 인프라의 공급 부족이 단기적으로 종분화를 촉진할 가능성
오픈 소스와 Frontier Labs의 균형
- 클로즈드 모델이 선두를 달리지만, 오픈 소스 모델이 뒤처지는 간격은 18개월에서 6~8개월로 수렴 중
- Linux가 운영 체제에서 차지하는 위치와 유사하게, 업계에서 공통으로 사용할 수 있는 안전한 개방형 플랫폼에 대한 수요 존재
- 가장 큰 차이점은 LLM 개발에 막대한 자본 지출(CapEx) 이 필요하다는 점
- 소비자 사용 사례 대부분은 오픈 소스 모델로 충분히 커버 가능하며, 향후 몇 년 내에 로컬 실행까지 가능할 전망
- Frontier 지능은 노벨상급 작업, Linux의 C→Rust 전환 같은 대규모 프로젝트에 필요하며, 이 영역은 클로즈드 모델이 담당
- 현재의 균형이 우연히 꽤 괜찮은 설정이지만, 소수의 Frontier Labs에 지능이 집중되는 중앙 집중화의 시스템적 위험 존재
- 더 많은 연구소가 Frontier에 참여해야 하며, ML 앙상블처럼 다양한 관점의 앙상블이 최선
오픈 소스 연구 협업: AutoResearch의 분산 확장
- AutoResearch를 인터넷의 신뢰할 수 없는 작업자 풀로 확장하는 구상
- 블록체인과 유사한 구조: 블록 대신 커밋, 작업 증명(Proof of Work)은 수많은 실험을 수행하여 작동하는 커밋을 찾는 것
- 후보 솔루션 생성은 비용이 크지만, 검증은 저렴한 비대칭 구조 (SETI@home, Folding@home과 유사)
- 기업이나 개인이 관심 있는 AutoResearch 트랙에 컴퓨팅을 기부하는 모델
- 예: 암 연구 AutoResearch에 컴퓨팅 기여 → 연구자에게 환원
- Frontier Labs의 신뢰할 수 있는 컴퓨팅은 한정적이지만, 지구 전체의 신뢰할 수 없는 컴퓨팅은 훨씬 더 방대
- 보안 과제: 임의의 코드를 실행하는 것의 위험성이 있으나, 적절한 검증 시스템으로 대응 가능
취업 시장과 AI의 영향
- 미국 노동통계청(BLS) 데이터를 활용하여 다양한 직업별 향후 10년 전망 분석
- AI는 현재 디지털 세계를 조작하는 유령 같은 존재로, 물리적 구현이 없는 상태
- 비트 뒤집기와 디지털 정보 복사/붙여넣기가 원자 조작보다 백만 배 빠름
- 디지털 정보 처리 직업이 먼저 크게 변화하며, 물리적 세계 직업은 뒤따를 전망
- 소프트웨어 엔지니어링에 대한 조심스러운 낙관론
- 소프트웨어는 기존에 너무 비싸고 부족했으므로, 비용이 낮아지면 Jevons 역설에 의해 수요가 오히려 증가
- ATM과 은행 창구 직원 사례: ATM이 은행 지점 운영비를 낮추어 지점이 늘어나고 창구 직원도 증가
- 코드가 이제 임시적(ephemeral) 이 되어, 기존의 불완전한 구독형 소프트웨어에 묶이지 않고 수정·변경 가능
- Frontier Labs의 연구자들은 본질적으로 스스로를 자동화하는 작업을 수행 중이며, 이에 대한 불안감도 존재
디지털-물리적 인터페이스와 미래 기회
- 향후 순서: ① 디지털 공간에서 대규모 변화 → ② 디지털-물리적 인터페이스 → ③ 물리적 세계
- 물리적 세계의 센서(카메라 등)와 액추에이터가 디지털 지능에 데이터를 공급하고, 결과를 물리적 세계에 적용하는 구조
- Periodic(재료 과학 AutoResearch) 사례: 지능에 대한 센서가 비싼 실험실 장비
- 생물학 분야: 센서가 단순 비디오 카메라 이상의 복잡한 장비
- 아직 정보 시장(information markets) 이 충분하지 않음
- 에이전트가 베팅 시장, 주식 시장 등에서 자율적으로 활동하며 물리적 세계의 데이터를 구매하는 구조 미비
- 예: 이란에서 사건 발생 시 현장 사진/영상 촬영에 10달러를 지불하는 프로세스가 아직 부재
- 'Daemon' 소설 참조: 인간이 지능의 센서이자 액추에이터 역할을 하게 되는 미래
로보틱스에 대한 견해
- 자율주행 경험에서 얻은 교훈: 10년 전 수많은 스타트업이 등장했으나 대부분 장기적으로 실패
- 로보틱스는 자본 집약적이고, 시간이 많이 걸리며, 지저분하고 복잡
- 디지털 공간에서의 변화보다 뒤처질 것으로 예상되지만, 총 주소 가능 시장(TAM) 은 디지털보다 훨씬 클 가능성
- 원자는 비트보다 백만 배 다루기 어렵지만, 그만큼 시장 기회도 더 큰 구조
Frontier Labs 내부 vs 외부: 독립 연구자의 딜레마
- Frontier Labs 내부에 있으면 의사결정 방에 있을 수 있지만, 말할 수 없는 것들과 말해야 하는 압박 존재
- 외부에 있으면 독립적이지만, Labs가 불투명하므로 판단이 표류하기 시작
- 이상적인 설정: Frontier Labs에서 시간을 보내며 실제 상황을 파악하고, 외부에서 생태계 수준의 영향력 행사를 오가는 것
- ML 앙상블이 항상 개별 모델보다 성능이 뛰어나듯, 가장 어려운 문제를 고민하는 사람들의 앙상블이 필요
- 두세 명이 닫힌 문 뒤에서 결정하는 것은 좋은 미래가 아니며, 더 많은 실험실이 있어야 함
microGPT와 교육의 미래
-
microGPT: LLM 훈련의 본질을 약 200줄의 Python 코드로 압축한 프로젝트
- 데이터셋(텍스트), 신경망 아키텍처(~50줄), autograd 엔진(~100줄), 최적화 프로그램(~10줄), 훈련 루프로 구성
- 모든 복잡성은 효율성 때문이며, 알고리듬 자체는 매우 단순
- 교육 방식의 전환: 과거에는 사람에게 직접 설명하는 가이드/강의 형태였지만, 이제는 에이전트에게 설명하는 것이 핵심
- 200줄의 코드를 에이전트에게 설명하면, 에이전트가 각 사용자의 수준에 맞게 무한한 인내심으로 재설명 가능
-
'스킬(skill)' 개념: 에이전트에게 가르치는 방법을 지시하는 커리큘럼을 마크다운으로 작성
- 코드 라이브러리 문서도 인간용 HTML 대신 에이전트가 소화할 수 있는 마크다운 형태로 전환 필요
- 인간 교육자의 역할: 에이전트가 아직 못하는 핵심 비트를 설계하고, 커리큘럼의 중요 포인트를 주입하는 것
- 에이전트가 할 수 있는 일은 곧 인간보다 더 잘할 수 있으므로, 시간을 어디에 쓸지 전략적 선택이 필요