Claude Code 프레임워크 전쟁

▲

GN⁺ 8달전 | parent | ★ favorite | on: Claude Code 프레임워크 전쟁(shmck.substack.com)

Hacker News 의견

Claude Code용 "프레임워크"를 여러 개 시도해 보았으나, 객관적으로 성능이 좋아진 건 잘 모르겠음
공식처럼 복잡한 과정을 둘러싼 의식만 가득하고, 실제로 무엇 때문인지 의문임
이런 프레임워크 방식이 모델 훈련 목적과 맞지 않는 느낌임
실제로는 모델에 불필요한 정보들을 던져주면서, "내가 정해놓은 과정"에 맞추려 억지로 맥락을 오염시키는 셈임
맥락 오염을 없애고, 실제 작업에 꼭 필요한 정보만 제공하면서 점진적으로 개선해 나가는 게 중요하다고 봄
이런 전통적 협업 방식은 맥락 제한된 에이전트 맥락 밖에서 진행되어야 더 맞는 구조임
- 이 글에서는 subagents에 대해 전혀 언급하지 않아서 언제 작성된 건지 궁금함
  나는 "메모리 뱅크에서 현재 작업에 관련 있는 정보만 찾아오기", "테스트 돌려보고 실패 및 커버리지만 피드백하기" 같은 작업들을 subagent에 위임함
  이렇게 하면 메인 에이전트의 컨텍스트가 금세 꽉 차는 걸 막을 수 있었음
  https://docs.anthropic.com/en/docs/claude-code/sub-agents
- dev containers와 worktrees 같은 몇 가지 실용 관행을 도입하면서 삶이 더욱 편해졌음
  프로젝트 파일 관리와 worktree 생성을 위한 나만의 shell script "프레임워크"도 직접 만들었는데, 이 작업은 이틀 정도만에 끝냈음
  특정 툴에 종속되지 않아 자유로움
  컨텍스트 오염이 실제로 신경써야 할 현실이라는 점에 동의함
  특히 MCP endpoint 정의가 내 컨텍스트 중 상당 부분(약 2만 토큰)을 차지하는 걸 경험하면서, MCP 선택 시 반드시 컨텍스트 이슈도 고려함
- 실제 프로젝트 매니저와 비슷한 상황이라 느꼈음
내가 원하는 점은, Claude를 활용해서 명확하지 않은 부분을 먼저 묻는 단계가 제안서 작성에 포함되는 것임
실제 엔지니어에게 요구사항과 기대 결과만 주면, 실행 전에 당연히 추가 질문을 던져 확실히 맞춰볼 것임
Claude도 이런 확인 과정을 자동화해줄 수 있기를 기대함
- OpenAI의 deep research tool과 비슷한 느낌임
  명확히 하지 않은 질문을 전혀 고려하지 않아 여러 실수가 생기는 경우가 많음을 종종 경험함
이런 프레임워크 적용 시, 실제 어느 정도 자율성을 두고, 어떤 환경(greenfield/brownfield)에서 사용하는지 궁금함
엔터프라이즈 소프트웨어에 Claude Code를 붙여서 자신 있게 결과를 내본 경험이 있는 분도 있는지 묻고 싶음
나는 회사에서는 Claude Code에 비교적 자유롭게 접근 가능하지만, 내 코드베이스에서는 프론트엔드 UI나 Playwright를 포함하면 결과가 들쭉날쭉함
코드 찌꺼기는 얼마나 남는지, 동료와의 협업 피로도는 어떤지, pull request 규모, 추론 비용, 병렬화 시 관리 방식 등 실제 사용 노하우가 궁금함
README 문서는 시스템 특화 용어, 이모지, 지나치게 개인화된 툴박스 정리법 등으로 가득 차서 판매용 홍보 문서처럼 느껴질 때가 있음
결국 Anthropic 등에서 이런 기능들을 자체 CLI에 편입하지 않을까 싶음
개인적으로는 reasoning 모델로 10페이지짜리 스펙, 엄격한 lint/type check/formatter/hook, 작업 체크리스트, red/green TDD까지 모두 처리하게 하며, GPT-5에게 “go” 한 번이면 필요한 결과물이 자동으로 만들어짐
같은 도구만 있다면 누구나 자기만의 시스템을 쉽게 만들 수 있음
- 나도 Claude Code를 사용한 지 3주 정도밖에 안 됐지만, 최근 50만 SLOC 이상 대형 Elixir/Phoenix 코드베이스에서 역할 기반 구조(예: persona)에 따라 인상적인 결과를 경험함
  $200 Max 플랜을 써서 추론 비용도 고정임
  특히 신규 기능 추가 등 greenfield 상황일 땐 성과가 뚜렷했음
  복잡한 리팩터링이나 시스템 심층 변경에는 (좋은 설계 문서가 있다면) 진도가 꽤 나가지만, 문서화가 부족한 곳은 효과가 잘 안 나옴
  초기엔 "좋지 않은 코드"—스타일이나 재사용성/유지보수성이 떨어지는 구현물이 많았는데, CLAUDE.md 파일을 강화하고, "elixir-code-reviewer" subagent를 개발자 persona가 무조건 활용하도록 한 뒤부터 코드 품질이 눈에 띄게 향상됨
  우리 플랫폼은 오픈소스라, 현재 Claude command 및 subagent 구성을 여기에 공유함
  https://github.com/Simon-Initiative/oli-torus/tree/master/.claude
블로그에서 LLM 특유의 스타일이 진하게 느껴졌음
유용한 정보이지만, AI에게서 AI에 대해 배우고 있다는 점이 재미있음
- 요새 AI 관련 글 중 많은 부분이 이렇게 느껴짐
  실제로는 비전문적인 작업이 아니면 Claude Code를 직접 모니터링하고, 잘못된 방향으로 갈 땐 즉각 개입해야 함
  보안상 너무 많은 권한을 주거나, 실제 어떤 명령을 실행하는지 확인하지 않으면 안 됨
  지금의 "프레임워크"는 아직 갈 길이 멀고, 현재로선 “엄청난 속도로 코드를 뿜어내는 주니어 인턴” 정도로 생각하는 게 현실적임
- 글쓴이가 repo를 제대로 확인하지 않았거나, 실제로 제한된 리서치 결과일 수 있음
  예를 들어 superClaude는 MCP 서버가 아니고, metaGPT는 Claude Code와 호환되지 않는 듯 보임
agent도 인간처럼 자기 컨텍스트를 직접 관리하게 두지 않는 이유가 늘 궁금함
이전 작업 전체 히스토리를 왜 매번 전부 포함시키는지 모르겠음
agent가 어느 컨텍스트를 남겨야 효과적인지 판단하게 두고, 맥락 관리의 장단점을 스스로 학습하게 하면 각 작업 수행 능력이 더 좋아질 것 같음
결국 여기서도 textbook "bitter lesson"이 반복되는 듯함
사람들이 온갖 "프레임워크"를 만들지만, 다음 세대 모델이 모두 쓸모없게 만들어버림
http://www.incompleteideas.net/IncIdeas/BitterLesson.html
BMAD-method가 언급되지 않아 꽤 놀라웠음
내 경험상 BMAD-method가 Claude Code에 가장 좋은 보완책임
- BMAD-method가 뭔지 궁금함
  단순히 시스템 프롬프트 수준인지, 무엇 때문에 그렇게 유용하게 느꼈는지 알고 싶음
  https://github.com/bmad-code-org/BMAD-METHOD
- BMAD 시스템은 포스트에서 소개한 AgentOS와 비슷해 보임
  이런 컨텍스트 엔지니어링 방식이 내게는 효과적이었고, 직접 Claude에게 커맨드와 agent를 생성하게 해서 필요에 맞게 수정함
  최근엔 context 공유에 json과 markdown도 적극적으로 활용함
- taskmaster도 마찬가지지만 리스트에 없음
context 관리가 마치 저수준 프로그래밍처럼 느껴짐
올바른 연산을 위해 CPU 레지스터에 정확한 값들을 넣어야 하는 것과 비슷하다고 생각함
다른 점은 각 작업별로 추가/제거할 context 권한이 우리에게 훨씬 적다는 점임
B-MAD Framework를 써보고 효과가 너무 달라서 이제는 이 툴 없인 작업이 불가능해졌음
앞으로도 이런 프레임워크가 더 많아지길 바람
이런 프레임워크를 실제 사용해 본 분 있는지 궁금함
실질적으로 성과를 주는지, 단순히 유행을 타는 하이프인지 궁금함
- 때때로 프레임워크 쪽을 들여다보면 대부분 자기 자신으로만 구축되어 있음
  결과는 예상대로이며, 검증도 없이 온갖 기능이 쏟아지고, 제대로 된 문서도 없이 Claude-isms로 가득함
  실제로는 만든 사람이 관심 있는 소수 프로젝트에만 쓸 수 있는 수준임