Pi 코딩 에이전트를 만들며 배운 점

▲

GN⁺ 3달전 | parent | ★ favorite | on: Pi 코딩 에이전트를 만들며 배운 점(mariozechner.at)

Hacker News 의견들

정말 멋지고 사려 깊은 프로젝트를 만든 것 같음
나도 context engineering과 트리 기반 대화 구조의 중요성에 완전히 공감함
기존의 선형 대화 흐름은 너무 제한적이어서, 연구나 아이디어 발상 시 LLM과 협업할 때 불편했음
나도 비슷한 철학으로 개인용 도구를 만들었는데, 컨텍스트를 잘 구축해두고 재활용하거나, 사이드 퀘스트를 실행해 좋은 결과만 가져오는 식이었음
네가 만든 버전이 훨씬 가치 있는 구현임. 덕분에 Pi를 알게 되어 기쁨
- 나도 비슷한 시도를 했음. MIND_MAP.md라는 마크다운 파일을 그래프 형태로 관리하면서 인용을 인라인으로 기록함
  세션 간 메모리를 유지하고, 서브에이전트를 생성할 때 컨텍스트 낭비를 줄이는 방식임
  내 예시 코드 참고 가능함
OpenClaw와 Pi-agent의 관계가 ollama/llama-cpp 관계와 비슷하다고 느낌
전자가 주목받지만, 실제로는 후자가 더 인상적임
Claude Code는 구독 혜택 덕분에 현재는 괜찮지만, 시장이 안정되고 API 단가와 비슷해지면 토큰 단위 결제형 프리미엄 경험이 더 나은 선택이 될 것 같음
결국 커스터마이즈 가능한 에이전트 프레임워크가 폐쇄형 앱보다 우위에 설 것이라 생각함
- 오히려 API 가격이 더 내려가고, Claude Code의 구독 혜택은 더 커질 가능성이 높다고 봄
  추론 비용 구조가 생각보다 효율적이고, R&D 자금도 충분함
  모든 도구가 점점 개선되고 있으며, 경쟁 제품들도 완벽하지 않음
- Pi도 구독 연동이 가능함. OpenAI가 GPT 구독을 Pi에서 사용할 수 있도록 허용했음
  개인적으로는 Peter의 프로젝트가 주목받는 게 기쁨
  OpenClaw 쪽 PR은 여전히 많지만, Pi는 그 1/100 수준이라 관리가 훨씬 수월함
- ChatGPT와 GPT-3의 관계와 거의 동일한 상황임
  OpenAI도 “왜 ChatGPT가 그렇게 인기인지 모르겠다, GPT는 이미 API로 있었는데”라고 말했었음
- ollama처럼 결국 enshittification(품질 저하)될 가능성도 있다고 봄
- 이름이 “pi”인 건 좀 혼란스러움. 이미 유명한 다른 “Pi”가 있는데 왜 그 이름을 썼는지 의문임
Google이 아직도 tool call streaming을 지원하지 않는 게 놀라움
로컬 토크나이저조차 제공하지 않아, AI Studio가 매번 API 호출로 토큰을 세는 비효율적인 구조임
- AI Studio는 입력 중이 아니어도 계속 토큰을 세는 버그가 있음
  CPU 사용률이 100%까지 올라가서, 내 노트북이 TPU 클러스터보다 전력 많이 쓰는 느낌임
- 사실 Anthropic도 토크나이저를 제공하지 않음
다른 코딩 에이전트들의 보안 조치는 대부분 security theater에 불과함
Codex는 OS 샌드박스(예: macOS Seatbelt) 안에서 명령을 실행하므로 완전히 무용하지는 않음
- 읽기 외의 모든 tool call은 수동 승인 절차가 필요하다고 생각함
  귀찮더라도, 잘못된 명령 복구보다 낫다고 봄
- 내 Codex는 샌드박스 밖의 SDK를 패치하라고 하면 파이썬으로 파일을 수정함
- 에이전트를 컨테이너 밖에서 실행하는 건 위험함. 기본 중의 기본임
- 나는 Codex를 GitHub 리포에 연결해 PR을 자동 생성하도록 설정했음
  DB는 건드리지 않고, UI와 미들레이어 코드만 수정하게 함
- Codex가 Claude Code처럼 임의로 샌드박스를 비활성화하는지 궁금함
- YOLO 모드는 컨테이너 안에서만 써야 함. 필요한 리소스만 접근하도록 제한해야 함
이미 몇몇 파워 유저들이 Pi로 전환하는 걸 봤고, 나도 고려 중임
Pi의 장점은 컨텍스트 완전 제어와 확장 가능한 툴 구조임
시스템 프롬프트, todo 확장, MCP 어댑터 등 다양한 예시가 있음
컨텍스트 성능 한계나 context rot, contextual drift 같은 문제를 이해한다면 Pi의 가치가 명확함
관련 링크 모음
- Pi는 moltXYZ에서 가장 주목받아야 할 부분임
  Armin이 확실히 시대를 앞서감
  Claude Code는 여전히 훅과 컨텍스트 관리가 얕음
나는 아직 Cursor를 쓰고 있음
Claude Code로 넘어가려 했지만, 내 작은 코드베이스에서는 Cursor가 훨씬 빠름
다만 diff-review UI가 Git과 통합되지 않아 불편함
AI가 만든 변경과 내가 만든 변경을 구분하기 어렵고, Git 통합 리뷰가 더 중요하다고 느낌
- Cursor는 짧은 피드백 루프가 강점임
  Claude Code는 결과를 믿고 맡기는 느낌이라 불안함
  모델을 자유롭게 바꿀 수 있는 게 핵심임. 언어나 작업 종류에 따라 모델 성능이 다름
- VS Code용 Claude Code 확장을 설치하면, 대규모 코드베이스 탐색과 CC 통합을 동시에 누릴 수 있음
- Claude Code는 기본적으로 프로젝트 인덱스가 없어 파일을 일일이 탐색함
  나는 시작 시 파일 목록을 컨텍스트에 넣는 훅을 만들어 속도를 개선했음
  여러 파일을 동시에 수정하는 커스텀 툴도 만들어 약 3배 빨라졌지만, 일부 예외 케이스로 비활성화함
- 나도 부트스트랩 솔로 개발자로, Claude를 작은 작업 자동화에 활용함
  예를 들어 프론트엔드 테스트 자동화나 랜딩 페이지 수정 등
  메인 기능은 별도의 Claude 인스턴스에서 긴밀히 피드백 루프로 관리함
- Cursor도 개선 중임. 곧 AI 작성 라인 추적(blame) 기능이 추가되어, 어떤 모델이 어떤 프롬프트로 작성했는지 확인 가능함
미니멀한 에이전트 아키텍처에 대한 글이 인상적이었음
“필요하지 않으면 만들지 않는다”는 철학이 마음에 듦
나는 OpenClaw를 사용해 여러 워크플로를 병렬로 관리함 — 고객 지원, 배포 모니터링, 코드 리뷰 등
핵심은 컨텍스트 엔지니어링임
OpenClaw의 workspace-first 모델은 AGENTS.md, TOOLS.md, memory/ 디렉토리로 세션 간 학습을 지속함
에이전트가 스스로 학습하는 과정을 로그로 관찰할 수 있음
보안 연극보다는 현실적인 위협 모델을 인정하는 접근이 좋음
여러 전문 에이전트를 병렬로 두는 게 범용형보다 낫다는 점도 공감함
Pi와 OpenClaw를 Terminal-Bench에서 비교해보면 흥미로울 듯함
Armin Ronacher가 왜 Pi를 쓰는지에 대한 글이 좋았음
Armin의 포스트를 보고 Pi가 OpenClaw의 에이전트 하네스라는 걸 처음 알았음
Pi는 JavaScript 기반 구조라 브라우저 샌드박스 아키텍처와 잘 맞음
AI 에이전트의 미래 방향에 적합하다고 생각함
다만 저자가 vendor extensions에 대해 더 유연했으면 좋겠음
관련 토론
- “교집합을 표준화하고, 합집합을 노출하라”는 표현이 인상적이었음
나는 아직 YOLO 모드를 쓰지 않고 있음
툴링이 완비되려면 6개월은 더 걸릴 듯함
에이전트가 임의 명령을 실행할 필요는 거의 없음
lint, 검색, 수정, 웹 접근 정도만 권한 시스템에 통합하면 충분함
Deno나 Workerd처럼 샌드박싱과 권한 제어가 있는 런타임이면 1차 방어선이 됨
그래서 Anthropic이 Bun을 선택한 건 이해하기 어려움 — 보안 아키텍처가 거의 없음