GeekNews Weekly

[GN#351] 이제는 에이전트가 아니라 에이전트 팀이다

2026-03-23 ~ 2026-03-29 사이의 주요 뉴스들

얼마 전 젠슨 황이 “연봉 7억 원 엔지니어라면 1년에 최소 3억 5천만 원어치의 토큰은 써야 한다”는 취지의 발언을 하면서 화제가 되었는데요. ccusage 같은 도구로 실제 사용량을 확인해보면, 일반적인 AI 사용 방식으로는 이 정도 토큰을 쓰는 것이 쉽지 않습니다.

단순히 묻고 답하는 방식만으로도 생산성은 크게 향상됩니다. 하지만 이런 방식에서는 토큰 사용량이 일정 수준 이상으로 늘어나지 않습니다. 반면 AI를 깊게 사용하는 사람들의 경우, 토큰이 단순한 대화 비용이 아니라 작업을 수행하는 ‘연산 단위’처럼 소비되기 시작합니다. 여러 작업을 동시에 실행하고, 반복적으로 개선하며, 장기적인 흐름 속에서 계속 호출되기 때문입니다.

그 차이는 결국 AI를 어떻게 구조화해서 사용하는가에서 발생합니다.

AI 분야에서 최근 자주 등장하는 단어가 있습니다. Harness입니다. OpenAI도 자신들의 Codex 활용 사례에서, Anthropic도 멀티 에이전트 설계 사례에서 자신들의 작업 방식을 설명하며 이 단어를 사용했습니다.

원래는 말에 씌워 마차를 끄는 장치에서 나온 단어로, 흩어진 힘을 묶어 통제 가능한 형태로 만들고 목적에 맞게 활용하는 도구를 의미합니다. AI에서는 LLM이나 에이전트의 능력을 그대로 쓰는 것이 아니라, 이를 제어 가능한 시스템으로 묶어 실제 작업에 투입하는 구조를 만드는 것을 뜻하며, 이를 하네스 엔지니어링이라고 부릅니다.

LLM은 강력하지만 비결정적이고, 일관성이 부족하며, 장기적인 작업 수행에는 한계가 있습니다. 한 번의 응답은 잘 생성하지만, 여러 단계에 걸친 작업을 안정적으로 수행하거나 이전 결과를 기반으로 반복 개선하는 데에는 약한 모습을 보입니다.

하네스 엔지니어링은 이런 문제를 해결하기 위해 에이전트를 워크플로우 단위로 묶고, 상태와 역할을 분리해 제어 가능하게 만드는 접근 방식입니다.

여기서 중요한 변화가 하나 더 있습니다.

하네스는 보통 하나의 에이전트를 대상으로 하지 않습니다. 작업을 분할하고 각 역할을 나누어, 여러 에이전트를 하나의 시스템처럼 구성하게 됩니다.

왜냐하면 하나의 에이전트는 범용적이지만 불안정하고, 여러 역할을 동시에 수행해야 하기 때문에 품질이 흔들리기 쉽기 때문입니다. 반면 역할을 분리한 구조에서는 각 단계의 책임이 명확해지면서 안정성과 재현성이 크게 향상됩니다.

즉, 이제는 “에이전트를 잘 쓰는 것”이 아니라 “에이전트 팀을 어떻게 구성하느냐” 가 핵심 역량이 되는 단계로 넘어가고 있습니다.

이 구조에서는 자연스럽게 토큰 사용량도 증가합니다.

OpenClaw를 만든 Peter Steinberger의 사례를 보면, 여러 에이전트를 활용해 140일 동안 약 2,500억 토큰을 사용하며 115개의 프로젝트를 진행한 것으로 알려져 있습니다. 이 사례가 의미하는 것은 단순히 “많이 썼다”가 아니라, 작업을 병렬화하고 반복 실행하는 구조에서는 토큰이 자연스럽게 생산 단위로 확장된다는 점입니다. 초반에 언급한 젠슨 황의 발언도 결국 이런 구조를 전제로 이해할 필요가 있습니다.

이런 흐름 속에서 등장한 도구가 YC의 CEO인 Garry Tan이 공개한 gstack 입니다. gstack은 지난 20년간의 제품 개발 경험을 가상 엔지니어링 팀 형태로 구성하여, 1인이 여러 명의 팀처럼 일할 수 있는 구조를 제공합니다. Claude Code나 Codex에서 사용할 수 있는 Skills 모음으로 구성되어 있으며, 창업자부터 시니어 엔지니어까지 폭넓게 활용할 수 있습니다.

작업 흐름도 흥미롭습니다. /office-hours로 아이디어를 정의하고, /plan-ceo-review, /plan-eng-review를 통해 설계를 확정한 뒤, /review → /qa → /ship 단계로 개발부터 배포까지 이어집니다. 하나의 제품 개발 과정을 에이전트 팀의 협업 흐름으로 구조화한 사례라고 볼 수 있습니다.

카카오 AI Native 전략 팀의 황민호 님이 만든 Harness 프로젝트는 여기서 한 단계 더 나아갑니다. 앞에서 설명한 일반 개념으로서의 하네스와 이름이 같지만, 여기서는 프로젝트 이름으로서의 Harness를 가리킵니다.

gstack이 정해진 팀을 제공하는 도구라면, Harness는 상황에 맞는 팀을 생성하는 도구입니다. “하네스 구성해줘”라는 프롬프트를 입력하면, 도메인에 맞는 전문 에이전트 팀을 설계하고 각 에이전트가 사용할 스킬까지 자동으로 생성해주는 구조입니다.

웹사이트 제작, 웹툰 제작, 유튜브 콘텐츠 기획, 코드 리뷰, 마케팅 캠페인 등을 위한 팀을 구성하는 프롬프트 자체는 몇 줄 안 되어서 더 흥미롭습니다. 이 Harness 프로젝트는 10개 도메인에 걸쳐 100개의 에이전트 팀 구성을 예제로 공개했고, 한국어 버전도 포함하고 있습니다. 그래서 자신의 도메인에 맞는 팀 구성을 찾아보는 것만으로도 출발점이 될 수 있고, 필요하다면 이를 바탕으로 직접 확장해볼 수도 있습니다.

돌이켜보면, 우리는 이미 한 번의 변화를 겪었습니다.

ChatGPT처럼 대화형으로 사용하던 LLM에서, Claude Code나 Codex 같은 개발용 하네스로 넘어오면서 개발 방식 자체가 크게 바뀌었습니다. 지금은 그 다음 단계로, 단일 에이전트를 사용하는 것에서 에이전트를 조직화하고 팀으로 운영하는 단계로 이동하고 있습니다.

물론 이 방식에도 러닝커브는 존재합니다. 하네스를 구성하고, 역할을 나누고, 흐름을 설계하는 과정 자체가 하나의 새로운 역량이기 때문입니다. 또한, 장기적으로는 이런 구조도 더 추상화되어 사라질 가능성이 있습니다. 하지만 AI를 얼마나 잘 쓰는가에서 어떻게 조직화하는가로 경쟁의 축이 옮겨가고 있는 지금, 이 접근 방식은 생산성을 확장하는 가장 구체적인 방법입니다.

이제는 에이전트를 쓰는 단계를 넘어서, 에이전트 팀을 구축해볼 때입니다.

✓ Feedback : 긱뉴스 위클리 어떻게 읽고 계신가요? 의견과 제안 부탁드려요

✓ Show GN - 직접 만드신 오픈소스나, 재직중인 스타트업의 제품/서비스를 소개해주세요.

매주 월요일 아침, 지난 일주일간의 GeekNews 중 엄선한 뉴스들을 이메일로 보내드립니다.

gstack - Claude Code로 만드는 가상 엔지니어링 팀
YC CEO Garry Tan이 직접 만든 AI 기반 개발 팩토리로, 한 명이 20명 팀처럼 일할 수 있게 만들어 줍니다. /plan부터 /ship까지 스프린트 전 과정을 역할별 에이전트 슬래시 커맨드로 자동화합니다. 각 단계가 CEO 리뷰·엔지니어링 설계·디자인 감리·QA·보안 감사까지 실제 팀의 워크플로우를 재현하는 구조라는 점이 차별적입니다. Conductor를 통해 여러 세션을 병렬로 돌릴 수 있어서, 1인 또는 소규모 팀이 AI 네이티브 개발 프로세스를 어떻게 구성할 수 있는지 구체적으로 보여주는 레퍼런스입니다.
Harness — Claude Code 에이전트 팀 & 스킬 아키텍트 플러그인
카카오 AI Native 전략 팀 리더 황민호 님의 Harness는 Claude Code 안에서 한 줄 명령으로 도메인별 전문 에이전트 팀과 스킬 세트를 자동 설계해주는 메타 스킬입니다. 파이프라인, 팬아웃/팬인, 전문가 풀 등 6가지 팀 아키텍처 패턴을 지원하며, 에이전트 팀 또는 서브 에이전트 방식으로 실행할 수 있습니다. 앞의 gstack이 "완성된 팀 구성"을 제공한다면, Harness는 팀 자체를 설계하는 도구라는 점에서 한 단계 위의 추상화입니다. 이 플러그인을 이용해 만든 10개 도메인 100개 하네스를 별도 저장소에 함께 공개해서, 직접 만들기 전에 어떤 구조가 가능한지 참고하기 좋습니다.
Claude Code 치트시트
클로드 코드 최신 버전의 치트시트로 모든 단축키 및 슬래시 명령어, 스킬, 워크 플로우 설명, 설정 파일 및 CLI 플래그까지 총 망라한 자료입니다. 여백없이 인쇄하면 A4 한장에 빽빽하게 인쇄됩니다.
삶을 더 편하게 만드는 Shell 트릭
셸을 단순한 명령 실행기가 아니라 생산성을 극대화하는 작업 공간으로 다루는 법을 소개합니다. Brace Expansion·Process Substitution 같은 고급 기능부터 CTRL+R 히스토리 검색, bg/disown 프로세스 분리까지, 반복 입력을 줄이고 프로세스 제어를 유연하게 만드는 실전 팁이 잘 정리되어 있습니다. AI 코딩 도구 시대에도 터미널 근육 기억은 여전히 가장 ROI가 높은 개발자 투자 중 하나이고, HN 댓글의 fzf 통합이나 위쪽 화살표 리맵핑 팁도 함께 볼 만합니다.
장기 실행 애플리케이션 개발을 위한 하네스 설계
Anthropic이 장기 자율 코딩을 위해 공개한 하네스 설계 사례입니다. 모델이 스스로 만든 결과물을 과대평가하는 문제와 컨텍스트가 쌓이면서 궤도를 이탈하는 문제를, 생성기·평가기·플래너로 분리한 3-에이전트 구조로 해결합니다. GAN에서 영감을 받아 "만드는 놈과 채점하는 놈을 분리"한 접근이 핵심이고, 실제로 브라우저 DAW를 4시간/$125에 빌드한 결과를 솔로 에이전트와 비교해서 보여줍니다. Opus 4.6에서 스프린트 분할 없이도 2시간 이상 연속 코딩이 가능해지면서 하네스 자체가 단순해졌지만, 모델이 좋아질수록 하네스의 가능성 공간은 줄어들지 않고 이동한다는 결론이 이 글에서 가장 오래 남는 문장입니다
하루에 코딩은 4시간이 한계인 이유
개발자의 딥 워크 한계는 하루 3~4시간이고, 25만 명 분석에서 실제 코딩 시간 중앙값은 52분에 불과합니다. 능력의 문제가 아니라 인터럽션과 회의가 플로 상태를 파괴하는 구조의 문제이며, 한 번의 Slack 메시지가 23분의 복구 시간을 먹습니다. 매니저에게 중요한 건 프로세스 추가가 아니라 방해 요소 제거이고, AI 어시스턴트도 이 인지 한계 자체를 늘리지는 못합니다 — 다만 얕은 작업을 위임해서 딥 워크 예산을 아껴 쓰는 데는 도움이 됩니다. 이번 주 AI 에이전트 도구들이 쏟아지는 와중에 읽으면 좋은 균형추입니다.
코드의 죽음은 과장되었다
Val Town 개발자 Steve Krouse가 "코드는 죽었다"는 분위기에 정면으로 반박합니다. 바이브 코딩은 직관적이지만, 규모가 커지면 추상화가 새면서 복잡성이 폭발합니다. 그래서 이 글의 핵심 주장은 코드의 가치가 "실행"이 아니라 복잡성을 정복하는 추상화 자체에 있다는 것이고, AGI가 오면 더 많은 슬롭을 찍어내는 게 아니라 가장 어려운 추상화 문제를 먼저 풀게 될 거라고 말합니다. "아무도 '바이브 라이팅'은 얘기 안 하잖아?" - 이 한 줄이 글 전체를 요약합니다.
Codex 활용 사례 모음
OpenAI가 Codex를 실제 개발 워크플로에 적용할 수 있는 12가지 구체적 유즈케이스를 공개했습니다. PR 자동 리뷰, Figma-to-code, Slack 태스크 실행, API 마이그레이션 등 6개 카테고리별 예시가 포함되어 있어, 팀별로 Codex를 어디에 붙일지 바로 실험해볼 수 있습니다. 각 케이스는 스타터 프롬프트와 필요한 Skills 링크까지 제공해, 개발자가 자신의 코드베이스에 맞는 agentic 코딩 흐름을 빠르게 구성할 수 있게 합니다.

Anthropic의 무서운 업데이트 속도에 살짝 자극을 받은 건지 OpenAI도 이제 움직이고 있는 것 처럼 보이네요.
데이터만이 유일한 해자다
AI가 코드와 변환 워크플로우를 대체하면서, 소프트웨어 비즈니스의 해자가 지속적으로 수집·정제된 실세계 데이터로 이동하고 있다는 주장입니다. 저자가 운영하는 Podscan을 예로 들면, URL 하나를 전사·분석하는 기능은 2시간이면 복제 가능하지만, 하루 5만 건을 상시 수집하는 데이터 파이프라인은 에이전트 토큰 비용만으로도 비현실적입니다. UI·REST API·MCP 전반의 기능 동등성(parity) 확보를 에이전트 시대의 필수 전략으로 제시하는 부분도 개발자에게 실용적입니다. 다만 댓글에서 지적하듯, 합성 데이터 생성이 빠르게 발전하는 만큼 인간 생성 데이터가 얼마나 오래 해자로 유지될지는 도메인에 따라 달라질 수 있습니다.
AI 이야기, 이제 지겹지 않나요?
AI가 개발자의 일상을 완전히 바꿔놓았지만, 이제는 새로움보다 피로감이 더 커졌다는 지적입니다. 커뮤니티가 비슷한 AI 워크플로 자랑으로 채워지고, 경영진은 토큰 사용량 같은 무의미한 지표를 관리 지표로 삼는 등 본질에서 멀어지고 있습니다. 이 글에서는 도구 자체보다 그 도구로 무엇을 만들고 어떤 가치를 전달하는가에 다시 초점을 맞추자고 제안합니다. AI가 지겹지 않냐고 묻는 것도 다시 AI글이라는게 아이러니지만, 의견에는 동의합니다. 내가 하는 일이 어떤 가치를 주고있는가를 한 번 더 고민해야 할 때입니다.
Claude Code로 생산성을 높이는 방법
개발 효율을 높이려면 AI보다 에이전트가 일하는 인프라를 다듬는 일이 핵심임을 보여줍니다. /git-pr 자동화, SWC 기반 초고속 빌드, 프리뷰 검증, 병렬 워크트리 등으로 반복 작업과 대기 시간을 없애며 루프 속도를 극단적으로 끌어올린 사례인데요. 각 마찰을 제거할 때마다 새로운 병목이 드러나는 제약 이론 패턴이 그대로 적용되어, 이제 개발의 초점은 기능 구현이 아니라 루프를 얼마나 빠르게 돌릴 수 있느냐로 이동합니다. 이번 위클리 전체에 조금씩 이런 것들이 스며들어 있네요. 다들 비슷한 곳을 보고 있다고 생각이 됩니다.
.claude/ 폴더 구조 분석
.claude/ 폴더의 CLAUDE.md, commands/, skills/, agents/, settings.json 등 전체 구조를 체계적으로 정리한 레퍼런스 글입니다. 이번 주 gstack이나 Harness 같은 프로젝트를 보면서 "이 스킬/에이전트 파일이 어디에 어떻게 놓이는 거지?" 싶었던 분이라면 이 글이 그 지도 역할을 합니다. 다만 HN 댓글에서 반복적으로 나오는 조언이 있는데 CLAUDE.md는 짧게 유지하고, 남이 만든 스킬을 무작정 설치하지 말라는 것입니다. 설정을 과하게 쌓으면 오히려 모델 성능이 떨어지고, Anthropic 팀도 30일마다 초기화한다는 이야기가 있을 정도입니다.
여백 만들기: 덜 하는 것이 위대함을 만드는 방법
WP Engine 창업자 Jason Cohen의 글로, 집중이란 더 많이 하는 게 아니라 대부분의 일을 멈추는 것에서 시작한다고 말합니다. 부적합한 고객을 내보내고, 모든 지표를 쫓는 걸 그만두고, 모든 기능을 1%씩 다듬는 대신 핵심 한 가지를 30% 끌어올릴 여백을 만들라는 이야기입니다. 주장 자체는 새롭지 않지만, "무엇을 멈추면 어떤 여백이 생기는가"를 11가지 구체 사례로 나열한 부분이 체크리스트로 쓸 만합니다. AI 도구가 할 수 있는 일을 급격히 늘려주는 지금, 오히려 무엇을 안 할지 결정하는 능력이 더 희소해지고 있습니다.
Impeccable - AI 하네스가 더 디자인 잘하게 만들기
AI 코드 어시스턴트가 만든 프론트엔드의 "AI 슬롭" 디자인을 잡아주는 오픈소스 스킬 패키지입니다. Inter 폰트 남용, 카드 중첩, 회색 텍스트 같은 LLM 특유의 안티패턴을 내장하고, /audit→/normalize→/polish 순서로 점검·정렬·정제하는 워크플로우를 제공합니다. Anthropic의 frontend-design 스킬 확장판이라 Claude Code와 궁합이 좋고, Cursor·Codex에서도 npx skills add 한 줄로 설치됩니다. 이번 주 Anthropic 하네스 설계 글에서도 "디자인 품질 채점 기준"이 핵심이었는데, Impeccable은 그 아이디어를 개발자가 바로 쓸 수 있는 명령어 세트로 패키징한 셈입니다.
소프트웨어에 남은 길은 두 가지뿐
a16z가 공개 소프트웨어 기업에 "AI로 성장률 10%p 올리거나, SBC 포함 실질 영업이익률 40~50%로 재구축하라"는 양자택일을 제시합니다. 개발자 입장에서 주목할 점은 토큰 기반 소비 모델, 4인 포드 중심 R&D, 에이전트 동시 운용 같은 AI 중심 조직 운영이 곧 기본 전제가 된다는 부분입니다. 다만 a16z는 VC 포트폴리오 기업들의 전환을 독려할 유인이 있고, 글 자체도 늘 엣지에서 날을 세우는 경향이 있으니 그 점 감안해서 읽으시기 바랍니다.
gitagent - AI 에이전트 정의 및 관리를 위한 Git 기반 표준
Git 기반으로 AI 에이전트를 정의·관리하는 오픈 표준 제안입니다. agent.yaml + SOUL.md 두 파일로 에이전트 정체성을 정의하고, Git의 브랜치·PR·diff를 그대로 활용해 버전 관리·협업·롤백합니다. 에이전트가 스킬을 학습하거나 메모리를 수정할 때 PR을 생성해 인간이 검토하는 Human-in-the-loop 워크플로우가 핵심입니다. "AI 운영을 코드처럼 관리한다"는 방향 자체는 맞는데, 아직 초기 프로젝트인 만큼 실제 팀에서 얼마나 채택될지는 지켜볼 필요가 있습니다. Dockerfile이 컨테이너의 사실상 표준이 된 것처럼, 에이전트 정의에도 이런 공통 포맷이 필요한 시점이긴 합니다.
Chops - AI 에이전트 스킬을 한 곳에서 관리하는 macOS 앱
여러 AI 코딩 에이전트의 스킬 파일을 한 곳에서 관리할 수 있는 macOS용 오픈소스 앱입니다. Claude Code, Cursor, Codex, Windsurf 등 에이전트마다 흩어진 dotfile을 직접 편집하지 않아도, 보일러플레이트 자동 생성과 실시간 파일 감지·전체 텍스트 검색으로 스킬 관리를 단순화합니다. AI 코딩 도구를 하나만 쓰는 개발자에겐 과할 수 있지만, 2~3개를 병행하는 순간 이런 메타 관리 레이어의 필요성을 체감하게 됩니다. 에이전트 생태계가 빠르게 분화하고 있어서, 이런 류의 도구가 앞으로 더 나올 것 같습니다.
속도를 늦춰야 하는 이유
AI 에이전트가 코드 생산성을 높이는 동시에 품질 관리와 설계 통제권을 잃는 트레이드오프를 정면으로 다룬 글입니다. 자동화된 속도가 테스트 신뢰도와 코드베이스 해석 가능성을 무너뜨리는 방향으로 작동할 수 있고, 지금의 에이전트는 CI 파이프라인의 도구로는 유용하지만 시스템 아키텍트를 대체하기엔 학습 루프가 결여되어 있다고 지적합니다. 이번 주 gstack·Harness·Impeccable 같은 에이전트 도구가 쏟아지는 맥락에서, "에이전트를 자동 커밋 봇이 아니라 리뷰 가능한 코드 초안 생성기로 다뤄야 한다"는 메시지가 좋은 것 같습니다.
속도를 늦춰야 빨라진다
AI가 실행 속도를 극단적으로 높이면서, 잘못된 요구사항이나 설계 가정을 더 빠르게 확산시키는 문제도 커지고 있습니다. Kahneman의 System 1/2 프레임워크를 빌려, 실행 전의 느린 사고 단계가 오히려 가장 큰 레버리지 지점이 된다고 주장합니다. 실용적인 부분은 AI를 코드 생성뿐 아니라 프리모텀·엣지 케이스 탐색·버릴 프로토타입 등 숙고를 가속하는 도구로 쓰라는 제안이고, "AI 쓰면 되잖아?" 라는 새로운 속도 압박에 대응하는 팀 커뮤니케이션 전략도 함께 다룹니다.
세 가지 유형의 나쁜 매니저
Rands(Michael Lopp)가 실리콘밸리에서 실제로 겪은 세 유형의 나쁜 매니저를 이야기합니다. 창작물에만 몰두하고 사람을 무시하는 The Artist, 회의를 독점하고 팀의 준비된 답을 무시하는 The Dictator, 소통 자체가 불가능한 The Knife 까지 셋 다 리더로서는 성공했지만 매니저로서는 실패한 사례입니다. 핵심은 상사를 바꾸려 하지 말고 유형에 맞게 준비 방법과 소통 방식을 조정하라는 것이고, 각 유형별 대응법이 구체적이라 읽고 바로 적용할 수 있습니다.
구글 TurboQuant: 극한 압축으로 AI 효율성을 재정의하다
구글이 공개한 TurboQuant는 LLM 추론 시 KV 캐시를 3비트까지 무손실 압축해 메모리 사용량을 최대 6배 줄이고, H100 기준 속도를 8배 높이는 양자화 알고리듬입니다. PolarQuant(극좌표 변환으로 데이터 분포를 균일화)와 QJL(1비트 오차 보정)의 2단계 구조로 학습이나 파인튜닝 없이 기존 모델에 바로 적용할 수 있다는 점이 핵심입니다.

발표 직후 시장 반응이 격렬했습니다. Cloudflare CEO Matthew Prince가 "구글판 DeepSeek 모먼트" 라고 X에 올리면서 공포가 확산되었고, SK하이닉스(-6.2%)와 삼성전자(-4.7%)가 급락했으며 미국에서도 SanDisk(-5.7%), WD(-4.7%), Micron(-3%) 순으로 하락해 글로벌 메모리 반도체 섹터 전체가 출렁였습니다. "AI가 메모리를 덜 쓰게 되면 HBM·DRAM 수요가 꺾이는 것 아닌가" 라는 수요 파괴(demand destruction) 내러티브가 매도의 트리거였습니다.

하지만 냉정하게 보면 과잉 반응에 가깝습니다. 첫째, 구글이 내세운 "6배 압축"은 비압축 32비트(FP32) 기준 이론값이고, 실제 AI 추론의 70~80%는 이미 8비트 정밀도를 사용하므로 현실적 절감은 약 2.6배 수준입니다. 둘째, 이 기술은 추론 단계의 KV 캐시에만 적용되며, AI 학습에 필요한 대규모 메모리에는 영향이 없습니다. 셋째, 아직 연구 단계이고 상용 검증이 되지 않았으며, ICLR 2026(4월 브라질)에서 정식 발표 예정입니다. Morgan Stanley는 오히려 AI 운영 비용이 낮아지면 채택이 가속되어 전체 메모리 수요가 늘어날 수 있다고 반박했고, 이는 제본스 역설(효율이 높아지면 총 소비가 증가) 과 같은 맥락입니다.

개발자 관점에서 TurboQuant가 의미 있는 이유는 따로 있습니다. llama.cpp에 이미 구현이 진행 중이고, PyTorch 독립 구현체도 공개되어 로컬 추론 환경에서 VRAM 병목을 직접 줄일 수 있는 실용 기술로 빠르게 이동하고 있습니다. DeepSeek 때와 마찬가지로, 단기 주가 충격보다는 "같은 하드웨어로 더 큰 모델을 돌릴 수 있게 된다" 는 방향이 장기적으로 더 중요한 시사점입니다.
Claude, 컴퓨터의 마우스·키보드·화면 직접 제어 기능 출시
Anthropic이 Claude Code Desktop과 Cowork을 통해 실제 컴퓨터의 마우스·키보드·화면을 직접 제어하는 기능을 macOS에 먼저 출시했습니다. API가 없는 레거시 앱 자동화나 네이티브 앱 디버깅처럼 GUI를 직접 다뤄야 하는 작업에 쓸 수 있고, Dispatch와 결합하면 자리를 비운 상태에서 원격 지시도 가능합니다. 아직 초기 단계라 사람보다 훨씬 느리고 실수도 있지만, CLI 중심이던 메이저 AI 코딩 도구가 화면 전체로 활동 범위를 넓힌 첫 걸음이라는 점에서 방향 자체가 중요합니다.
온보딩은 거래(Transaction)다
온보딩을 무조건 짧게 만드는 것이 정답이 아니라, 사용자의 주의력과 의도가 동시에 존재하는 드문 순간으로 활용하라는 글입니다. Summer Health 사례가 설득력 있는데, 집 주소나 의료 이력 같은 민감한 질문도 "가장 가까운 약국으로 처방전을 보내드리기 위해서입니다"처럼 이유를 명확히 설명하면 이탈 대신 신뢰가 생깁니다. 질문을 넣을지 판단하는 테스트도 간단합니다: 사용자에게 그 이유를 소리 내어 말할 수 있으면 넣고, 못하면 빼라. 가입 플로우를 설계하는 제품 개발자라면 한번 점검해볼 만합니다.
understudy - 시연으로 배우는 로컬 데스크톱 에이전트
사용자가 한 번 시연하면 의도와 절차를 학습해 반복 수행하는 로컬 데스크톱 자동화 에이전트입니다. 단순 매크로 녹화가 아니라 의도 기반 학습을 지향하고, GUI·브라우저·쉘·파일시스템·메시징까지 통합 제어합니다. 개인용 RPA의 오픈소스 버전에 가깝고, Anthropic이 같은 주에 출시한 Computer Use와 방향은 같지만 접근이 다릅니다. Computer Use는 LLM이 화면을 보고 판단하는 방식이고, understudy는 사용자의 행동을 먼저 관찰하고 패턴화하는 방식입니다. 현재 macOS 중심이고 Layer 1~2만 구현된 초기 단계입니다.
emulate - 로컬에서 GitHub·Vercel·Google API를 완전 복제해 실행하기
Vercel이 공개한 로컬 API 에뮬레이터 emulate는 GitHub·Vercel·Google의 주요 REST 엔드포인트를 실제처럼 복제해 로컬에서 실행합니다. 단순 mock이 아니라 프로덕션과 동일한 상태·응답 구조를 유지해서, 네트워크 차단 환경이나 CI에서 OAuth·Webhook·통합테스트를 완전히 재현할 수 있습니다. 외부 API 의존 테스트가 느리고 불안정한 건 대부분의 팀이 겪는 문제인데, CLI 한 줄로 여러 서비스를 띄우고 Node API로 테스트 코드 안에서 직접 제어할 수 있어 실용성이 바로 와닿는 도구입니다.
평균 사용자를 위해 디자인하지 마라
디지털 제품의 사용자 분포가 정규분포가 아니라 멱법칙을 따르기 때문에, "평균 사용자"를 위한 최적화는 실제로 존재하지 않는 허상을 쫓는 것이라는 글입니다. 숫자가 인상적인데, X에서 P50은 월 2회 게시, P90은 138회(69배), AI 코딩 도구에서는 P95가 P50 대비 17배 더 많은 요청을 보냅니다. 제품 설계의 핵심은 P50에겐 단순한 진입로, P95에겐 상한 없는 깊이를 제공하는 점진적 공개(Progressive Disclosure) 이고, 생성형 AI가 P50 사용자의 의도를 P95 수준의 워크플로우로 번역해주는 테일 확대 수단이 될 수 있다는 전망도 흥미롭습니다.
cq - 에이전트를 위한 Stack Overflow
Mozilla AI가 공개한 cq는 AI 코딩 에이전트들이 학습한 지식을 공유해 동일한 실수를 반복하지 않게 하는 지식 커먼즈 프로젝트입니다. 배경이 흥미로운데, Stack Overflow 질문 수가 2014년 월 20만 건에서 2025년 12월 3,862건으로 급감하면서, LLM이 자신을 키운 커뮤니티를 공동화시킨 뒤 다시 스스로 Stack Overflow를 필요로 하는 순환이 생긴 셈입니다. 에이전트가 새 작업 전에 커먼즈에 질의하고, 발견한 지식을 제안하면 다른 에이전트들이 검증하는 상호 피드백 구조로 신뢰를 쌓아가며, Claude Code·OpenCode 플러그인이 포함된 오픈소스 PoC가 이미 공개되어 바로 시도해볼 수 있습니다. 아직 초기 단계이지만 방향 자체가 이번 주 gitagent·Harness 같은 에이전트 메타 인프라 흐름과 맞닿아 있습니다.
추정은 왜 실패하는가 (그리고 왜 여전히 필요한가)
소프트웨어 개발의 추정은 본질적으로 정확할 수 없는 Complex 영역의 활동이지만, 추정을 버리면 조직의 조율 능력이 함께 사라집니다. 핵심은 미래를 맞히는 게 아니라, 불확실성 속에서 기대치를 정렬하는 구조화된 대화를 유지하는 데 있습니다. 추정을 약속으로 오용하는 관행을 끊고, 범위 기반·가정 명시·점진적 보정으로 다루면 비난 대신 학습이 쌓입니다. AI가 코드 생산 속도를 높이면서 "이제 추정이 필요 없다"는 분위기도 있는데, 실행이 빨라질수록 무엇을 언제 하겠다는 조율의 가치는 오히려 올라갑니다.
SaaS 는 죽지 않았다
LinkedIn 공동창업자이자 AI 투자자인 리드 호프만이, AI 시대에 무너지는 것은 SaaS 산업이 아니라 엔지니어링 난이도에 기대던 오래된 SaaS 플레이북이라고 주장합니다. 코드 생성이 쉬워진 만큼 경쟁력은 기능 구현이 아니라 도메인에 맞게 설계된 AI 네이티브 시스템과 새로운 가격 구조(좌석 기반 → 연산 소비형)로 이동하고 있다는 논지입니다. 이번 주 a16z의 "소프트웨어에 남은 길은 두 가지뿐" 글과 같은 방향을 가리키고 있고, 호프만이 AI 스타트업에 적극 투자하는 입장이라는 점은 감안해서 읽으면 좋겠습니다.
그래서, AI 앱들은 다 어디에 있나요?
AI 코딩 도구가 생산성을 폭발적으로 높였다는 주장에 대해, PyPI 데이터는 다른 이야기를 합니다. 전체 패키지 생성 속도에는 유의미한 변화가 없었고, 업데이트 빈도가 2배 이상 높아진 건 AI 관련 인기 패키지에 한정된 현상이었습니다. 저자는 이를 기술적 생산성 향상이 아니라 자금과 관심이 AI 생태계에 집중된 효과로 해석합니다. 이번 주 에이전트 도구와 생산성 관련 글이 많은데, 매크로 데이터로 보면 아직 업계 전반의 생산성 변화로 나타나고 있지는 않다는 점에서 참고할 만합니다.
Windows 네이티브 앱 개발이 엉망인 이유
Windows 네이티브 앱 개발은 여전히 프레임워크 단절과 Win32 의존의 늪에서 벗어나지 못하고 있습니다. 최신 WinUI 3조차 트레이 아이콘이나 글로벌 단축키 같은 기본 기능을 직접 지원하지 않아, 개발자는 P/Invoke로 구식 API를 호출해야 합니다. Microsoft조차 주요 앱을 웹 기술로 전환하고 있어서, 현실적으로는 Electron·Tauri 같은 웹 스택이 더 생산적인 선택지가 된 상황입니다. Windows 데스크톱 개발자라면 공감 반 한숨 반으로 읽게 될 글이네요.
Expect - 에이전트가 실제 브라우저에서 코드를 테스트하는 도구
코드 변경을 감지해 실제 브라우저에서 자동으로 테스트를 생성·실행하는 CLI 도구입니다. Claude나 Codex를 에이전트 백엔드로 연결해 자연어로 테스트 시나리오를 지정할 수 있어, QA 스크립트를 직접 작성할 필요가 줄어듭니다. 변경된 코드만 빠르게 검증하거나 브랜치 전체를 테스트하는 등 옵션이 유연합니다. 이번 주 소개한 gstack의 /qa나 Anthropic 하네스의 Playwright 기반 평가기와 같은 방향인데, 독립 CLI 도구로 기존 프로젝트에 바로 붙일 수 있다는 점이 차별적입니다.
GitLab 공동창업자, 파운더 모드로 직접 자신의 암 치료를 설계하다
GitLab 공동창업자 Sid Sijbrandij가 표준 치료가 끝난 뒤 ‘파운더 모드’로 자신의 암 치료를 직접 설계하며 의료 시스템의 한계를 실험하고 있습니다. 그는 진단·치료 데이터를 25TB 규모로 공개하고, AI 도구를 실제 의료 의사결정에 통합해 맞춤 치료를 병렬로 진행했습니다. 이 접근은 의료를 ‘환자 중심의 오픈소스 프로젝트’처럼 재구성할 수 있음을 보여주며, 개발자에게는 데이터 투명성과 반복 가능한 실험 문화가 의료 혁신에도 적용될 수 있음을 시사합니다.
Vercel의 json-render - Generative UI 프레임워크
Vercel이 공개한 json-render는 AI가 프롬프트로부터 제약된 JSON 구조를 생성해 즉시 렌더링하는 생성형 UI 프레임워크입니다. 개발자는 미리 정의한 컴포넌트·액션·검증 규칙 카탈로그 안에서만 모델이 동작하도록 제한해, 동적 UI 생성에도 안정성과 예측 가능성을 확보합니다. 생성된 UI는 React·React Native 모두에서 동일한 스펙으로 실행되며, 완성된 결과를 순수 React 코드로 내보내 배포할 수 있어, 프롬프트 기반 UI 프로토타이핑과 실제 제품 코드의 경계를 빠르게 잇는 흐름을 만듭니다.
Codex 플러그인 출시 — Slack, Figma, Notion, Gmail 등 주요 도구와 즉시 연동
OpenAI의 Codex가 플러그인 구조를 도입하면서, 코드 작성 도우미에서 팀 워크플로우의 실행 엔진으로 확장되고 있습니다. .codex-plugin/plugin.json으로 협업 도구 연동과 자동화를 정의하는 구조는, Claude Code의 .claude/ 폴더가 스킬·에이전트·명령을 관리하는 방식과 같은 방향입니다. 개발자는 Slack 봇이나 Zapier 대신 코딩 에이전트 내부에서 직접 팀 자동화를 설계할 수 있게 되며, 이는 IDE 확장보다 더 근본적으로 "코드 편집기 밖의 개발 업무"를 에이전트가 담당하는 흐름입니다. 주요 AI 코딩 도구들이 일제히 에이전트 설정 파일을 팀 인프라로 격상시키는 주간이었습니다.

✓ 사내 커뮤니케이션 도구에 GeekNews Bot을 추가해서 멤버들과 함께 새 글을 받아보세요
ㅤ→ Slack봇, 잔디봇, Teams봇, Dooray!봇, Discord봇, 구글 챗 봇, Swit 봇
✓ 긱뉴스를 트위터에서 구독 하거나 RSS로도 구독 가능 합니다
✓ 주위분들께 긱뉴스 위클리 - https://news.hada.io/weekly 뉴스레터를 추천해 주세요.