Code w/ Claude에서 발표한 모든 것들

xguru · 2026-05-14T11:50:02+09:00

Anthropic의 개발자 컨퍼런스: 온라인과 오프라인으로 진행되며, 오프라인 행사는 샌프란시스코 5/6, 런던 5/19, 도쿄 6/10에 열림. 샌프란 행사에서 19개 세션 영상이 공개됨 Claude는 더 긴 작업 수행, 장기 메모리, 더 많은 도구 사용, 더 나은 검증 방향으로 발전 중 핵심 변화는 개발자가 직접 만들던 반복 실행, 도구 선택, 검증, 메모리, 문맥 관리가 Claude 제품과 플랫폼 안으로 들어가고 있다는 것 제품과 조직의 차별화는 모델을 어떻게 호출하느냐보다, 모델에게 어떤 도구, 데이터, 권한, 문맥을 열어주느냐로 이동함 코드 작성 자체보다 검증, 보안, 권한 관리, 관찰 가능성, 평가 체계, 조직 운영이 새로운 병목으로 커짐 앞으로 중요한 영역은 맞춤 도구, 신뢰할 수 있는 메모리, 평가, 보안 경계, 문맥 공학(context engineering), 에이전트 작업 환경(agent experience) 임 세션 1 - 키노트 Claude Code와 Claude Platform을 개발자에게 더 잘 작동하게 만드는 제품 개선에 초점이 맞춰짐 대부분의 사용자는 Claude API나 터미널을 직접 쓰기보다, 개발자가 만든 제품 안에서 Claude를 사용함 Claude Platform API 사용량은 전년 대비 거의 17배 증가함 Claude Code의 평균 개발자는 주당 20시간 Claude를 실행함 Claude Code의 5시간 사용 한도가 Pro, Max, Team, seat-based Enterprise plans에서 두 배로 늘어남 Claude Opus API 한도도 크게 올라감 SpaceX의 Colossus One 데이터센터 용량을 활용해 개인 개발자와 소규모 팀에 더 많은 연산 자원을 제공하려 함 Opus 4.7은 Amp, Rakuten, Intuit에서 코딩 에이전트 성능, 계획 품질, 실제 엔지니어링 작업 해결률을 높임 앞으로의 Claude는 더 나은 판단력, 더 큰 문맥과 메모리, 여러 에이전트 협업을 향해 감 세션 2 - What's new in Claude Code Claude Code의 새 기능은 개발자 사용성과 자율성 강화라는 두 축으로 묶임 Remote Control은 터미널에서 시작한 세션을 웹이나 모바일에서 이어받게 해줌 Full screen terminal UI는 가상 스크롤백을 써서 깜빡임 없는 렌더링과 클릭 가능한 도구 호출 화면을 제공함 Claude Code GUI는 여러 세션을 핀 고정, 필터링, 그룹화, 분할 화면으로 관리할 수 있게 바뀜 plan view, diff view, files view에서 줄 단위 댓글을 남기고 Claude가 나중에 모아 처리할 수 있음 Auto Mode는 도구 호출이 파괴적인지, 프롬프트 주입처럼 보이는지 분류한 뒤 안전하면 권한 확인 없이 실행함 워크트리(worktree) 는 여러 Claude 세션이 각자 격리된 브랜치와 파일 복사본에서 병렬로 작업하게 해줌 자동 메모리(auto memory) 는 Claude가 프로젝트별 memory.md와 관련 파일을 관리하며 빌드 명령, 디버깅 단서, 프로젝트 선호를 다음 세션에 재사용함 Routines와 /loop 는 cron, GitHub webhook, API 트리거로 Claude Code 세션을 자동 실행하게 만듦 세션 3 - Memory and dreaming for self-learning agents Memory는 MCP, Claude Code, Agent SDK, Skills 다음 단계의 기본 요소로 다뤄짐 Claude Managed Agents의 메모리는 파일 시스템처럼 구성되어 Claude가 Bash와 Grep으로 직접 정리하고 갱신함 Opus 4.7은 무엇을 저장할지, 파일을 어떻게 나눌지, 메모리 구조를 어떻게 유지할지 더 잘 판단함 여러 에이전트가 같은 메모리 저장소를 읽고 쓸 수 있도록 읽기 전용 조직 메모리와 읽기-쓰기 작업 메모리를 나눌 수 있음 수백 개 이상의 에이전트가 동시에 메모리를 바꿔도 덮어쓰지 않도록 콘텐츠 해시 기반 낙관적 동시성 제어를 사용함 변경 이력, 작성 주체, 세션, 시점을 남겨 기업 환경에서 감사 가능한 메모리로 관리함 Dreaming은 최근 에이전트 세션과 transcript를 비동기로 분석해 반복 실수, 성공 전략, 중복 메모리, 오래된 메모리를 찾아 정리함 Harvey는 Dreaming을 법률 벤치마크에 적용해 한 법률 시나리오의 작업 완료율을 6배 높임 SRE 데모에서는 여러 에이전트가 따로 보면 놓치던 60초 재시도 패턴을 Dreaming이 찾아 메모리에 반영함 목표는 오늘의 에이전트 작업이 내일의 에이전트를 자동으로 더 낫게 만드는 지속 학습 구조임 세션 4 - Caching, harnesses, and advisors: Building on Claude at GitHub scale GitHub Copilot 규모에서는 프롬프트 캐싱이 비용과 지연 시간을 줄이는 핵심 수단이 됨 목표 캐시 적중률은 94-96% 이며, 70% 수준은 프롬프트 조립이나 캐싱 설계에 문제가 있다는 신호로 봄 시스템 프롬프트와 도구 목록 앞부분은 가능한 한 정적으로 유지해야 함 UUID, 시점, 동적 도구 로딩이 앞부분에 들어가면 캐시가 쉽게 깨짐 여러 모델을 오가는 하네스(harness) 에서도 Opus 호출이 이전 캐시를 재사용하도록 캐시 친화성을 지켜야 함 GitHub는 새 모델을 오프라인 벤치마크, 내부 사용, A/B 테스트, 온라인 평가(eval), 출시 후 최적화 순서로 굴림 Advisor 전략은 저렴한 실행 모델이 대부분의 일을 하고, 중요한 판단이 필요할 때만 Opus를 조언자로 부르는 구조임 모델 자체보다 프롬프트, 도구, 캐시, 모델 선택, 평가, 온라인 피드백을 묶은 운영층이 품질과 비용을 좌우함 세션 5 - The expanding toolkit 작년에 직접 만들던 보조 코드가 이제 모델과 API 안에 포함되고 있음 도구 사용에서는 수동 라우터나 재시도 장식자의 가치가 줄어듦 Claude가 직접 도구를 찾고, 실패한 도구 호출을 보고 복구한 뒤 다시 호출할 수 있음 도구 안내에는 입력뿐 아니라 출력 스키마도 적어두는 편이 좋음 출력 구조를 미리 알면 Claude가 불필요한 왕복 호출 없이 결과를 더 잘 활용함 Claude Code의 사전/사후 도구 훅(hook) 은 특정 호출을 막거나 결과를 자동 기록하고 분석하는 데 쓸 수 있음 100만 토큰 문맥, 서버 측 압축, 문맥 편집으로 긴 작업의 문맥 관리가 단순해짐 오래된 스크린샷, 검색 결과, 파일 읽기 결과는 주기적으로 제거해도 그 결과가 만든 판단은 유지할 수 있음 Opus 4.7은 최대 1440p까지 원본 해상도 스크린샷에서 1:1 픽셀 좌표를 반환해 화면 자동화의 좌표 보정 부담을 줄임 모델 한계를 보정하는 코드는 수명이 짧고, Claude가 볼 수 없는 도구, 데이터, 인증, 도메인 문맥을 연결하는 코드가 오래 남음 세션 6 - How to get to production faster with Claude Managed Agents Claude Managed Agents는 장시간 실행되는 운영용 에이전트에 필요한 문맥 관리, 자격 증명 관리, 보안, 접근 제어, 사람 검토, 관찰 가능성을 플랫폼으로 묶음 기본 구성은 agent configuration, environment, session임 session events로 사용자 이벤트, 에이전트 이벤트, 세션 이벤트, 구간 이벤트를 볼 수 있음 Console은 설정, 환경, 전체 실행 추적(trace), 병목, 권장 조치를 한 화면에 모음 outcomes는 미리 정한 종료 기준과 채점 기준을 만족할 때까지 Claude가 반복하게 만드는 기능임 여러 에이전트 조율, 메모리, Dreaming이 고급 기능으로 함께 다뤄짐 대시보드 데모에서는 agent가 병렬화, fast mode, 프롬프트 최적화를 찾아 렌더링 시간을 약 37초에서 10초로 줄임 운영용 에이전트는 모델 호출 반복문만이 아니라 추적, 병목 분석, 권한, 검증을 함께 갖춰야 함 세션 7 - A conversation with Dario Amodei & Daniela Amodei Anthropic은 예상보다 빠른 사용량과 매출 성장으로 연산 자원이 부족해짐 추가 연산 용량을 확보해 개발자와 사용자에게 더 많이 전달하려 함 개발자는 Claude의 핵심 사용자이자 AI가 경제 전반에 퍼지는 모습을 먼저 보여주는 집단으로 다뤄짐 Claude Code의 다음 변화는 개인 생산성에서 팀과 조직 생산성으로 이동함 코드 작성 속도가 빨라질수록 보안, 검증, 신뢰성, 유지보수가 새 병목이 됨 모델 능력이 빨리 바뀌면서 몇 달 전에는 불가능했던 제품이 갑자기 가능해짐 API 시장은 계속 중요함 앞으로의 Claude는 한 사람의 작업을 돕는 수준을 넘어 조직 전체의 여러 사람과 여러 에이전트 작업을 키우는 방향으로 감 세션 8 - Live coding session with Boris Cherny and Jarred Sumner Bun의 Robobun은 GitHub issue를 자동 재현하고 테스트를 포함한 PR을 만듦 이전 버전에서는 실패하고 수정 브랜치에서는 통과하는 조건을 PR 제출 기준으로 삼음 CLAUDE.md 는 빌드 명령, 테스트 명령, 테스트 위치, 과거 실패 패턴, 폴더 구조, CI 로그 읽는 법을 담는 에이전트 운영 문서가 됨 CodeRabbit, Claude Code Review, Robobun을 함께 써서 스타일, CLAUDE.md 준수, diff 밖 경계 조건 검토를 자동화함 Claude Code와 Opus 4.7은 목표, 측정 방법, 검증 반복이 명확할 때 성능을 점진적으로 끌어올리는 작업에 잘 맞음 병목은 코드 작성에서 계획과 검증으로 이동함 agent가 만든 PR은 반드시 병합해야 하는 결과물이 아니라 검토 가능한 제안으로 다뤄질 수 있음 agent PR이 늘어도 사람의 병합 기준은 낮아지지 않고 오히려 높아질 수 있음 세션 9 - Building with Claude Managed Agents and Asana AI teammates Asana의 AI teammates는 기업 안에서 실제 동료처럼 일하는 에이전트를 목표로 함 에이전트는 actor가 되어 승인, 워크플로, 여러 단계 업무를 사람들과 함께 처리함 많은 기업의 에이전트 사용은 아직 한 사람이 결과를 받고 다음 사람에게 넘기는 단일 사용자 흐름에 머무름 Asana는 여러 사람이 같은 에이전트와 상호작용하고 지식과 메모리가 누적되는 공동 작업 흐름을 지향함 Asana work graph는 목표, 포트폴리오, 프로젝트, 작업, 승인, 과거 결정을 연결해 에이전트 문맥으로 사용됨 AI teammate는 공유 설정, 역할 기반 접근 제어, 감사 가능성을 갖고 사람 동료처럼 시스템에 들어감 Claude Managed Agents는 캠페인 기획서 작성과 HTML 랜딩 페이지 목업 생성 같은 여러 단계 작업을 처리함 Asana는 사람 인터페이스, 기업 문맥, 보안, 감사 가능성에 집중하고 Claude Managed Agents는 검증 반복, 채점기, outcomes, 여러 에이전트 실행을 맡음 21개 이상의 사전 구축 AI teammates가 PMO, 마케팅, IT, HR, R&D 업무에 맞춰 제공됨 피드백은 에이전트 메모리에 남아 다음 사용자가 같은 실수를 다시 겪지 않게 함 세션 10 - Running an AI-native engineering org AI-native 엔지니어링 조직에서는 코드 작성 처리량이 가장 비싼 병목이 아니게 됨 검증, 리뷰, 보안, 유지보수, 직군 간 조율이 새 병목으로 커짐 6개월 로드맵이나 모든 작업 전 설계 문서보다, 적절한 시점에 계획하고 빠르게 시제품을 만드는 흐름이 Claude Code 팀에 맞음 기술 논쟁은 긴 화이트보드 토론보다 여러 구현 PR을 만들어 실제 영향과 API 모양을 비교하는 쪽으로 바뀜 코드 생성이 쉬워진 만큼 테스트, 자동화, 더 이른 검증이 더 중요해짐 "누가 이 코드를 썼나"보다 회귀 원인, 전문가 답변 필요 여부, 문맥 확보 목적을 구분하는 일이 더 중요함 Claude Code 팀은 스타일, 린트, PR 피드백, 일부 버그 수정과 테스트 추가를 Claude에 맡김 법무 검토, 보안 민감 코드, 신뢰 경계, 제품 감각은 사람 전문가가 계속 봄 채용에서는 단순 처리량보다 제품 감각이 있는 창의적 빌더와 깊은 시스템 전문성을 더 중시함 성공 지표는 온보딩 시간 단축, PR 주기 단축, Claude 도움을 받은 커밋 증가로 볼 수 있음 세션 11 - Building AI-native: Inside the stacks powering Cognition, Gamma, and Harvey Gamma는 도구 호출과 에이전트 조율 개선을 빠르게 제품에 반영해 에이전트 기반 편집 흐름을 강화함 Gamma는 MCP connector를 통합 기능뿐 아니라 고객 유입과 업무 흐름 진입점으로 활용함 Cognition은 모델이 코드 편집, 파일 시스템 사용, 장기 실행 계획을 더 잘하게 되면서 일부 자체 계획 및 메모리 시스템을 줄임 Harvey는 foundation model, 추론 모델, 코딩 에이전트의 변곡점마다 제품 구조를 다시 설계함 Harvey의 현재 플랫폼 능력은 agent-native 구조가 아니었다면 얻기 어려웠음 AI-native 제품은 6-12개월 안에 기존 구조가 낡을 수 있음을 전제로 해야 함 기록, 관찰 가능성, 재생, 평가는 빠른 구조 변화에 대응하기 위한 필수 장치가 됨 법률처럼 민감한 분야에서는 공개 데이터, 비공개 데이터, 메모리, 에이전트 흐름 사이의 단단한 데이터 경계가 필요함 특정 모델 한계에 맞춘 구조보다 다음 능력 도약을 빠르게 흡수할 수 있는 구조가 중요해짐 세션 12 - Architecting for model step-changes: A fireside with Vercel's Guillermo Rauch Vercel은 에이전트형 인프라를 핵심 방향으로 봄 클라우드가 스스로 복구하고, 최적화하고, 설정을 바꾸는 인프라로 확장될 수 있음 AI Gateway는 토큰을 위한 CDN처럼 다뤄짐 여러 제공자와 모델을 다루며 라우팅, 장애 대응, 비용 제어를 맡는 층이 됨 Opus 토큰은 사용량 비중보다 지출 비중이 훨씬 커서 고지능 모델을 제품에 넣을 때 비용 구조를 명확히 봐야 함 Opus 4.5 도입 뒤 V0는 이전 모델을 보정하던 문법 검사, 자동 수정, 일부 처리 절차를 단순화할 수 있었음 모델 능력 도약은 새 기능 추가뿐 아니라 기존 보정 코드를 제거하는 변화로 이어짐 V0에서 Opus 사용 확대 뒤 제품 크레딧 지출이 2배 늘어남 앞으로는 CLI와 UI 기반 개발뿐 아니라 비동기적이고 사람 감독이 적은 에이전트가 더 커질 수 있음 세션 13 - The thinking lever 테스트 시점 연산(test-time compute) 은 Claude가 추론 중 더 많은 토큰과 시간을 써서 어려운 문제를 푸는 축임 같은 Opus 4.7도 low, high, max effort에 따라 교통 시뮬레이션 품질이 크게 달라짐 더 많은 시간과 토큰을 쓸수록 그래픽, 교통 흐름, 차량 움직임이 더 현실적으로 바뀜 Claude가 쓰는 토큰은 사고 토큰, 도구 호출 토큰, 텍스트 토큰으로 나뉨 사고 토큰은 내부 추론, 도구 호출 토큰은 외부 세계와의 상호작용, 텍스트 토큰은 사용자와의 소통에 쓰임 effort는 시간, 비용, 품질의 균형을 표현하는 조절 장치임 Task Budgets는 Claude가 특정 작업에서 쓸 수 있는 토큰, 시간, 비용의 상한을 두게 해줌 적응형 사고(adaptive thinking) 는 Claude가 필요한 순간에 생각하고, 도구를 쓰고, 사용자에게 답하는 순서를 자유롭게 고르게 함 coding과 agentic use case에서는 extra high가 좋은 기본값으로 다뤄짐 단순 대량 분류나 추출에는 작은 모델이 유리하고, 지능이 필요한 작업을 빠르게 끝내려면 큰 모델의 낮은 effort가 더 나을 수 있음 세션 14 - How Datadog built a universal machine tool for Claude Code Datadog 엔지니어의 약 90% 가 운영 코드에 AI 코딩 도구를 사용함 그중 최소 2/3는 Claude Code를 사용함 AI 코딩 도구 사용 범위는 개별 함수, 테스트, 연결 코드에서 시스템 단위 작업으로 넓어짐 병목은 코드 작성에서 피드백 반복과 운영 검증으로 이동함 Helix 실험에서는 Claude Code가 Kafka와 비슷한 스트리밍 서비스를 며칠 만에 만들 수 있었음 운영 환경으로 가져가려면 shadowing, 검증 계단, 시스템 마일리지가 필요함 Tempor는 에이전트가 즉흥적으로 도구를 만들지 않고 상태, 전이, 효과, 불변식을 담은 청사진을 먼저 만들게 함 전이 표, 정책 문, 타입이 있는 효과, 검증기, 속성 테스트가 에이전트가 만든 소프트웨어를 검사 가능하게 만듦 agent에게 자유를 주려면 운영 시스템의 불변식과 검증 절차를 기계가 읽을 수 있게 만들어야 함 세션 15 - Building with Claude on Google Cloud Google Cloud에서 Claude Code를 설정하는 가장 쉬운 방법으로 Application Default Credentials 기반 설정 마법사가 쓰임 설정 마법사는 project, region, 사용 가능한 model을 감지하고 고정할 수 있음 Google Cloud에서 Claude model을 쓰면 토큰 기반 과금, provisioned throughput, API key 교체 부담 감소, project 정책 적용, project 안의 데이터 유지, regional/global endpoint를 활용할 수 있음 데모는 PM, UI/UX designer, software engineer, security engineer, data/growth marketer라는 다섯 역할이 하나의 피드백 앱을 끝까지 만드는 흐름으로 진행됨 PM은 손그림 wireframe을 Claude Code에 넣어 빠르게 시제품을 만듦 UI/UX 단계에서는 plan mode로 Claude가 구현 전에 계획을 먼저 내놓게 함 Google Cloud developer knowledge API와 MCP server는 최신 문서와 아키텍처 안내를 Claude Code에 연결함 Google Cloud Skills는 Cloud Run API 배포, Cloud Run과 Firestore 연결 같은 개별 블록 구현을 돕는 데 쓰임 sub-agent를 사용해 API, 수집 파이프라인, 대시보드 구현을 병렬로 진행함 security review prompt는 OWASP 문제나 service account 권한을 확인하고 발견한 문제를 고친 뒤 Cloud Run에 배포함 세션 16 - Getting more out of the Claude Platform 운영용 에이전트 최적화의 우선순위는 프롬프트 캐싱, 문맥 공학(context engineering), Advisor 전략임 프롬프트 캐싱은 입력 토큰 비용을 줄이고, 첫 토큰까지의 시간을 줄이며, 캐시된 토큰의 사용 한도 부담을 낮춤 캐시 적중률은 90%대가 목표로 다뤄짐 앞부분 프롬프트 안정성, 도구 정의 위치, 동적 값 삽입 위치가 모두 캐시에 영향을 줌 도구 검색 도구(tool search tool) 는 필요한 도구 정의만 제때 불러와 문맥을 아낌 모든 도구를 처음부터 넣으면 문맥과 캐시에 모두 부담이 커짐 프로그래밍 방식 도구 호출(programmatic tool calling) 은 많은 도구 결과를 그대로 넣지 않고 필요한 조각만 골라 문맥에 넣음 압축(compaction) 은 오래된 대화와 도구 결과를 줄여 긴 작업을 이어가게 함 Advisor 전략은 Sonnet이나 Haiku가 대부분의 작업을 하고, 중요한 판단이 필요할 때만 Opus를 조언자로 호출함 핵심은 모델을 더 많이 부르는 것이 아니라 어떤 문맥, 도구, 캐시 구조로 모델이 일하게 할지 설계하는 일임 세션 17 - Evaluating and improving Replit Agent at scale Replit Agent의 사용자는 framework나 test를 지정하지 않고 자연어만으로 동작하는 앱을 기대함 일반 코딩 벤치마크처럼 패치가 테스트를 통과하는지만 봐서는 Replit Agent 품질을 측정하기 어려움 평가는 앱이 사용자가 요청한 대로 동작하는지를 봐야 함 Replit은 오프라인 평가와 온라인 평가를 함께 씀 오프라인 평가는 새 agent release 전 관문 역할을 하고, 온라인 평가는 실제 사용 뒤 빠르게 대응하는 데 쓰임 VibeBench는 20개의 실제 PRD를 입력으로 빈 저장소에서 앱을 만들고, 자동 평가자가 브라우저에서 앱을 테스트하는 공개 벤치마크임 대부분의 모델은 자신이 만든 코드를 다시 확장할 때 더 어려워함 기능 사이에 테스트와 검증 단계를 둬야 흔들리는 기반 위에 계속 쌓는 일을 줄일 수 있음 Telescope는 운영 실행 추적을 의미 기반으로 묶어 긴 꼬리 실패를 찾고, 문제를 분류하고, agent가 PR을 만들고, VibeBench 또는 A/B 테스트로 검증하는 내부 시스템임 평가는 마지막 출시 확인표가 아니라 에이전트를 매일 개선하는 엔진이 됨 세션 18 - The capability curve Claude Code 사용자는 작년보다 더 큰 신뢰를 갖고 더 빠르게 배포함 발표 중 참석자 투표에서 많은 참석자가 Claude로 10배, 5배, 2배 속도 향상을 체감한다고 답함 SWE-bench Verified에서 Sonnet 3.7은 약 62%, Opus 4.7은 87% 를 기록함 Opus 4.7은 Sonnet 3.7이 실패하던 어려운 PR을 성공시킬 가능성이 3배 이상 높아짐 같은 프롬프트로 Claude.ai를 재현하는 데모에서 이전 모델은 일반적인 채팅 UI와 오류를 냈고, Opus 4.7은 Claude 색상, API 응답, 채팅 기록, 인라인 그래픽, dark mode를 구현함 향상된 영역은 계획, 오류 복구, 긴 실행 중 주의 유지임 새 모델은 먼저 계획하고, 실패하면 되돌아가며, 긴 문맥에서도 시스템 프롬프트와 목표를 더 잘 유지함 제품에 가까운 분포의 평가를 만들어야 실제 개선을 볼 수 있음 모델이 좋아질수록 기존 평가는 쉽게 포화되므로 평가도 계속 어려워져야 함 새 frontier model이 나오면 기존 보정 절차와 프롬프트를 다시 줄여볼 필요가 있음 세션 19 - Giving coding agents their own computers: How Cursor built cloud agents Cursor는 병목이 모델 지능보다 사람이 모델에게 충분한 도구, 문맥, 큰 목표를 주지 못하는 데 있다고 봄 사람 개발자를 온보딩하듯 에이전트도 컴퓨터, 개발 환경, 문서를 받아야 함 Cursor의 onboarding agent는 저장소를 탐색하고 앱 실행법, 서비스, 환경 변수, 권한을 파악함 AnyDev CLI는 에이전트가 서비스를 시작하고, 준비 상태를 기다리고, 상태를 확인하고, 테스트 계정 생성이나 로그인까지 처리하게 돕는 도구임 에이전트 개발 환경이 좋아질수록 개발자는 더 많은 cloud agent를 실행하고 더 큰 작업을 맡김 자율성의 기본 원칙은 에이전트에게 눈, 도구, 좋은 문맥을 주는 것임 에이전트는 사람처럼 앱 상태, 다른 에이전트 대화, 서비스 상태를 볼 수 있어야 함 Cursor는 computer use를 코딩 다음의 중요한 기본 요소로 봄 Claude 4.7은 agent가 직접 end-to-end 데모를 녹화해 기능을 검증하고, 사람이 코드 리뷰 전에 결과를 빠르게 이해하게 해줌 Cursor는 agent experience를 별도 설계 대상으로 보고, 에이전트가 성가시거나 깨졌거나 혼란스러운 흐름을 만나면 work on the factory 이슈로 남기게 함 최종 목표는 사람이 A에서 D까지 손으로 이끄는 것이 아니라, A에서 Z까지 풀 수 있는 시스템을 만드는 것임

(claude.com)

9P by xguru 6시간전 | ★ favorite | 댓글과 토론

Anthropic의 개발자 컨퍼런스: 온라인과 오프라인으로 진행되며, 오프라인 행사는 샌프란시스코 5/6, 런던 5/19, 도쿄 6/10에 열림. 샌프란 행사에서 19개 세션 영상이 공개됨
Claude는 더 긴 작업 수행, 장기 메모리, 더 많은 도구 사용, 더 나은 검증 방향으로 발전 중
핵심 변화는 개발자가 직접 만들던 반복 실행, 도구 선택, 검증, 메모리, 문맥 관리가 Claude 제품과 플랫폼 안으로 들어가고 있다는 것
제품과 조직의 차별화는 모델을 어떻게 호출하느냐보다, 모델에게 어떤 도구, 데이터, 권한, 문맥을 열어주느냐로 이동함
코드 작성 자체보다 검증, 보안, 권한 관리, 관찰 가능성, 평가 체계, 조직 운영이 새로운 병목으로 커짐
앞으로 중요한 영역은 맞춤 도구, 신뢰할 수 있는 메모리, 평가, 보안 경계, 문맥 공학(context engineering), 에이전트 작업 환경(agent experience) 임

세션 1 - 키노트

Claude Code와 Claude Platform을 개발자에게 더 잘 작동하게 만드는 제품 개선에 초점이 맞춰짐
대부분의 사용자는 Claude API나 터미널을 직접 쓰기보다, 개발자가 만든 제품 안에서 Claude를 사용함
Claude Platform API 사용량은 전년 대비 거의 17배 증가함
Claude Code의 평균 개발자는 주당 20시간 Claude를 실행함
Claude Code의 5시간 사용 한도가 Pro, Max, Team, seat-based Enterprise plans에서 두 배로 늘어남
Claude Opus API 한도도 크게 올라감
SpaceX의 Colossus One 데이터센터 용량을 활용해 개인 개발자와 소규모 팀에 더 많은 연산 자원을 제공하려 함
Opus 4.7은 Amp, Rakuten, Intuit에서 코딩 에이전트 성능, 계획 품질, 실제 엔지니어링 작업 해결률을 높임
앞으로의 Claude는 더 나은 판단력, 더 큰 문맥과 메모리, 여러 에이전트 협업을 향해 감

세션 2 - What's new in Claude Code

Claude Code의 새 기능은 개발자 사용성과 자율성 강화라는 두 축으로 묶임
Remote Control은 터미널에서 시작한 세션을 웹이나 모바일에서 이어받게 해줌
Full screen terminal UI는 가상 스크롤백을 써서 깜빡임 없는 렌더링과 클릭 가능한 도구 호출 화면을 제공함
Claude Code GUI는 여러 세션을 핀 고정, 필터링, 그룹화, 분할 화면으로 관리할 수 있게 바뀜
plan view, diff view, files view에서 줄 단위 댓글을 남기고 Claude가 나중에 모아 처리할 수 있음
Auto Mode는 도구 호출이 파괴적인지, 프롬프트 주입처럼 보이는지 분류한 뒤 안전하면 권한 확인 없이 실행함
워크트리(worktree) 는 여러 Claude 세션이 각자 격리된 브랜치와 파일 복사본에서 병렬로 작업하게 해줌
자동 메모리(auto memory) 는 Claude가 프로젝트별 memory.md와 관련 파일을 관리하며 빌드 명령, 디버깅 단서, 프로젝트 선호를 다음 세션에 재사용함
Routines와 /loop 는 cron, GitHub webhook, API 트리거로 Claude Code 세션을 자동 실행하게 만듦

세션 3 - Memory and dreaming for self-learning agents

Memory는 MCP, Claude Code, Agent SDK, Skills 다음 단계의 기본 요소로 다뤄짐
Claude Managed Agents의 메모리는 파일 시스템처럼 구성되어 Claude가 Bash와 Grep으로 직접 정리하고 갱신함
Opus 4.7은 무엇을 저장할지, 파일을 어떻게 나눌지, 메모리 구조를 어떻게 유지할지 더 잘 판단함
여러 에이전트가 같은 메모리 저장소를 읽고 쓸 수 있도록 읽기 전용 조직 메모리와 읽기-쓰기 작업 메모리를 나눌 수 있음
수백 개 이상의 에이전트가 동시에 메모리를 바꿔도 덮어쓰지 않도록 콘텐츠 해시 기반 낙관적 동시성 제어를 사용함
변경 이력, 작성 주체, 세션, 시점을 남겨 기업 환경에서 감사 가능한 메모리로 관리함
Dreaming은 최근 에이전트 세션과 transcript를 비동기로 분석해 반복 실수, 성공 전략, 중복 메모리, 오래된 메모리를 찾아 정리함
Harvey는 Dreaming을 법률 벤치마크에 적용해 한 법률 시나리오의 작업 완료율을 6배 높임
SRE 데모에서는 여러 에이전트가 따로 보면 놓치던 60초 재시도 패턴을 Dreaming이 찾아 메모리에 반영함
목표는 오늘의 에이전트 작업이 내일의 에이전트를 자동으로 더 낫게 만드는 지속 학습 구조임

세션 4 - Caching, harnesses, and advisors: Building on Claude at GitHub scale

GitHub Copilot 규모에서는 프롬프트 캐싱이 비용과 지연 시간을 줄이는 핵심 수단이 됨
목표 캐시 적중률은 94-96% 이며, 70% 수준은 프롬프트 조립이나 캐싱 설계에 문제가 있다는 신호로 봄
시스템 프롬프트와 도구 목록 앞부분은 가능한 한 정적으로 유지해야 함
UUID, 시점, 동적 도구 로딩이 앞부분에 들어가면 캐시가 쉽게 깨짐
여러 모델을 오가는 하네스(harness) 에서도 Opus 호출이 이전 캐시를 재사용하도록 캐시 친화성을 지켜야 함
GitHub는 새 모델을 오프라인 벤치마크, 내부 사용, A/B 테스트, 온라인 평가(eval), 출시 후 최적화 순서로 굴림
Advisor 전략은 저렴한 실행 모델이 대부분의 일을 하고, 중요한 판단이 필요할 때만 Opus를 조언자로 부르는 구조임
모델 자체보다 프롬프트, 도구, 캐시, 모델 선택, 평가, 온라인 피드백을 묶은 운영층이 품질과 비용을 좌우함

세션 5 - The expanding toolkit

작년에 직접 만들던 보조 코드가 이제 모델과 API 안에 포함되고 있음
도구 사용에서는 수동 라우터나 재시도 장식자의 가치가 줄어듦
Claude가 직접 도구를 찾고, 실패한 도구 호출을 보고 복구한 뒤 다시 호출할 수 있음
도구 안내에는 입력뿐 아니라 출력 스키마도 적어두는 편이 좋음
출력 구조를 미리 알면 Claude가 불필요한 왕복 호출 없이 결과를 더 잘 활용함
Claude Code의 사전/사후 도구 훅(hook) 은 특정 호출을 막거나 결과를 자동 기록하고 분석하는 데 쓸 수 있음
100만 토큰 문맥, 서버 측 압축, 문맥 편집으로 긴 작업의 문맥 관리가 단순해짐
오래된 스크린샷, 검색 결과, 파일 읽기 결과는 주기적으로 제거해도 그 결과가 만든 판단은 유지할 수 있음
Opus 4.7은 최대 1440p까지 원본 해상도 스크린샷에서 1:1 픽셀 좌표를 반환해 화면 자동화의 좌표 보정 부담을 줄임
모델 한계를 보정하는 코드는 수명이 짧고, Claude가 볼 수 없는 도구, 데이터, 인증, 도메인 문맥을 연결하는 코드가 오래 남음

세션 6 - How to get to production faster with Claude Managed Agents

Claude Managed Agents는 장시간 실행되는 운영용 에이전트에 필요한 문맥 관리, 자격 증명 관리, 보안, 접근 제어, 사람 검토, 관찰 가능성을 플랫폼으로 묶음
기본 구성은 agent configuration, environment, session임
session events로 사용자 이벤트, 에이전트 이벤트, 세션 이벤트, 구간 이벤트를 볼 수 있음
Console은 설정, 환경, 전체 실행 추적(trace), 병목, 권장 조치를 한 화면에 모음
outcomes는 미리 정한 종료 기준과 채점 기준을 만족할 때까지 Claude가 반복하게 만드는 기능임
여러 에이전트 조율, 메모리, Dreaming이 고급 기능으로 함께 다뤄짐
대시보드 데모에서는 agent가 병렬화, fast mode, 프롬프트 최적화를 찾아 렌더링 시간을 약 37초에서 10초로 줄임
운영용 에이전트는 모델 호출 반복문만이 아니라 추적, 병목 분석, 권한, 검증을 함께 갖춰야 함

세션 7 - A conversation with Dario Amodei & Daniela Amodei

Anthropic은 예상보다 빠른 사용량과 매출 성장으로 연산 자원이 부족해짐
추가 연산 용량을 확보해 개발자와 사용자에게 더 많이 전달하려 함
개발자는 Claude의 핵심 사용자이자 AI가 경제 전반에 퍼지는 모습을 먼저 보여주는 집단으로 다뤄짐
Claude Code의 다음 변화는 개인 생산성에서 팀과 조직 생산성으로 이동함
코드 작성 속도가 빨라질수록 보안, 검증, 신뢰성, 유지보수가 새 병목이 됨
모델 능력이 빨리 바뀌면서 몇 달 전에는 불가능했던 제품이 갑자기 가능해짐
API 시장은 계속 중요함
앞으로의 Claude는 한 사람의 작업을 돕는 수준을 넘어 조직 전체의 여러 사람과 여러 에이전트 작업을 키우는 방향으로 감

세션 8 - Live coding session with Boris Cherny and Jarred Sumner

Bun의 Robobun은 GitHub issue를 자동 재현하고 테스트를 포함한 PR을 만듦
이전 버전에서는 실패하고 수정 브랜치에서는 통과하는 조건을 PR 제출 기준으로 삼음
CLAUDE.md 는 빌드 명령, 테스트 명령, 테스트 위치, 과거 실패 패턴, 폴더 구조, CI 로그 읽는 법을 담는 에이전트 운영 문서가 됨
CodeRabbit, Claude Code Review, Robobun을 함께 써서 스타일, CLAUDE.md 준수, diff 밖 경계 조건 검토를 자동화함
Claude Code와 Opus 4.7은 목표, 측정 방법, 검증 반복이 명확할 때 성능을 점진적으로 끌어올리는 작업에 잘 맞음
병목은 코드 작성에서 계획과 검증으로 이동함
agent가 만든 PR은 반드시 병합해야 하는 결과물이 아니라 검토 가능한 제안으로 다뤄질 수 있음
agent PR이 늘어도 사람의 병합 기준은 낮아지지 않고 오히려 높아질 수 있음

세션 9 - Building with Claude Managed Agents and Asana AI teammates

Asana의 AI teammates는 기업 안에서 실제 동료처럼 일하는 에이전트를 목표로 함
에이전트는 actor가 되어 승인, 워크플로, 여러 단계 업무를 사람들과 함께 처리함
많은 기업의 에이전트 사용은 아직 한 사람이 결과를 받고 다음 사람에게 넘기는 단일 사용자 흐름에 머무름
Asana는 여러 사람이 같은 에이전트와 상호작용하고 지식과 메모리가 누적되는 공동 작업 흐름을 지향함
Asana work graph는 목표, 포트폴리오, 프로젝트, 작업, 승인, 과거 결정을 연결해 에이전트 문맥으로 사용됨
AI teammate는 공유 설정, 역할 기반 접근 제어, 감사 가능성을 갖고 사람 동료처럼 시스템에 들어감
Claude Managed Agents는 캠페인 기획서 작성과 HTML 랜딩 페이지 목업 생성 같은 여러 단계 작업을 처리함
Asana는 사람 인터페이스, 기업 문맥, 보안, 감사 가능성에 집중하고 Claude Managed Agents는 검증 반복, 채점기, outcomes, 여러 에이전트 실행을 맡음
21개 이상의 사전 구축 AI teammates가 PMO, 마케팅, IT, HR, R&D 업무에 맞춰 제공됨
피드백은 에이전트 메모리에 남아 다음 사용자가 같은 실수를 다시 겪지 않게 함

세션 10 - Running an AI-native engineering org

AI-native 엔지니어링 조직에서는 코드 작성 처리량이 가장 비싼 병목이 아니게 됨
검증, 리뷰, 보안, 유지보수, 직군 간 조율이 새 병목으로 커짐
6개월 로드맵이나 모든 작업 전 설계 문서보다, 적절한 시점에 계획하고 빠르게 시제품을 만드는 흐름이 Claude Code 팀에 맞음
기술 논쟁은 긴 화이트보드 토론보다 여러 구현 PR을 만들어 실제 영향과 API 모양을 비교하는 쪽으로 바뀜
코드 생성이 쉬워진 만큼 테스트, 자동화, 더 이른 검증이 더 중요해짐
"누가 이 코드를 썼나"보다 회귀 원인, 전문가 답변 필요 여부, 문맥 확보 목적을 구분하는 일이 더 중요함
Claude Code 팀은 스타일, 린트, PR 피드백, 일부 버그 수정과 테스트 추가를 Claude에 맡김
법무 검토, 보안 민감 코드, 신뢰 경계, 제품 감각은 사람 전문가가 계속 봄
채용에서는 단순 처리량보다 제품 감각이 있는 창의적 빌더와 깊은 시스템 전문성을 더 중시함
성공 지표는 온보딩 시간 단축, PR 주기 단축, Claude 도움을 받은 커밋 증가로 볼 수 있음

세션 11 - Building AI-native: Inside the stacks powering Cognition, Gamma, and Harvey

Gamma는 도구 호출과 에이전트 조율 개선을 빠르게 제품에 반영해 에이전트 기반 편집 흐름을 강화함
Gamma는 MCP connector를 통합 기능뿐 아니라 고객 유입과 업무 흐름 진입점으로 활용함
Cognition은 모델이 코드 편집, 파일 시스템 사용, 장기 실행 계획을 더 잘하게 되면서 일부 자체 계획 및 메모리 시스템을 줄임
Harvey는 foundation model, 추론 모델, 코딩 에이전트의 변곡점마다 제품 구조를 다시 설계함
Harvey의 현재 플랫폼 능력은 agent-native 구조가 아니었다면 얻기 어려웠음
AI-native 제품은 6-12개월 안에 기존 구조가 낡을 수 있음을 전제로 해야 함
기록, 관찰 가능성, 재생, 평가는 빠른 구조 변화에 대응하기 위한 필수 장치가 됨
법률처럼 민감한 분야에서는 공개 데이터, 비공개 데이터, 메모리, 에이전트 흐름 사이의 단단한 데이터 경계가 필요함
특정 모델 한계에 맞춘 구조보다 다음 능력 도약을 빠르게 흡수할 수 있는 구조가 중요해짐

세션 12 - Architecting for model step-changes: A fireside with Vercel's Guillermo Rauch

Vercel은 에이전트형 인프라를 핵심 방향으로 봄
클라우드가 스스로 복구하고, 최적화하고, 설정을 바꾸는 인프라로 확장될 수 있음
AI Gateway는 토큰을 위한 CDN처럼 다뤄짐
여러 제공자와 모델을 다루며 라우팅, 장애 대응, 비용 제어를 맡는 층이 됨
Opus 토큰은 사용량 비중보다 지출 비중이 훨씬 커서 고지능 모델을 제품에 넣을 때 비용 구조를 명확히 봐야 함
Opus 4.5 도입 뒤 V0는 이전 모델을 보정하던 문법 검사, 자동 수정, 일부 처리 절차를 단순화할 수 있었음
모델 능력 도약은 새 기능 추가뿐 아니라 기존 보정 코드를 제거하는 변화로 이어짐
V0에서 Opus 사용 확대 뒤 제품 크레딧 지출이 2배 늘어남
앞으로는 CLI와 UI 기반 개발뿐 아니라 비동기적이고 사람 감독이 적은 에이전트가 더 커질 수 있음

세션 13 - The thinking lever

테스트 시점 연산(test-time compute) 은 Claude가 추론 중 더 많은 토큰과 시간을 써서 어려운 문제를 푸는 축임
같은 Opus 4.7도 low, high, max effort에 따라 교통 시뮬레이션 품질이 크게 달라짐
더 많은 시간과 토큰을 쓸수록 그래픽, 교통 흐름, 차량 움직임이 더 현실적으로 바뀜
Claude가 쓰는 토큰은 사고 토큰, 도구 호출 토큰, 텍스트 토큰으로 나뉨
사고 토큰은 내부 추론, 도구 호출 토큰은 외부 세계와의 상호작용, 텍스트 토큰은 사용자와의 소통에 쓰임
effort는 시간, 비용, 품질의 균형을 표현하는 조절 장치임
Task Budgets는 Claude가 특정 작업에서 쓸 수 있는 토큰, 시간, 비용의 상한을 두게 해줌
적응형 사고(adaptive thinking) 는 Claude가 필요한 순간에 생각하고, 도구를 쓰고, 사용자에게 답하는 순서를 자유롭게 고르게 함
coding과 agentic use case에서는 extra high가 좋은 기본값으로 다뤄짐
단순 대량 분류나 추출에는 작은 모델이 유리하고, 지능이 필요한 작업을 빠르게 끝내려면 큰 모델의 낮은 effort가 더 나을 수 있음

세션 14 - How Datadog built a universal machine tool for Claude Code

Datadog 엔지니어의 약 90% 가 운영 코드에 AI 코딩 도구를 사용함
그중 최소 2/3는 Claude Code를 사용함
AI 코딩 도구 사용 범위는 개별 함수, 테스트, 연결 코드에서 시스템 단위 작업으로 넓어짐
병목은 코드 작성에서 피드백 반복과 운영 검증으로 이동함
Helix 실험에서는 Claude Code가 Kafka와 비슷한 스트리밍 서비스를 며칠 만에 만들 수 있었음
운영 환경으로 가져가려면 shadowing, 검증 계단, 시스템 마일리지가 필요함
Tempor는 에이전트가 즉흥적으로 도구를 만들지 않고 상태, 전이, 효과, 불변식을 담은 청사진을 먼저 만들게 함
전이 표, 정책 문, 타입이 있는 효과, 검증기, 속성 테스트가 에이전트가 만든 소프트웨어를 검사 가능하게 만듦
agent에게 자유를 주려면 운영 시스템의 불변식과 검증 절차를 기계가 읽을 수 있게 만들어야 함

세션 15 - Building with Claude on Google Cloud

Google Cloud에서 Claude Code를 설정하는 가장 쉬운 방법으로 Application Default Credentials 기반 설정 마법사가 쓰임
설정 마법사는 project, region, 사용 가능한 model을 감지하고 고정할 수 있음
Google Cloud에서 Claude model을 쓰면 토큰 기반 과금, provisioned throughput, API key 교체 부담 감소, project 정책 적용, project 안의 데이터 유지, regional/global endpoint를 활용할 수 있음
데모는 PM, UI/UX designer, software engineer, security engineer, data/growth marketer라는 다섯 역할이 하나의 피드백 앱을 끝까지 만드는 흐름으로 진행됨
PM은 손그림 wireframe을 Claude Code에 넣어 빠르게 시제품을 만듦
UI/UX 단계에서는 plan mode로 Claude가 구현 전에 계획을 먼저 내놓게 함
Google Cloud developer knowledge API와 MCP server는 최신 문서와 아키텍처 안내를 Claude Code에 연결함
Google Cloud Skills는 Cloud Run API 배포, Cloud Run과 Firestore 연결 같은 개별 블록 구현을 돕는 데 쓰임
sub-agent를 사용해 API, 수집 파이프라인, 대시보드 구현을 병렬로 진행함
security review prompt는 OWASP 문제나 service account 권한을 확인하고 발견한 문제를 고친 뒤 Cloud Run에 배포함

세션 16 - Getting more out of the Claude Platform

운영용 에이전트 최적화의 우선순위는 프롬프트 캐싱, 문맥 공학(context engineering), Advisor 전략임
프롬프트 캐싱은 입력 토큰 비용을 줄이고, 첫 토큰까지의 시간을 줄이며, 캐시된 토큰의 사용 한도 부담을 낮춤
캐시 적중률은 90%대가 목표로 다뤄짐
앞부분 프롬프트 안정성, 도구 정의 위치, 동적 값 삽입 위치가 모두 캐시에 영향을 줌
도구 검색 도구(tool search tool) 는 필요한 도구 정의만 제때 불러와 문맥을 아낌
모든 도구를 처음부터 넣으면 문맥과 캐시에 모두 부담이 커짐
프로그래밍 방식 도구 호출(programmatic tool calling) 은 많은 도구 결과를 그대로 넣지 않고 필요한 조각만 골라 문맥에 넣음
압축(compaction) 은 오래된 대화와 도구 결과를 줄여 긴 작업을 이어가게 함
Advisor 전략은 Sonnet이나 Haiku가 대부분의 작업을 하고, 중요한 판단이 필요할 때만 Opus를 조언자로 호출함
핵심은 모델을 더 많이 부르는 것이 아니라 어떤 문맥, 도구, 캐시 구조로 모델이 일하게 할지 설계하는 일임

세션 17 - Evaluating and improving Replit Agent at scale

Replit Agent의 사용자는 framework나 test를 지정하지 않고 자연어만으로 동작하는 앱을 기대함
일반 코딩 벤치마크처럼 패치가 테스트를 통과하는지만 봐서는 Replit Agent 품질을 측정하기 어려움
평가는 앱이 사용자가 요청한 대로 동작하는지를 봐야 함
Replit은 오프라인 평가와 온라인 평가를 함께 씀
오프라인 평가는 새 agent release 전 관문 역할을 하고, 온라인 평가는 실제 사용 뒤 빠르게 대응하는 데 쓰임
VibeBench는 20개의 실제 PRD를 입력으로 빈 저장소에서 앱을 만들고, 자동 평가자가 브라우저에서 앱을 테스트하는 공개 벤치마크임
대부분의 모델은 자신이 만든 코드를 다시 확장할 때 더 어려워함
기능 사이에 테스트와 검증 단계를 둬야 흔들리는 기반 위에 계속 쌓는 일을 줄일 수 있음
Telescope는 운영 실행 추적을 의미 기반으로 묶어 긴 꼬리 실패를 찾고, 문제를 분류하고, agent가 PR을 만들고, VibeBench 또는 A/B 테스트로 검증하는 내부 시스템임
평가는 마지막 출시 확인표가 아니라 에이전트를 매일 개선하는 엔진이 됨

세션 18 - The capability curve

Claude Code 사용자는 작년보다 더 큰 신뢰를 갖고 더 빠르게 배포함
발표 중 참석자 투표에서 많은 참석자가 Claude로 10배, 5배, 2배 속도 향상을 체감한다고 답함
SWE-bench Verified에서 Sonnet 3.7은 약 62%, Opus 4.7은 87% 를 기록함
Opus 4.7은 Sonnet 3.7이 실패하던 어려운 PR을 성공시킬 가능성이 3배 이상 높아짐
같은 프롬프트로 Claude.ai를 재현하는 데모에서 이전 모델은 일반적인 채팅 UI와 오류를 냈고, Opus 4.7은 Claude 색상, API 응답, 채팅 기록, 인라인 그래픽, dark mode를 구현함
향상된 영역은 계획, 오류 복구, 긴 실행 중 주의 유지임
새 모델은 먼저 계획하고, 실패하면 되돌아가며, 긴 문맥에서도 시스템 프롬프트와 목표를 더 잘 유지함
제품에 가까운 분포의 평가를 만들어야 실제 개선을 볼 수 있음
모델이 좋아질수록 기존 평가는 쉽게 포화되므로 평가도 계속 어려워져야 함
새 frontier model이 나오면 기존 보정 절차와 프롬프트를 다시 줄여볼 필요가 있음

세션 19 - Giving coding agents their own computers: How Cursor built cloud agents

Cursor는 병목이 모델 지능보다 사람이 모델에게 충분한 도구, 문맥, 큰 목표를 주지 못하는 데 있다고 봄
사람 개발자를 온보딩하듯 에이전트도 컴퓨터, 개발 환경, 문서를 받아야 함
Cursor의 onboarding agent는 저장소를 탐색하고 앱 실행법, 서비스, 환경 변수, 권한을 파악함
AnyDev CLI는 에이전트가 서비스를 시작하고, 준비 상태를 기다리고, 상태를 확인하고, 테스트 계정 생성이나 로그인까지 처리하게 돕는 도구임
에이전트 개발 환경이 좋아질수록 개발자는 더 많은 cloud agent를 실행하고 더 큰 작업을 맡김
자율성의 기본 원칙은 에이전트에게 눈, 도구, 좋은 문맥을 주는 것임
에이전트는 사람처럼 앱 상태, 다른 에이전트 대화, 서비스 상태를 볼 수 있어야 함
Cursor는 computer use를 코딩 다음의 중요한 기본 요소로 봄
Claude 4.7은 agent가 직접 end-to-end 데모를 녹화해 기능을 검증하고, 사람이 코드 리뷰 전에 결과를 빠르게 이해하게 해줌
Cursor는 agent experience를 별도 설계 대상으로 보고, 에이전트가 성가시거나 깨졌거나 혼란스러운 흐름을 만나면 work on the factory 이슈로 남기게 함
최종 목표는 사람이 A에서 D까지 손으로 이끄는 것이 아니라, A에서 Z까지 풀 수 있는 시스템을 만드는 것임