클로드 코드, 사이버보안 기능 추가

(anthropic.com)

1P by GN⁺ 1일전 | ★ favorite | 댓글 1개

Claude Code Security는 코드베이스의 취약점을 탐지하고 인간 검토용 패치 제안을 제공하는 AI 기반 보안 기능
기존 정적 분석 도구가 놓치는 복잡한 취약점을 인간 연구자처럼 코드의 상호작용과 데이터 흐름을 추적해 탐지
모든 결과는 다단계 검증과 심각도 평가를 거쳐 대시보드에 표시되며, 개발자의 승인 없이 자동 수정되지 않음
Anthropic은 이 기능을 Enterprise·Team 고객 및 오픈소스 유지관리자에게 제한적 연구 미리보기 형태로 공개
AI가 공격자보다 빠르게 취약점을 찾을 수 있는 시대에 대비해, 산업 전반의 보안 수준 향상을 목표로 함

Claude Code Security 개요

Claude Code Security는 Claude Code 웹 버전에 내장된 새로운 기능으로, 코드베이스를 스캔해 보안 취약점 탐지 및 패치 제안을 수행
- 연구 미리보기 형태로 제공되며, 인간 검토를 전제로 함
기존 보안팀이 겪는 인력 부족과 취약점 과다 문제를 해결하기 위한 도구로 설계
기존 분석 도구는 알려진 패턴 중심이지만, Claude는 새롭고 맥락 의존적인 취약점까지 탐지 가능

작동 방식

전통적 정적 분석은 규칙 기반으로 알려진 취약점 패턴을 탐지하지만, 비즈니스 로직 오류나 접근 제어 결함 등은 놓치기 쉬움
Claude Code Security는 인간 연구자처럼 코드의 의미를 이해하고 추론하여 복잡한 취약점을 포착
- 컴포넌트 간 상호작용과 데이터 흐름을 추적
탐지 결과는 다단계 검증 절차를 거쳐 거짓 양성을 최소화
- Claude가 스스로 결과를 재검토하고, 심각도 등급을 부여
검증된 결과는 대시보드에 표시되어 팀이 검토 및 승인 가능
- 각 항목에는 신뢰도 점수가 포함되며, 인간 승인 없이는 수정이 적용되지 않음

Claude의 사이버보안 연구 기반

Claude Code Security는 1년 이상 진행된 Claude의 보안 연구를 기반으로 개발
Anthropic의 Frontier Red Team은 Claude를 Capture-the-Flag 대회에 참가시키고, Pacific Northwest National Laboratory와 협력해 AI 기반 인프라 방어 실험을 수행
최신 모델 Claude Opus 4.6을 활용해 500개 이상의 오픈소스 코드 취약점을 발견
- 수십 년간 전문가 검토에도 남아 있던 버그 포함
- 현재 유지관리자와 함께 책임 있는 공개 절차 진행 중
Anthropic 내부 코드 보안에도 Claude를 활용 중이며, 동일한 방어 능력을 외부에도 제공하기 위해 이 기능을 개발

향후 전망

AI가 세계 대부분의 코드베이스를 스캔하게 될 시점이 가까움
- AI 모델이 장기간 숨겨진 버그를 효과적으로 탐지 가능
공격자 역시 AI를 활용해 취약점을 빠르게 찾을 수 있으나, 방어자가 선제적으로 패치하면 위험을 줄일 수 있음
Claude Code Security는 보다 안전한 코드베이스와 업계 전반의 보안 기준 향상을 위한 단계로 제시됨

참여 및 접근

Enterprise 및 Team 고객에게 연구 미리보기 형태로 공개
- 참가자는 Anthropic 팀과 직접 협력해 도구 개선 가능
오픈소스 유지관리자는 무료이자 신속한 접근 신청 가능
자세한 정보는 claude.com/solutions/claude-code-security에서 확인 가능

▲

GN⁺ 1일전 [-]

Hacker News 의견들

Anthropic이 취약점 탐지 기능을 내놓은 건 놀랍지 않음
이미 OpenAI가 Aardvark를, Google이 BigSleep을 발표했기 때문임
핵심은 규모와 정확도라고 생각함. Anthropic은 Opus 4.6으로 500개의 ‘고심각도’ 취약점을 찾았다고 하지만, 진짜로 심각한 건지 의문이 있음. BigSleep은 20개 정도였고 Aardvark는 수치를 공개하지 않았음
내가 Semgrep을 창업했을 때 DARPA AIxCC 대회에서 LLM 기반 취약점 탐지 참가자들에게 비용/취약점 단가와 혼동 행렬 공개를 요구한 게 인상 깊었음. 이런 데이터 없이는 어떤 모델이 진짜 앞서 있는지 알기 어려움
LLM 보안 에이전트에게 Semgrep, CodeQL 같은 도구 접근권을 주면 거짓 양성률이 크게 줄어듦. 미래에는 인간이 앱보안 매니저로서 이런 가상 보안 엔지니어 에이전트를 관리하는 형태가 될 것 같음
- Semgrep 같은 SAST 도구의 가장 큰 문제는 거짓 양성임. 개발자는 실제 문제로 이어지는 0.1%의 결과만 원하지만, 패턴 매칭 방식은 노이즈가 너무 많음
  나도 패턴 매칭 + LLM 조합을 써봤는데 꽤 효과적이었음. 다만 SAST에만 적용 가능하고, SCA나 컨테이너 이미지처럼 보안팀의 90% 노이즈를 차지하는 영역은 여전히 해결이 어려움
- 이런 기능은 소규모 리포지토리를 한 번 스캔할 때는 괜찮지만, 코드 변경이 잦은 현실에서는 재스캔 비용이 너무 큼. PR 생성이나 충돌 해결, 리뷰 담당자 찾기 등 실제 워크플로우가 빠져 있음
  연구용으로는 흥미롭지만, 실무 도구로는 한계가 있음
- 나도 비슷한 접근을 하고 있음. 웹사이트 보안·성능·SEO에 초점을 둔 내부 도구를 에이전트 기반으로 확장했는데 결과가 놀라움
  SquirrelScan이라는 서비스인데, 사람이 작성한 규칙을 기반으로 에이전트가 설정을 동적으로 조정해 거짓 양성 제거와 검증을 수행함
“Anakin: 내가 AI 취약점 스캐너로 세상을 구하겠어”라는 농담이 있었음
Padme가 “그럼 그 취약점을 고치려고 스캔하는 거지?”라고 묻는 식의 대화로, AI 스캐너의 목적을 풍자한 유머였음
- 이 기능이 팀·엔터프라이즈 전용 접근 요청으로 제한된 이유가 그 때문이라고 생각함.
  오픈소스 대안으로는 DeepAudit이 있음
- 악의적인 사용자가 오픈소스 프로젝트나 npm 패키지를 대량으로 스캔해 제로데이를 찾는 게 우려됨.
  Anthropic이 비정상 사용 패턴을 탐지하는 사전 경보 시스템을 두길 바람
- 아이러니하게도 연구소들이 가장 강력한 해킹 툴킷을 내놓고 있는데, 사이버보안 방어주 주가는 오히려 하락 중임. 시장 논리가 이해되지 않음
- 농담의 의미를 잘 모르겠다는 반응도 있었음
보안 감사 회사를 운영하는 입장에서, 대형 LLM 기업들이 감사 시장까지 진입하는 게 체감됨
zkao.io 같은 우리 AI 기반 서비스도 경쟁 압박을 받음
미래에는 두 가지 시나리오가 있을 것 같음.
하나는 인간 감사자와 개발자가 사라지는 세상, 다른 하나는 인간의 전문성과 감각이 필요한 틈새 시장으로 진화하는 세상임
진지한 기업들은 여전히 사람과 협업하길 원할 것이고, SaaS+인간 지원 형태로 남을 가능성이 큼
반면 ‘vibe coder’들은 Claude Code Security 같은 도구를 쓸 것이며, 그 품질은 ‘vibe coding’ 수준일 것임 — 충분히 쓸 만하지만 완벽하진 않음
현실적으로는 이쪽이 더 가능성 높다고 봄. 이런 도구들은 우리 같은 소규모 전문 감사팀을 더 강하게 만들어줌
- 맞춤법 지적: “seize”가 아니라 “cease”가 맞음
- 개발자는 사라지지 않음. 단지 새로운 형태의 개발자로 진화할 뿐임. 하지만 감사자는 미래가 어두움
Anthropic의 설명 중 “Claude Code Security는 인간 연구자처럼 코드를 읽고 추론한다”는 부분이 흥미로움
우리 팀도 정적 분석과 AI를 결합해왔기에, 이 접근이 보안 자동화의 진화 방향이라 생각함
- 하지만 그 문장은 사실이 아님. LLM은 결국 패턴 매칭 머신임. 인간 연구자는 단순 패턴 매칭 이상을 수행함
  “인간처럼 추론한다”는 주장은 과장된 마케팅 문구로 보임
Claude Code Opus 4.5는 OpenSSF CVE Benchmark에서 약 71% 정확도를 기록했음
우리는 SAST를 1차 필터로 사용하고, 이후 데이터 흐름 그래프·의존성 그래프 등 정적 분석 산출물을 LLM이 활용하도록 함
이 방식이 단순히 “보안 연구자처럼 행동하라”고 시키는 것보다 훨씬 효과적이었음. 새 기능이 공개되면 벤치마크를 업데이트할 예정임
경쟁사 제품들이 실망스러웠음. 대부분 기존 정적 분석 도구가 찾는 문제만 재탐지하고, AI 스캔에서 거짓 양성이 많았음
이번엔 좀 더 나은 결과를 기대함
AI가 시니어 보안 엔지니어 수준의 창의적 사고를 할 수 있느냐는 회의론이 많지만, 그건 본질을 놓친 논의라고 생각함
이런 도구의 진짜 가치는 반복적 보안 업무 자동화에 있음.
입력 검증 누락이나 취약한 컴포넌트 사용 같은 단순 문제는 굳이 고급 인력이 볼 필요 없음
이런 툴이 보안팀의 잡무를 줄여주는 조력자가 되길 바람
- LLM, 특히 Claude는 실제로 보안 엔지니어 수준의 역량을 보임. 우리 스타트업은 공격적 침투 테스트용 에이전트를 만들고 있는데, 몇 시간만 돌려도 사람이 놓치는 이상한 취약점을 찾아냄
- 오히려 취약점 연구자들 사이에서는 비공개 낙관론이 많음. 공개적으로 회의적인 사람보다, 조용히 실험하며 가능성을 보는 전문가가 훨씬 많음
- Fortune 500 기업의 침투테스터로서, 이런 평가에 동의함. 대부분의 내부 발견은 ‘모범 사례’ 수준이라, 에이전트가 이런 부분을 자동으로 처리하면 훨씬 효율적임
  인간-에이전트 협업 구조가 앞으로의 보안팀 운영 방식이 될 것 같음
- 우리도 Claude Opus 4.6을 써봤는데, 거짓 양성률이 50% 미만으로 매우 인상적이었음
나는 Claude 토큰을 잔뜩 태워가며 AI 봇 방어 시스템을 만들고 있었는데, Anthropic이 그걸 눈치챈 줄 알았음
- 우리도 몇 년째 자체 시스템을 개발 중임. 엔지니어가 직접 만든 Tirreno를 참고하면 도움이 될 수도 있음

답변달기