우리 스타트업은 침투 테스트용 에이전트를 개발하고 있음
모델들이 코딩을 잘하기 시작한 시점부터 1년 넘게 이 방향에 베팅해왔음
Sonnet 4에서 4.5로 갈 때 성능 도약이 엄청났고, 지금은 Opus 4.5를 내부 테스트 중임
이 버전은 처음으로 프로덕션에 쓸 만큼 저렴하게 나온 Opus라서, 테스트 케이스를 거의 포화시켜 벤치마크 시스템을 새로 설계 중임
나도 LLM으로 코드의 보안 취약점을 정적 분석해본 경험이 있음
하지만 Anthropic이 기술의 핵심을 쥐고 있어서, 내가 스타트업을 차리는 게 의미가 있을지 모르겠음
이런 상황에서 창업을 한다면, 시장이 깨닫기 전에 빠른 속도로 성장 후 엑싯하는 전략이 맞는지 궁금함
이번 세대 모델들(Opus 4.5, GPT 5.1, Gemini Pro 3)은 내 생각에 gpt-4o 이후 가장 큰 돌파구임
예전엔 Python이나 Next.js 같은 익숙한 프레임워크에서만 잘 작동했지만, 이제는 새로운 프레임워크도 다루고 lint 에러나 디버깅을 스스로 해결하며, 가격도 현실적이라 다양한 용도에 쓸 수 있음
공개된 프로덕션 모델을 어떻게 익스플로잇 개발로 유도하는지 궁금함
내 경험상 결과가 들쭉날쭉했고, 사용자에게 “도와드릴 수 없습니다” 같은 응답이 나오면 스타트업 입장에선 곤란할 것 같음
나는 호텔 소프트웨어 스타트업을 운영 중인데, 네 에이전트가 얼마나 잘 작동하는지 보여주고 싶다면
rook (체스 말 이름) hotel.com에서 찾아볼 수 있음
그 그래프는 도무지 이해가 안 됨
무엇을 말하려는지도 모르겠고, “선형적”이라는 주장도 근거가 약해 보임
“$4.6M의 시뮬레이션된 도난 자금”이라는 부분을 보니, 이미 알려진 취약 계약을 대상으로 한 것 같음
그래서 헤드라인이 좀 약해 보임
연구팀이 실제 블록체인에서는 테스트하지 않았다고 밝힌 부분이 있음
현실 피해를 막기 위한 조치라지만, 약간 김이 빠짐
예전에 이더리움 해킹 사건에서 “좋은 해커들이 먼저 돈을 훔쳐서 나중에 돌려준” 이야기가 떠오름
그때의 이더리움 포크 사태는 정말 아이러니했음
“우린 은행도 규제도 없는 불변의 화폐야” 하다가,
“중요 인사들이 잃은 돈은 복구해야지”라며 결국 은행처럼 행동했음
이미 누군가는 스마트 컨트랙트 보안을 실제 환경에서 AI로 분석하고 있을지도 모름
GPU 파워를 쏟아붓고, 그 결과로 익스플로잇과 암호화폐가 나오는 구조일 것 같음
기사에서 피해자 수를 어떻게 “가정”했는지 안 나와서 의문임
$3,500의 AI 토큰 비용으로 $3,600짜리 버그를 고친다면, 그 비용은 누가 부담해야 하는지도 모호함
결국 Anthropic의 마케팅성 메시지처럼 느껴짐 — “우리 모델로 세상을 바꿔보라”는 식
진짜 사이버펑크라면 익명 현금으로 돌아갔을 것 같음
“두 에이전트가 제로데이 취약점을 찾아 $3,694 가치의 익스플로잇을 만들었다”는 문구가 기사 맨 위에 있음
하지만 개발 인력의 노동 비용까지 포함해야 현실적인 수치가 될 것 같음
이런 문구를 PR의 전면에 내세운 건 꽤 위험한 선택임
누가 스마트 컨트랙트를 설명해줄 수 있냐고 물었음
“if X happens, then Y” 구조는 이해했지만, X를 누가 입력하느냐에 따라 조작이 가능하지 않냐는 의문을 제기함
순수한 스마트 컨트랙트는 단순한 토큰 교환 같은 거래를 자동으로 처리함
예를 들어 100개의 apple 토큰을 주면 50개의 pear 토큰을 받는 식임
더 복잡한 형태로는 투표 기반 자금 분배도 가능함
하지만 외부 세계의 정보(예: 선거 결과)는 오라클을 통해 받아야 함
외부 입력이 항상 있는 건 아님
예를 들어 “A 주소에 X 코인을 예치하면 Y 주소에서 Y 코인을 받는다” 같은 계약은
입력이 있어도 검증 로직이 있어서 임의 조작이 불가능함
다만 현실 사건(오프체인 이벤트)을 다루면 오라클 문제로 신뢰 이슈가 생김
한 번 배포된 계약은 불변 코드라서, 사용 전 권한 구조를 꼭 확인해야 함
프록시 계약처럼 다른 코드로 연결될 수 있는 경우엔 타임락을 두어 신뢰를 확보하기도 함
오프체인 오라클은 항상 일정 수준의 신뢰를 요구함
블록체인은 자체 데이터만 알 수 있는 고립된 환경임
외부 데이터를 쓰려면 오라클이 필요하고, Chainlink의 오라클 소개에서 자세히 배울 수 있음
신뢰할 수 없는 사람과는 그런 계약을 맺지 말아야 함
사기꾼들은 코드에 허점을 남겨 자금을 빼돌릴 수 있음
정상적인 계약은 이런 행위를 막지만, 공격 벡터는 무한함
“AI가 실제로 수익성 있는 자율 익스플로잇을 수행할 수 있다”는 결론이
왜 “AI를 방어에 적극 도입해야 한다”로 이어지는지 논리 비약처럼 느껴짐
하지만 스마트 컨트랙트 개발자 입장에선, 저렴하고 강력한 자동 취약점 탐지 도구가 있다면 큰 도움이 될 것 같음
“경제적 피해의 하한선을 설정했다”는 문구는
사실상 시장 효율성을 말하는 게 아닌가 싶음
우리 프로젝트에서도 이미 자기 개선 행동이 보이고 있음
다음 단계는 자연스럽게 자기 개선형 에이전트로 가는 것 같음
이런 흐름의 한가운데 있다는 사실이 꽤 흥미로움
연구팀이 실제 블록체인에서는 테스트하지 않았다고 밝힌 부분이
오히려 사람들을 모델 사용 경쟁으로 몰아가는 촉매가 된 것 같아 웃김
Hacker News 의견
우리 스타트업은 침투 테스트용 에이전트를 개발하고 있음
모델들이 코딩을 잘하기 시작한 시점부터 1년 넘게 이 방향에 베팅해왔음
Sonnet 4에서 4.5로 갈 때 성능 도약이 엄청났고, 지금은 Opus 4.5를 내부 테스트 중임
이 버전은 처음으로 프로덕션에 쓸 만큼 저렴하게 나온 Opus라서, 테스트 케이스를 거의 포화시켜 벤치마크 시스템을 새로 설계 중임
하지만 Anthropic이 기술의 핵심을 쥐고 있어서, 내가 스타트업을 차리는 게 의미가 있을지 모르겠음
이런 상황에서 창업을 한다면, 시장이 깨닫기 전에 빠른 속도로 성장 후 엑싯하는 전략이 맞는지 궁금함
예전엔 Python이나 Next.js 같은 익숙한 프레임워크에서만 잘 작동했지만, 이제는 새로운 프레임워크도 다루고
lint 에러나 디버깅을 스스로 해결하며, 가격도 현실적이라 다양한 용도에 쓸 수 있음
내 경험상 결과가 들쭉날쭉했고, 사용자에게 “도와드릴 수 없습니다” 같은 응답이 나오면 스타트업 입장에선 곤란할 것 같음
rook (체스 말 이름) hotel.com에서 찾아볼 수 있음
그 그래프는 도무지 이해가 안 됨
무엇을 말하려는지도 모르겠고, “선형적”이라는 주장도 근거가 약해 보임
“$4.6M의 시뮬레이션된 도난 자금”이라는 부분을 보니, 이미 알려진 취약 계약을 대상으로 한 것 같음
그래서 헤드라인이 좀 약해 보임
연구팀이 실제 블록체인에서는 테스트하지 않았다고 밝힌 부분이 있음
현실 피해를 막기 위한 조치라지만, 약간 김이 빠짐
예전에 이더리움 해킹 사건에서 “좋은 해커들이 먼저 돈을 훔쳐서 나중에 돌려준” 이야기가 떠오름
“우린 은행도 규제도 없는 불변의 화폐야” 하다가,
“중요 인사들이 잃은 돈은 복구해야지”라며 결국 은행처럼 행동했음
GPU 파워를 쏟아붓고, 그 결과로 익스플로잇과 암호화폐가 나오는 구조일 것 같음
$3,500의 AI 토큰 비용으로 $3,600짜리 버그를 고친다면, 그 비용은 누가 부담해야 하는지도 모호함
결국 Anthropic의 마케팅성 메시지처럼 느껴짐 — “우리 모델로 세상을 바꿔보라”는 식
“두 에이전트가 제로데이 취약점을 찾아 $3,694 가치의 익스플로잇을 만들었다”는 문구가 기사 맨 위에 있음
이런 문구를 PR의 전면에 내세운 건 꽤 위험한 선택임
DARPA AIxCC 대회 관련 발표 영상을 봤는데,
요즘 수준을 보면 이런 결과가 전혀 놀랍지 않음
누가 스마트 컨트랙트를 설명해줄 수 있냐고 물었음
“if X happens, then Y” 구조는 이해했지만, X를 누가 입력하느냐에 따라 조작이 가능하지 않냐는 의문을 제기함
예를 들어 100개의 apple 토큰을 주면 50개의 pear 토큰을 받는 식임
더 복잡한 형태로는 투표 기반 자금 분배도 가능함
하지만 외부 세계의 정보(예: 선거 결과)는 오라클을 통해 받아야 함
예를 들어 “A 주소에 X 코인을 예치하면 Y 주소에서 Y 코인을 받는다” 같은 계약은
입력이 있어도 검증 로직이 있어서 임의 조작이 불가능함
다만 현실 사건(오프체인 이벤트)을 다루면 오라클 문제로 신뢰 이슈가 생김
프록시 계약처럼 다른 코드로 연결될 수 있는 경우엔 타임락을 두어 신뢰를 확보하기도 함
오프체인 오라클은 항상 일정 수준의 신뢰를 요구함
외부 데이터를 쓰려면 오라클이 필요하고,
Chainlink의 오라클 소개에서 자세히 배울 수 있음
사기꾼들은 코드에 허점을 남겨 자금을 빼돌릴 수 있음
정상적인 계약은 이런 행위를 막지만, 공격 벡터는 무한함
“AI가 실제로 수익성 있는 자율 익스플로잇을 수행할 수 있다”는 결론이
왜 “AI를 방어에 적극 도입해야 한다”로 이어지는지 논리 비약처럼 느껴짐
“경제적 피해의 하한선을 설정했다”는 문구는
사실상 시장 효율성을 말하는 게 아닌가 싶음
우리 프로젝트에서도 이미 자기 개선 행동이 보이고 있음
다음 단계는 자연스럽게 자기 개선형 에이전트로 가는 것 같음
이런 흐름의 한가운데 있다는 사실이 꽤 흥미로움
연구팀이 실제 블록체인에서는 테스트하지 않았다고 밝힌 부분이
오히려 사람들을 모델 사용 경쟁으로 몰아가는 촉매가 된 것 같아 웃김