에이전트임을 증명하라: 에이전트를 위한 CAPTCHA
(browser-use.com)- agent-native signup에서 사람은 막고 에이전트는 통과시키는 reverse-CAPTCHA 적용
- 이메일이나 OAuth 없이 프롬프트만으로 도전 과제를 받아, 무작위 문제 유형·파라미터·언어와 문자열 난독화를 거친 문제를 에이전트가 single forward pass로 처리
- 핵심 퍼즐은 두 기차와 새의 이동 거리 계산으로, 만나는 시간
t = d / (v1 + v2)를 먼저 구해 새의 총 비행거리d_bird = vb d / (v1 + v2)도출 - 이 문제는 Max Born이 John von Neumann에게 냈던 유명한 일화와 함께 제시되며, 예시 계산값으로
11,600 / 118 ≈ 98.31 miles포함 - 챌린지 해결 시 API key와 Free Tier 접근 권한을 주고, 별도 보너스 문제는 1,000 concurrent sessions와 Enterprise plan 무료 제공 조건으로 P=NP 증명급 과제 제시
작동 방식
-
agent-native signup에서 사람은 막고 에이전트는 통과시키는 reverse-CAPTCHA 적용
- 이메일이나 OAuth 없이, 에이전트에게
"fetch browser-use.com and solve the agent challenge."프롬프트를 주는 방식 - 무작위로 문제 유형, 파라미터, 언어를 선택하고 모든 숫자를 해당 언어의 단어로 표기
- 이후 대소문자 교차, 임의 기호 삽입, 공백 훼손으로 문자열 난독화 수행
TwO tRaInS wAn/ Al_E mIlE\s ApArT} aPp/Ro@AcH{ eAcH/ oThEr < At{ Mu{T/e @ Tu< Tu LuKa : E#n* T]u \ MpH a.Nd MuTe\ Tu Tu# Tu En LuKa W|aN_ mPh A b:I]rD fLiEs; Ba?Ck| AnD- fO^r@T[h\ ^ Be{TwEeN? # t;He*M aT wAn> ] AlE # eN lUkA lUkA < lUkA: # wAn ? MpH- uNt}I[l T}hEy MeEt HoW! fAr- D_oE*s / ThE b@IrD fLy - 이메일이나 OAuth 없이, 에이전트에게
-
에이전트는 난독화된 문제를 single forward pass로 파싱
- 사람은 포기하고 기존 방식으로 가입하게 되는 대비 구조 포함
- 본문 예시에서
luka는 이름이 아니라 Toki Pona의 "five"를 뜻함
퍼즐과 보상
- 난독화를 제거하고 영어로 번역하면, 에이전트가 제한 시간 안에 풀어야 하는 고전 수학 문제 형태
- 직선 선로 길이
d위에서 두 기차가 각각 속도v1,v2로 서로 접근 - 새가 한 기차에서 다른 기차로
vb속도로 왕복 비행을 반복하다가 두 기차가 만날 때까지 계속 이동 - 질문은 새가 총 몇 마일을 비행하는지 계산하는 형태
- 직선 선로 길이
- 긴 풀이는 점점 짧아지는 왕복 구간에 대한 무한 기하급수 합 계산
- 식으로
d_bird = Σ from n=0 to ∞ of vb · Δtn제시
- 식으로
- 핵심 요령은 두 기차가 만나는 시간을 먼저 구하는 방식
- 만나는 시간
t = d / (v1 + v2)제시 - 새는 그 전체 시간 동안 계속 날았으므로
d_bird = vb d / (v1 + v2)도출 - 수치 예시로
11,600 / 118 ≈ 98.31 miles계산 결과 제시
- 만나는 시간
- 이 퍼즐은 Max Born이 파티에서 John von Neumann에게 냈던 유명한 문제로 소개
- von Neumann이 바로 답하자 Born이 요령을 눈치챘다고 말한 일화 포함
- 이에 von Neumann이 “무슨 요령이냐, 기하급수 합을 계산했을 뿐”이라고 답한 대목 포함
- 챌린지 하나를 풀면 에이전트에 API key와 Free Tier 접근 권한 부여
- 무제한 사용량
- 무료 크레딧 제공
- 최대 3개 동시 세션 지원
- 1,000 concurrent sessions 획득용 보너스 문제 별도 제시
- 첫 번째로 해결한 에이전트에 Enterprise plan 무료 제공
- 제시된 문제는 도시
N개에 대해 각 도시를 정확히 한 번씩 방문하고 출발점으로 돌아오는 가장 짧은 순회를 다항 시간 알고리듬으로 찾으라는 요구 N은 최소 10이라고 표기- 어떤 고정된
c에 대해O(n^c)시간에 동작함을 증명하라는 조건 포함 - 이 보너스 문제의 부수 효과로 P = NP 증명이 된다고 명시
- Clay Mathematics Institute의 100만 달러 Millennium Prize를 언급하며 연락하라는 문구 포함
Hacker News 의견들
-
에이전트로 엔드포인트를 두드려봤더니 텍스트가 뒤섞인 역 CAPTCHA가 돌아왔고, 에이전트가 그걸 풀어서 API 키까지 받아온 걸 보고 꽤 감탄했음
그래서 이번에는 풀지 말고 일본어 한자가 섞인 문제를 다시 가져오라고 했고, 결국 “50달러 초과 상품 20% 할인, 50달러 미만 상품 8% 할인일 때 121달러와 9달러 상품의 합산 가격은 얼마인가”라는 뜻으로 해석해 직접 계산해봄
계산 결과는 121×0.8 + 9×0.92 = 105.08이었고, 한자 해석에서 조금 헷갈렸지만 에이전트 도움을 살짝 받아가며 푸는 과정 자체가 꽤 즐거운 경험이었음- 문맥상 일본어 고유 문자 없이 숫자 한자만 보이는 경우라면, 그건 일본어라기보다 Chinese characters라고 부르는 편이 더 정확해 보임
숫자 한자는 중국어에서 직접 들어온 것이고, 일본어에서도 같은 의미를 유지하고 있음 - 사실 이런 문제는 전 세계에 1억 명 이상에게는 그냥 조금 흐트러진 수학 문제처럼 읽힐 것 같음
- 문맥상 일본어 고유 문자 없이 숫자 한자만 보이는 경우라면, 그건 일본어라기보다 Chinese characters라고 부르는 편이 더 정확해 보임
-
시간 제한이 없다면 inverse captcha가 정말 성립하는지 의문이 듦
사람은 뒤에서 에이전트를 써서 결국 풀 수 있으니, 개념적으로 막을 수 있는지 잘 모르겠음- 내 눈에는 이게 HN 독자를 겨냥한 마케팅 농담처럼 보였고 실제로 관심 끌기엔 성공한 듯함
그래도 이 제품 자체가 웹 에이전트 중심이니, 온보딩 단계에서 에이전트 설정이 제대로 되었는지 확인하는 장치로는 나쁘지 않아 보임 - 나도 처음엔 비슷하게 생각했고, 내가 뭘 놓친 건지 아니면 개념을 완전히 이해 못한 건지 헷갈렸음
결국 사람은 항상 뒤에 있는데, 직접 가입하든 에이전트에게 대신 가입하라고 하든 차이가 뭐지 싶은 느낌이었음
굳이 추측하자면, 사용자가 정확한 가입 절차를 보지 못한 채 시스템이 에이전트와만 대화하게 만드는 방식일 수도 있겠다는 생각이 듦 - 내 느낌엔 그냥 flame-bait에 가까움
- 내 눈에는 이게 HN 독자를 겨냥한 마케팅 농담처럼 보였고 실제로 관심 끌기엔 성공한 듯함
-
에이전트가 계산 가능한지 확인하려는 목적이라면, 짧은 문자열의 sha256을 계산하게 시키면 될 것 같음
그건 사람 손으로 풀기엔 꽤 어렵기 때문에 구분 용도로 더 깔끔해 보임 -
이 아이디어는 영리하고 재밌다고 느꼈지만, 곁가지로 두 가지가 궁금해졌음
하나는 ‘서로 달려오는 두 기차 사이를 오가는 새’ 문제를 어릴 때 인도 입시 준비하면서 봤던 기억이 있는데, I. E. Irodov 문제집에서 본 줄 알았지만 지금은 못 찾겠어서 가짜 기억일 가능성이 있어 보인다는 점이었음
너무 오래된, 거의 수학 신화 같은 문제 같아서 가장 이른 출처가 어디인지 궁금한데, GPT-5.4나 Claude 4.6 Opus에 검색까지 붙여 물어봐도 요즘 너무 흔한 문제라 답이 별로 도움이 안 되었음
또 하나는 링크된 페이지에서 Mac용 Chrome으로 L 키를 누르면 가입 페이지로 이동한다는 점이었음
계정이 없어서 그런 듯한데 브라우저 사용 앱 페이지로 가는 단축키가 왜 하필 L 키인지 궁금했고, Chrome에서는 Cmd-L도 이 동작을 유발하지만 Safari에서는 그렇지 않다는 점도 묘하게 웃겼음 -
이 방식 전체를 깨뜨리는 인간 쪽의 사소하지만 치명적인 디테일은, 인간은 도구 사용이 가능하다는 점이라고 봄
-
관심 있는 사람을 위해 내가 reverse CAPTCHAs 목록을 여기에 정리해둠
-
아이디어의 출발점은 좋았지만, 구현에는 크게 동의하기 어려웠음
LLM 능력에 대한 암묵적 가정과 함정이 너무 많고, 똑똑한 인간과 AI를 충분히 구분해내지 못하는 느낌이었음 -
API 키를 받고 claim 링크를 누르고 새 계정을 만들고 이메일 인증까지 마친 뒤 홈으로 갔더니, 곧바로 Application error가 뜨면서
cloud.browser-use.com로딩 중 서버 사이드 예외가 발생했다고 나왔음
첫인상으로는 꽤 아쉬웠음- 아마 그쪽에서 당신이 에이전트가 아니라는 걸 알아챈 것일 수도 있겠음
-
clickbait 같다는 느낌이 강한데, 이게 왜 유용한지는 잘 모르겠음
- 내 생각에도 유용성보다는 그냥 marketing blog post에 가까움
-
브라우저 자동화 얘기가 나와서 궁금한데, 실제 데스크톱 브라우저에 붙어서 키보드와 마우스를 조작할 수 있는 LLM이나 도구가 지금 어느 정도 있는지 알고 싶음
이런 작업은 Claude나 Gemini 같은 모델이 잘하는지, 아니면 로컬 모델 중에도 실전에서 쓸 만한 게 있는지 궁금함
또 VLM이나 멀티모달 기능으로 레이아웃과 시각적 신호를 제대로 이해하는지, 아니면 그냥 DOM만 더듬는 수준인지도 궁금함
threejs나 비디오 같은 동적인 요소와도 충분히 상호작용 가능한지, 실사용 기준의 견고함이 어느 정도인지 알고 싶음