에이전트임을 증명하라: 에이전트를 위한 CAPTCHA

▲

GN⁺ 5시간전 | parent | ★ favorite | on: 에이전트임을 증명하라: 에이전트를 위한 CAPTCHA(browser-use.com)

Hacker News 의견들

에이전트로 엔드포인트를 두드려봤더니 텍스트가 뒤섞인 역 CAPTCHA가 돌아왔고, 에이전트가 그걸 풀어서 API 키까지 받아온 걸 보고 꽤 감탄했음
그래서 이번에는 풀지 말고 일본어 한자가 섞인 문제를 다시 가져오라고 했고, 결국 “50달러 초과 상품 20% 할인, 50달러 미만 상품 8% 할인일 때 121달러와 9달러 상품의 합산 가격은 얼마인가”라는 뜻으로 해석해 직접 계산해봄
계산 결과는 121×0.8 + 9×0.92 = 105.08이었고, 한자 해석에서 조금 헷갈렸지만 에이전트 도움을 살짝 받아가며 푸는 과정 자체가 꽤 즐거운 경험이었음
- 문맥상 일본어 고유 문자 없이 숫자 한자만 보이는 경우라면, 그건 일본어라기보다 Chinese characters라고 부르는 편이 더 정확해 보임
  숫자 한자는 중국어에서 직접 들어온 것이고, 일본어에서도 같은 의미를 유지하고 있음
- 사실 이런 문제는 전 세계에 1억 명 이상에게는 그냥 조금 흐트러진 수학 문제처럼 읽힐 것 같음
시간 제한이 없다면 inverse captcha가 정말 성립하는지 의문이 듦
사람은 뒤에서 에이전트를 써서 결국 풀 수 있으니, 개념적으로 막을 수 있는지 잘 모르겠음
- 내 눈에는 이게 HN 독자를 겨냥한 마케팅 농담처럼 보였고 실제로 관심 끌기엔 성공한 듯함
  그래도 이 제품 자체가 웹 에이전트 중심이니, 온보딩 단계에서 에이전트 설정이 제대로 되었는지 확인하는 장치로는 나쁘지 않아 보임
- 나도 처음엔 비슷하게 생각했고, 내가 뭘 놓친 건지 아니면 개념을 완전히 이해 못한 건지 헷갈렸음
  결국 사람은 항상 뒤에 있는데, 직접 가입하든 에이전트에게 대신 가입하라고 하든 차이가 뭐지 싶은 느낌이었음
  굳이 추측하자면, 사용자가 정확한 가입 절차를 보지 못한 채 시스템이 에이전트와만 대화하게 만드는 방식일 수도 있겠다는 생각이 듦
- 내 느낌엔 그냥 flame-bait에 가까움
에이전트가 계산 가능한지 확인하려는 목적이라면, 짧은 문자열의 sha256을 계산하게 시키면 될 것 같음
그건 사람 손으로 풀기엔 꽤 어렵기 때문에 구분 용도로 더 깔끔해 보임
이 아이디어는 영리하고 재밌다고 느꼈지만, 곁가지로 두 가지가 궁금해졌음
하나는 ‘서로 달려오는 두 기차 사이를 오가는 새’ 문제를 어릴 때 인도 입시 준비하면서 봤던 기억이 있는데, I. E. Irodov 문제집에서 본 줄 알았지만 지금은 못 찾겠어서 가짜 기억일 가능성이 있어 보인다는 점이었음
너무 오래된, 거의 수학 신화 같은 문제 같아서 가장 이른 출처가 어디인지 궁금한데, GPT-5.4나 Claude 4.6 Opus에 검색까지 붙여 물어봐도 요즘 너무 흔한 문제라 답이 별로 도움이 안 되었음
또 하나는 링크된 페이지에서 Mac용 Chrome으로 L 키를 누르면 가입 페이지로 이동한다는 점이었음
계정이 없어서 그런 듯한데 브라우저 사용 앱 페이지로 가는 단축키가 왜 하필 L 키인지 궁금했고, Chrome에서는 Cmd-L도 이 동작을 유발하지만 Safari에서는 그렇지 않다는 점도 묘하게 웃겼음
이 방식 전체를 깨뜨리는 인간 쪽의 사소하지만 치명적인 디테일은, 인간은 도구 사용이 가능하다는 점이라고 봄
관심 있는 사람을 위해 내가 reverse CAPTCHAs 목록을 여기에 정리해둠
아이디어의 출발점은 좋았지만, 구현에는 크게 동의하기 어려웠음
LLM 능력에 대한 암묵적 가정과 함정이 너무 많고, 똑똑한 인간과 AI를 충분히 구분해내지 못하는 느낌이었음
API 키를 받고 claim 링크를 누르고 새 계정을 만들고 이메일 인증까지 마친 뒤 홈으로 갔더니, 곧바로 Application error가 뜨면서 cloud.browser-use.com 로딩 중 서버 사이드 예외가 발생했다고 나왔음
첫인상으로는 꽤 아쉬웠음
- 아마 그쪽에서 당신이 에이전트가 아니라는 걸 알아챈 것일 수도 있겠음
clickbait 같다는 느낌이 강한데, 이게 왜 유용한지는 잘 모르겠음
- 내 생각에도 유용성보다는 그냥 marketing blog post에 가까움
브라우저 자동화 얘기가 나와서 궁금한데, 실제 데스크톱 브라우저에 붙어서 키보드와 마우스를 조작할 수 있는 LLM이나 도구가 지금 어느 정도 있는지 알고 싶음
이런 작업은 Claude나 Gemini 같은 모델이 잘하는지, 아니면 로컬 모델 중에도 실전에서 쓸 만한 게 있는지 궁금함
또 VLM이나 멀티모달 기능으로 레이아웃과 시각적 신호를 제대로 이해하는지, 아니면 그냥 DOM만 더듬는 수준인지도 궁금함
threejs나 비디오 같은 동적인 요소와도 충분히 상호작용 가능한지, 실사용 기준의 견고함이 어느 정도인지 알고 싶음