Hacker News 의견들
  • 에이전트로 엔드포인트를 두드려봤더니 텍스트가 뒤섞인 역 CAPTCHA가 돌아왔고, 에이전트가 그걸 풀어서 API 키까지 받아온 걸 보고 꽤 감탄했음
    그래서 이번에는 풀지 말고 일본어 한자가 섞인 문제를 다시 가져오라고 했고, 결국 “50달러 초과 상품 20% 할인, 50달러 미만 상품 8% 할인일 때 121달러와 9달러 상품의 합산 가격은 얼마인가”라는 뜻으로 해석해 직접 계산해봄
    계산 결과는 121×0.8 + 9×0.92 = 105.08이었고, 한자 해석에서 조금 헷갈렸지만 에이전트 도움을 살짝 받아가며 푸는 과정 자체가 꽤 즐거운 경험이었음

    • 문맥상 일본어 고유 문자 없이 숫자 한자만 보이는 경우라면, 그건 일본어라기보다 Chinese characters라고 부르는 편이 더 정확해 보임
      숫자 한자는 중국어에서 직접 들어온 것이고, 일본어에서도 같은 의미를 유지하고 있음
    • 사실 이런 문제는 전 세계에 1억 명 이상에게는 그냥 조금 흐트러진 수학 문제처럼 읽힐 것 같음
  • 시간 제한이 없다면 inverse captcha가 정말 성립하는지 의문이 듦
    사람은 뒤에서 에이전트를 써서 결국 풀 수 있으니, 개념적으로 막을 수 있는지 잘 모르겠음

    • 내 눈에는 이게 HN 독자를 겨냥한 마케팅 농담처럼 보였고 실제로 관심 끌기엔 성공한 듯함
      그래도 이 제품 자체가 웹 에이전트 중심이니, 온보딩 단계에서 에이전트 설정이 제대로 되었는지 확인하는 장치로는 나쁘지 않아 보임
    • 나도 처음엔 비슷하게 생각했고, 내가 뭘 놓친 건지 아니면 개념을 완전히 이해 못한 건지 헷갈렸음
      결국 사람은 항상 뒤에 있는데, 직접 가입하든 에이전트에게 대신 가입하라고 하든 차이가 뭐지 싶은 느낌이었음
      굳이 추측하자면, 사용자가 정확한 가입 절차를 보지 못한 채 시스템이 에이전트와만 대화하게 만드는 방식일 수도 있겠다는 생각이 듦
    • 내 느낌엔 그냥 flame-bait에 가까움
  • 에이전트가 계산 가능한지 확인하려는 목적이라면, 짧은 문자열의 sha256을 계산하게 시키면 될 것 같음
    그건 사람 손으로 풀기엔 꽤 어렵기 때문에 구분 용도로 더 깔끔해 보임

  • 이 아이디어는 영리하고 재밌다고 느꼈지만, 곁가지로 두 가지가 궁금해졌음
    하나는 ‘서로 달려오는 두 기차 사이를 오가는 새’ 문제를 어릴 때 인도 입시 준비하면서 봤던 기억이 있는데, I. E. Irodov 문제집에서 본 줄 알았지만 지금은 못 찾겠어서 가짜 기억일 가능성이 있어 보인다는 점이었음
    너무 오래된, 거의 수학 신화 같은 문제 같아서 가장 이른 출처가 어디인지 궁금한데, GPT-5.4나 Claude 4.6 Opus에 검색까지 붙여 물어봐도 요즘 너무 흔한 문제라 답이 별로 도움이 안 되었음
    또 하나는 링크된 페이지에서 Mac용 Chrome으로 L 키를 누르면 가입 페이지로 이동한다는 점이었음
    계정이 없어서 그런 듯한데 브라우저 사용 앱 페이지로 가는 단축키가 왜 하필 L 키인지 궁금했고, Chrome에서는 Cmd-L도 이 동작을 유발하지만 Safari에서는 그렇지 않다는 점도 묘하게 웃겼음

  • 이 방식 전체를 깨뜨리는 인간 쪽의 사소하지만 치명적인 디테일은, 인간은 도구 사용이 가능하다는 점이라고 봄

  • 관심 있는 사람을 위해 내가 reverse CAPTCHAs 목록을 여기에 정리해둠

  • 아이디어의 출발점은 좋았지만, 구현에는 크게 동의하기 어려웠음
    LLM 능력에 대한 암묵적 가정과 함정이 너무 많고, 똑똑한 인간과 AI를 충분히 구분해내지 못하는 느낌이었음

  • API 키를 받고 claim 링크를 누르고 새 계정을 만들고 이메일 인증까지 마친 뒤 홈으로 갔더니, 곧바로 Application error가 뜨면서 cloud.browser-use.com 로딩 중 서버 사이드 예외가 발생했다고 나왔음
    첫인상으로는 꽤 아쉬웠음

    • 아마 그쪽에서 당신이 에이전트가 아니라는 걸 알아챈 것일 수도 있겠음
  • clickbait 같다는 느낌이 강한데, 이게 왜 유용한지는 잘 모르겠음

    • 내 생각에도 유용성보다는 그냥 marketing blog post에 가까움
  • 브라우저 자동화 얘기가 나와서 궁금한데, 실제 데스크톱 브라우저에 붙어서 키보드와 마우스를 조작할 수 있는 LLM이나 도구가 지금 어느 정도 있는지 알고 싶음
    이런 작업은 Claude나 Gemini 같은 모델이 잘하는지, 아니면 로컬 모델 중에도 실전에서 쓸 만한 게 있는지 궁금함
    또 VLM이나 멀티모달 기능으로 레이아웃과 시각적 신호를 제대로 이해하는지, 아니면 그냥 DOM만 더듬는 수준인지도 궁금함
    threejs나 비디오 같은 동적인 요소와도 충분히 상호작용 가능한지, 실사용 기준의 견고함이 어느 정도인지 알고 싶음