Nxtscape - 오픈소스 에이전트 브라우저

▲

GN⁺ 10달전 | parent | ★ favorite | on: Nxtscape - 오픈소스 에이전트 브라우저 (github.com/nxtscape)

Hacker News 의견

지금까지의 댓글들에서 전체적인 관점보다는 세부적인 부분에만 집중하는 느낌이라고 생각함. 개인적으로는 로컬 LLM과 연결되고, 브라우저가 보는 모든 것을 타임스탬프와 함께 로컬 DB에 저장하며, 내가 상호작용하는 내용을 자동으로 파싱/요약하고, Puppeteer처럼 스크립트화가 가능하며, 코드 프롬프트 기반 자동화를 지원하는 브라우저에 엄청난 가치가 있을 거라고 상상함. 나만의 디지털 도우미로서, 잊어버린 정보나 필요한 것을 쉽게 찾을 수 있고, 검색·광고·스팸·원치 않는 정보까지도 적극적으로 걸러주며, 심지어는 원하는 인터넷 작업을 자동으로 처리할 수도 있음. 25년간 쌓인 북마크에서 더 이상 북마크만으로는 충분하지 않음. 군더더기 웹사이트에서 원하는 정보 하나 찾다가 깊은 산으로 빠지는 상황을, 보디가드 봇이 잡음과 쓸데없는 정보를 필터링해주는 방식으로 개선 가능. 만약 이게 정말 잘 작동한다면, 디지털 공간의 개인 비서, 투어 매니저, 도어맨, 하우스키퍼, 정비공 등 여러 역할을 한꺼번에 끌 수 있고, 브라우저가 혼돈스러운 인터넷의 주 포털이 된 2025년에는 이런 방향이 나쁜 생각이 아님. 결국 실행 능력이 관건이지만, 이런 프로젝트가 어떻게 발전하는지 너무 궁금함
- 솔직한 피드백에 정말 고마움. 이게 우리가 그렸던 그 비전임. 하루의 90% 이상을 브라우저에서 보내는데도 여전히 ‘바보 창문’일 뿐임. 방문 기록을 기억하고, 중요한 기사 클립해서 Evernote web clipper처럼 하이라이트도 저장하고, 모든 내용을 의미 기반으로 검색 가능하면 삶이 달라질 것임. 모든 데이터가 로컬 PostgresDB에 저장되고, "지난달 가격비교 뭐였지?", "브라우저 자동화 하이라이트 찾아줘" 같은 질문을 바로 처리. 집중이 필요할 땐 방해되는 사이트를 막는 기능도 포함. 검색·기억을 넘어 브라우저가 실제로 내 일을 돕는 시대임. 예를 들어 탭을 주제별로 자동 그룹핑, 사이트별 하드드라이브 가격 비교, Discord 서버의 새 글 요약 등 모두 로컬에서 처리. 브라우저가 인터넷 혼돈 속에서 우리를 도와야지, 오히려 더 복잡하게 만들 필요 없음. 특히 어떤 워크플로우가 일상에서 가장 불편한지, 사용자 사례 있으면 꼭 듣고 싶음
- 사실 이건 Microsoft가 Recall로 하려던 것과 거의 동일함. Recall 기능이 AI 열풍에서 유일하게 삶을 개선해줄 것 같아 기대했으나, 곰곰이 생각해보면 내가 진짜 원하는 건 AI가 아니라, 내 컴퓨터가 로컬에서 세부 기록을 갖고 고도화된 검색을 제공하는 것임. 내가 컴퓨터로 한 모든 걸 무조건 기억해주길 바람. 방문한 사이트, 각 페이지에서 얼마나 내렸는지, 입력했다 지운 생각들까지도 모두 저장하는 ‘total recall’ 기능이 필요. 그 이유는 내 뇌가 항상 기억에 오류가 있으니, 컴퓨터엔 더 완벽한 기억을 기대함. 그리고 검색이 항상 일관되고 결정론적으로 동작하길 바람. 정확한 타임스탬프, 불리언 연산자가 가능해야 하고, NLP는 Lucene이 이미 20년 전에 잘 제공함. 나는 외부 코퍼스에서 자동 생성된 요약 말고, 내 컴퓨터에서 내가 한 일 자체만 제대로 기억되면 됨. LLM은 개인 검색엔 큰 가치를 더하지 못한다고 봄. LLM의 특성상 실제 데이터를 정확히 되돌려주기 어렵고, 결국 전통적인 방식으로 인덱싱해야 검색이 정확함. 지금 LLM이 대세인 건 ‘모든 것’을 효율적으로 인덱싱하는 방법이 미흡할 뿐이라고 생각하고, 사실 개인화된 검색의 경우 ‘모든 것’이 아니라 내 화면에 나타난 텍스트와 메타데이터(시간, 커서 위치, 클립보드, URL 등)만 알면 충분함. LLM으로 인덱싱이 필요한 게 실제 텍스트 스냅샷을 전통 인덱스에 저장하기엔 용량이 클 때뿐인데, 그게 아니라면 불명확한 대화식 검색 정도는 내 목표가 아님. 진짜 목표는 total recall임
- 정말 멋진 비전임. 내가 집중력을 잃었을 때 브라우저가 상기시켜주고, 내가 뭘 했는지 스스로 분석해줬으면 좋겠음. 자기 성찰이 여기에선 강력한 무기가 됨
- 오랫동안 내가 쓰려던 기능이, 30초 이상 머무른 페이지의 전문 텍스트를 자동 저장·인덱싱해 검색하는 브라우저 확장 프로그램이었음. 이 프로젝트는 그걸 훨씬 뛰어넘는 수준임
- 내 관점에서는 ‘LLM 기반 네이티브 광고 차단기’야… 이건 숲이 너무 커서 이 생각만으로도 머리가 아플 지경임(농담임)
nanobrowser처럼 직접 브라우저를 새로 만들지 말고, robust한 extension으로 충분하지 않을까 싶음. nanobrowser는 webdriver 노출 없이 잘 만들어졌고, js 실행/LLM 연동에도 부족함이 없음. 완전한 agentic 기능까지 제공하니 왜 꼭 새 브라우저가 필요한 이유가 궁금함
혹시 바보 같은 질문일지 모르겠는데, ‘agentic browser’가 정확히 뭔지 설명해줄 수 있는지 궁금함. 모두가 이미 알고 있다는 전제처럼 들리는데, 본인은 이 단어가 흔한 용어인지, 아니면 단순히 ‘AI 기능이 붙은 웹브라우저’라는 뜻인지 잘 모르겠음
- 질문해줘서 고마움. 결코 바보 같은 질문 아님. ‘agentic browser’란, AI 에이전트가 대신 웹 네비게이션을 해주는 브라우저를 의미함. 사용자가 아마존에서 주문 재정렬하거나 폼을 입력하는 것까지도 에이전트가 직접 수행하는 브라우저임
- 에이전트란 LLM이 툴(예: calculate(expression))와 함께 동작하는 구조임. 원하는 결과물을 얻으려면 필요한 작업 시 자동으로 그 툴을 실행함. 복잡한 워크플로우의 경우, LLM이 받아들인 입력이 사용자 에이전트를 특정 문자열로 set하는 등 여러 툴의 조합일 수 있음. 예를 들어 set_user_agent(…) 같은 명령 실행이나, 페이지에서 클릭, 페이지가 열릴 때 custom JS 삽입 등이 해당됨
- ‘agentic’이라는 용어는 한 달 전 처음 들었음. 그 이후 2~3일 동안 사내 타운홀에서까지 여러 번 반복해서 들었음. 핵심 요약은, 에이전트가 스스로 판단해서 알아서 행동하는 AI임
agentic browser라는 개념은 매우 멋진 아이디어처럼 들림. 클라이언트 측 에이전트로 뭔가 자동화할 수 있다는 건 정말 강력함. 하지만 동시에 보안 측면에선 ‘절대 안전하지 않을 수 있음’. 브라우저는 거의 모든 민감 계정에 로그인되어 있고, 자연스럽게 인터넷에서 신뢰할 수 없는 입력에 노출됨. 프롬프트 인젝션 한 번이면 인생이 몇 초 만에 꼬일 수도 있음. 개념은 정말 좋은데, 전체 공급망이 PCI/SOC2/ISO 27001 등의 인증을 받고, 제3자 보안분석가들의 혈서 보증까지 있는 경우가 아니라면 본인은 손도 안 댈 것임
- 이 부분 제기해줘서 정말 고마움. 완전히 맞는 우려임. 그래서 우리는 local-first, 오픈소스를 고집함. 클라우드 에이전트(예: Manus.im)는 자격 증명을 검증할 수 없는 블랙박스에 맡겨야 하지만, 로컬 에이전트는 사용자가 제어권을 가짐. 에이전트는 직접 명시적으로 실행을 트리거할 때만 작동, 실시간 진행 상황을 직접 보고 언제든 정지 가능, 별도의 크롬 유저 프로필에서 분리 실행 가능, 가장 중요한 건 오픈소스라 코드를 직접 감시·검증할 수 있음
내 사용 사례는 물과 관련된 웹사이트에서 CSV/데이터 파일을 추출하는 것임. 예를 들어 South Australia의 저장소 수위 데이터 추출은 정말 고생스러웠음(특히 프론트엔드 경험이 적은 입장에서). 이런 작업을 agent로 자동화할 수 있다면 무조건 시도해봄
정말 멋진 프로젝트라고 생각함! HN에서 론칭한 것도 정말 대단함. 초반 경험에서의 솔직한 후기임: 브라우저의 ‘모든 탭을 주제로 그룹화’ 프롬프트를 실행하니 정말 잘 동작했음. 그 후, 모든 탭 그룹을 제거하고 리셋하라고 시켰더니 "이건 브라우저 자동화 태스크니 ‘Agent Mode’에서 실행하라"는 답변. Agent Mode로 요청하니 "이건 생산성 태스크니 Chat Mode에서 실행하라"며 다시 반환. 결국 계속 왔다갔다 소통을 하다가, 모든 탭을 하나의 새 그룹으로 묶는 것까진 됐지만, 아예 그룹 자체를 제거하는 데엔 실패. 아마 해당 API가 자체적으로 없는 듯함. 전반적으로 브라우저 레벨 액션마다 ‘undo’ 버튼이 있었으면 좋겠음. 그게 어렵다면 적어도 몇 초 전에 자신이 만든 탭 그룹을 스스로 없앨 수 있으면 좋겠음. 계속 더 써볼 계획임. edit1: chrome 내부 페이지(예: chrome://extensions)에서 chat 인터페이스 사용 중 가끔 google.com으로 튀는 현상도 나타남. edit2: 생산성 모드엔 그룹 해체 툴이 없고, 생성만 가능하다는 걸 확인함
- 피드백 정말 감사! 불편하게 해서 죄송함. 아직은 초기 베타 단계임. agent mode와 chat mode 각각 별도 도구로 설계. 프롬프트가 현재는 부족하니 개선 필요성을 느낌. 그룹 해체 관련은 크롬 API 자체가 아직 없어 직접 구현해야 할 것 같음. 여러 사람들이 ‘undo’ 기능 요청 중이니, cursor의 'restore checkpoint' 스타일로 도입 고민. 생산성 기능이 실제 일상에 얼마나 중요하다고 생각하는지, 구체적 사례 있으면 꼭 듣고 싶음 :)
‘nxtscape’라는 이름이 예전 SCSI의 향수를 줌. ‘GPT’처럼 간단하게 한 번에 말할 수 있는 네이밍 추천. 제품은 정말 훌륭함
- 오늘 피드백을 보면 이름과 브랜딩에 더 시간 써야겠다고 느낌. 고민해보겠음 :)
이 시장은 완전히 winner-take-all임. 시도한 점은 정말 대단하지만, 두 세 명 정도 팀으로 브라우저 만들긴 너무 큰 일임. 게다가 구글이 이미 I/O에서 미래 방향을 살짝 보여줬고, 이런 분야는 구글이 크롬에 곧 구현할 수 있어 충분히 빠르게 시장 점유율을 가져올 것 같음. 딥테크 창업자들이 수년간 크롬 정복을 시도했으나 단 한 번도 성공한 적 없음. 현실적으로 ICP가 확실한 작은 니즈부터 시작하는 게 맞다고 생각함. 열정과 에너지 낭비가 너무 아까움
- 솔직한 피드백 고마움! 경쟁이 치열한 건 사실임. 하지만 오픈소스, 커뮤니티 기반, privacy-first AI browser(Brave 같은) 시장에 확실히 공백이 있다고 생각함
사용자를 위한 기능, 특히 유저에게 적대적인 웹 콘텐츠를 자동 처리·가공해주는 브라우저엔 분명 큰 가치가 있다고 생각함. 구체적인 활용 사례로는, 1) 소파 구입시 마케팅 과장 정보 대신 특정 조건만 필터링하거나, 2) 친구들이 Facebook에 글 올릴 때만 알림받고 나머지는 걸러주거나, 3) 동네 커뮤니티가 Facebook이나 nextdoor로 운영되는데, 자꾸 같은 사람의 반복 글만 안 보이게 해주거나, 4) 정부 공청회 페이지가 쓸데없이 700페이지로 부풀려진 걸 자동 요약해 진짜 중요한 내용만 골라내주는 등 다양한 도메인에 적용 가능
- 소파 사기처럼, 특정 조건에 따라 항목을 필터링하는 기능은 대형 사이트(Amazon 포함)도 기본적으로 부족함. 예전엔 scraping과 데이터 사이언스를 조합해 diskprices.com 같은 사이트를 직접 만들었고, LLM이 이런 용도에 정말 유용하다면 앞으로도 직접 브라우저에서 프롬프트를 짜는 대신 이렇게 기능 특화된 사이트가 늘어날 것임. 반복 글 차단의 경우 nextdoor는 유저 차단 기능이 있으니 참고할 만함(nextdoor 차단 가이드)
- 정말 너무 좋은 예시임!
robots.txt를 준수하나요?
- 아직은 준수하지 않음. 근데 사실 agent가 ‘인간’을 위한 용도로만 사용하는 경우 scraping이 아니다 보니 중요한지 잘 모르겠음
- 이건 확실히 사용자용 agent임. robots.txt까지 굳이 지킨다면 솔직히 너무 답답할 것 같음. robots.txt는 본래 웹 크롤러의 예의로 설계된 거지, 개별 사용자의 요청을 대행하는 도구까지 막으라고 있는 게 아님. 터미널, 일반 브라우저, AI 브라우저 등 어떤 방식으로든 내 사이트를 접근하는 도구를 사이트 운영자가 제한하는 건 웹의 강점을 떨어뜨림. AI 도구 혐오 때문에 웹의 다양성을 희생하는 건 미래적으로도 위험함. 참고: robots.txt FAQ