5P by GN⁺ 2일전 | ★ favorite | 댓글 1개
  • GPT-5 기반 ChatGPT(일명 Research Goblin)은 웹 검색에 있어서 매우 높은 수준의 정확도와 유용성을 보여줌
  • 일반적인 trivial 질문부터 복잡한 정보 조사까지 광범위한 주제에서 강력한 탐색 및 추론 능력을 발휘함
  • 실제 예시에서는 방대한 검색 과정과 연쇄 추론을 통해 신뢰할 수 있는 답변과 자료를 제공함
  • 모바일 환경에서도 뛰어난 사용성과 지속적인 작업 흐름을 경험할 수 있음
  • Tool calling과 chain-of-thought 통합 덕분에, 개발자 관점에서 LLM 기반 검색의 새로운 표준을 제시함

GPT-5 사고(Research Goblin)와 검색 혁신

변화하는 검색 패러다임

  • 기존에는 “챗봇을 검색 엔진처럼 쓰지 말라”는 조언이 주류였으나, 최신 GPT-5 기반 ChatGPT에서 이 공식이 깨지는 현상임
  • GPT-5 기반 모델은 Bing 같은 검색 엔진과의 연동을 넘어서 실질적으로 인터넷 조사를 대체하거나 능가하는 수준에 도달함
  • “Research Goblin”이라는 별명을 갖게 된 이유는 어떠한 의문이나 복잡한 과제도 안겨주면 비정상적일 정도로 집요하게 조사해 최적의 답을 도출하기 때문임

실제 검색 사례와 결과

재미있는 이동식 통로(Travelators)

  • 히드로 공항의 고무 재질 이동식 벨트가 금속으로 교체된 시점을 질문한 결과, 2014~2018년 사이로 추정하며 관련된 흥미로운 2024년 기사까지 찾아냄

건물 식별

  • 열차 창밖에 보이는 이국적인 건물을 물었을 때 1분 4초 만에 ‘The Blade(Reading)’ 임을 정확히 확인, 출처 링크도 제공함

Starbucks UK 케이크 팝 조사

  • 영국 Starbucks 매장에서 케이크 팝이 왜 없는지 심층 조사해, 2023년 도입됐으나 특정 매장(특히 여행지 매장)에는 미취급됨을 찾아냄
  • 영양 및 알레르기 안내 PDF, Reddit 토론 등도 포함해 입증 자료를 종합함

Wikipedia와 Britannica의 관계

  • Wikipedia가 초기 데이터로 1911년판 Britannica 출처 일부를 사용했다는 온라인 언급의 진위 및 맥락을 심층 분석, 관련 프로젝트 문서와 설명까지 추적 및 제공함

University of Cambridge 공식 명칭

  • 케임브리지 대학의 공식 법적 명칭(The Chancellor, Masters, and Scholars of the University of Cambridge)을 근거 자료와 함께 제시함
  • 추론 과정을 투명하게 풀어 보여 정답의 신뢰성까지 확인 가능함

Exeter quay 동굴 및 레스토랑의 연혁

  • 엑서터 Quay 지역 절벽에 파인 레스토랑 내부 구조와 그 역사까지 여러 단계의 검색과 PDF 분석을 거쳐 1820~1830년대 적사암 절벽에 만들어진 배경을 규명함
  • 영문 보고서/도면 자료를 찾고, 도달하지 못한 경우에도 이메일 요청 초안까지 작성하는 적극적 탐색 패턴을 보임

Aldi와 Lidl의 비교

  • Aldi와 Lidl의 영국 내 위치, 이미지, 마켓 랭킹 등 시장 점유율, 소비자 평가 등 수치까지 길게 분석함
  • 사용자 요청에 따라 “fanciness(고급스러움)” 기준으로도 랭킹을 다시 정리해 제공함

AI 연구소의 도서 스캔

  • Anthropic가 대량 도서를 스캔해 학습 데이터를 만드는 사례 외 다른 AI 연구소의 유사 행위 여부는 확인 불가하였으나, 가능성에 대한 탐색을 자세히 기록함

GPT-5 검색의 실질적 우수성

  • GPT-5 기반의 ChatGPT 검색에서는, 수작업 대비 빠르고 체계적이며 폭넓은 정보 취합과 평가가 가능함
  • 특히 모바일 환경에서 사용성이 대폭 개선돼, 평소 호기심 충족이나 일상적 조사 업무가 언제 어디서나 가능해짐
  • OpenAI의 Deep Research 기능을 대체할 만큼 신속하면서도 풍부한 결과 제공 능력을 보유함

LLM 개발 관점에서의 의미

  • Tool calling과 chain-of-thought 기법의 결합 덕분에, 검색과 연쇄적 추론/추가 탐색이 한 번의 “생각” 단계에서 자연스럽게 이어짐
  • RAG(검색-생성 조합) 기술도 복수 단계의 유연한 tool 호출과 고도화된 검색 연계를 통해 훨씬 강력하게 운용 가능함
  • Anthropic의 용어로는 interleaved thinking이며, OpenAI Responses API에서도 이와 유사한 흐름 지원

효과적 검색 활용 팁

  • 경험적 직관을 통해 검색 품질 제고 가능함 (“go deep” 등 힌트 사용으로 더욱 철저한 조사 유도)
  • 명확한 답이 존재하지 않는 해석적 질문의 경우에도 유익하고 흥미로운 결과를 도출함
  • “고블린”이란 비유처럼 Research Goblin은 근면하면서도 완전히 신뢰할 수 없는, 인간과는 다른 검색 AI로 활용 가치 높음
Hacker News 의견
  • Simon의 글에 동의하지만, 나는 “리서치”란 다양한 형태의 증거를 비교하는 것을 의미한다고 생각함. 예를 들어 Obamacare의 효과, 법적 판결 예측, 애니메이션 영향력 분석, 오픈소스 라이브러리 활용법 등 여러 분야에 적용됨. ChatGPT나 다른 LLM은 증거의 평가나 소스의 편향을 이해하는 데 어려움을 보이고, 특히 많은 통계를 다룰 때 합리적인 추론이 많아질수록 환각이 늘어남. 모델이 사용자의 관점을 지지하고 싶어 하는 성향이 있어 실제로 요청하지 않아도 긍정적으로 답하려 함. 나는 항상 ChatGPT에게 출처를 직접 평가하라고 요청하고, 찬반 논거를 비교하게 하며, 때로는 모델에게 반론을 제기함으로써 반응을 살펴봄. 자세한 경험담은 블로그에서 확인할 수 있음

    • Perplexity로 내 모니터의 최적 세팅을 찾으려 했는데, 간결한 세팅 목록과 이유를 제시해주었음. 그러나 소스를 확인해보니 공식 정보나 근거는 없고 삼성 포럼에서 사용자들이 추측하거나 토론한 글뿐이었음. 소스 신뢰도에 따라 confidence rating이 제공된다면 좋을 것 같지만, 그건 구현이 정말 어려울 것 같음

    • ChatGPT와 LLM들은 표면적인 “상식”만 반복해서 말하는 경우가 많음. 여러 번 추가 질문을 통해 실제로 이게 근거가 맞는지, 소스가 무엇인지, 발췌된 정보를 달라고 하고, 환각이 아닌지 재확인함. 상당히 자주 처음 답변이 완전히 틀렸음이 밝혀짐. 대부분 사람들은 이런 첫 답변을 그냥 받아들일 듯함

    • 예를 들어 잘 조사된 구매 결정을 하려고 할 때, 마케팅성 의견이 대부분을 차지하고 반대되는 신호(레딧 부정 댓글이나 유튜브 댓글 등)가 충분히 보완되지 않아 정말 어렵다고 느낌

    • GPT-5 (o3 모델 등)는 가장 비판적인 시각을 가진 LLM 중 하나임. 학술적, 기술적 요청에 대해선 별다른 프롬프트 없이도 정보 출처를 인용하고 다른 결과를 비교할 수 있음. Grok 4의 초기 버전은 분석 없이 단순히 기사를 요약했고, Claude Opus 4 역시 JS 라이브러리 목록 요청에 대해 사용률 위주 문서를 반환하는 등 핵심에서 벗어남. GPT-5는 물론 완벽하진 않지만, 평균적인 인간보다 더 나음

    • LLM에서 “리서치”라는 단어가 기능 세트 표현에 쓰이는 것에 대해 어떻게 생각하는지 질문하고 싶음. 실제 연구를 충분히 대표하는 용어인지, 아니면 미국 선거철에 자주 쓰이던 “do your research” 관용구와 비슷한 수준인지 궁금함

  • Google 검색(특히 udm=14로 AI 요약 비활성화 시)은 여전히 꽤 좋은 경험이라고 생각함. 예를 들어 Britannica와 Wikipedia 관련 질문도 구글과 위키피디아에서 각각 1~2초 내 결과를 얻고, 60초 정도면 직접 원하는 내용을 빠르게 찾을 수 있었음. 반면 ChatGPT는 처리–독립적으로 약 3분이 소요되고, 내가 직접 결과를 확인하고 환각 여부를 체크해야 함. 결과적으로 LLM이 X라는 작업을 할 수 있다는 것은 인상적이지만, 직접 검색 후 내가 정리하는 과정이 훨씬 효율적임을 느낌

    • 최근 경험을 바탕으로 조금 다른 의견임. Google AI 요약을 끄지 않으면 확실히 경험이 나빠짐. 예를 들어 Github repo를 찾을 때 Google은 실제 페이지를 못 찾고 엉뚱한 링크만 제공했음. GPT는 시간이 오래 걸리지만, 조사 범위에 따라 장점이 있다고 느낌. StarCraft2 유닛 이동 같은 심도 있는 주제에서 GPT로 한 번에 요약/설명/코드 소스까지 이어서 요청할 수 있는 점이 편리했고, 실수 필터링도 내가 충분히 할 수 있음. 미래에는 모든 인터넷 탐색이 LLM 기반 보조로 제공될 것 같음

    • Google로 "Rubber bouncy at Heathrow removal"을 검색하니 3개의 링크 결과가 나왔고, ChatGPT는 증거 제시에 일부 환각이 있었던 듯함. 역이미지 검색이나 Starbucks 팝 가격 검색도 직접 찾는 게 더 효과적임을 느낌. 그래도 사람들이 ChatGPT를 선호하는 것은 웹 정보를 한 번에 대답해주는 편리성 때문임. 가끔 환각이 있더라도, 이 비용을 감수하고 받아들이는 추세임. 과거에는 위키피디아 대신 도서관을 더 신뢰했듯, LLM의 진화가 새로운 패러다임 전환이 될 수도 있다고 생각함

    • 내 제안은, 구글 실험을 할 때 가장 답하기 어려운 예시로 시도해 볼 것을 추천하는 것임

    • 나는 간단한 질문을 GPT-5 Auto 모드로 했더니 2초 만에 답변을 시작했고, 읽기 쉬운 속도로 정확한 링크 2개를 제시해주었음. Think 모드에선 2분 정도 소요됐지만, 다양한 소스를 비교하고 모든 요약에 근거를 덧붙였음. 실제로 찾기 어려운 지방정부 정보, 복잡한 오픈소스 PR 분석 등에 GPT를 잘 활용하고 있음. 많은 제안서를 직접 읽는 수고를 대신해서 정말 유용하다는 느낌임

    • 만약 사람들이 웹에 직접 방문하지 않고 에이전트와의 상호작용만 하게 된다면, 웹의 모습이 어떻게 변할지 궁금함. 앞으로 흥미로운 변화의 시기임

  • Reddit의 "Tip of My Tongue" 섭에서 기억나는 옛 정보를 찾는 데 자주 이용했었는데, 전부 해결되진 않았음. Deep Research 기능으로 풀리지 않던 4개 이슈를 1시간 만에 해결했고 다섯 번째도 스스로 실마리를 찾게 되었음. 논리 추론에 부족함이 있더라도, 수십 개 검색 결과를 빨리 소화하고 느슨한 설명만 가지고도 관련 정보를 뽑아낼 수 있다는 점이 정말 강력함. 이젠 레딧의 스팸봇이나 규칙 안 지키는 유저 신경 안 쓰고 몇 분 만에 이런 검색 파워를 접할 수 있음

    • 정보 검색에서 기존 문서 링크와 검색 결과 기반 생성 컨텐츠 간에 차이가 있는데, 생성 컨텐츠가 정말 유용하고 신기함. 하지만 이런 결과가 자주 틀릴 수 있다는 점도 잊지 않게 됨. 만약 응답에 confidence 레벨을 붙일 수 있다면 비즈니스 모델적으로도 의미가 있을 것 같음
  • 나도 ChatGPT가 리서치에 뛰어나다고 생각하지만, 피상적이고 잠재적으로 틀린 답을 주는 병적 케이스가 가끔 있음. 객관적 1차 소스가 온라인에 있더라도 틀릴 때가 있어 관련 블로그를 공유함

    • 네가 기술한 케이스와 실제로는 다르다는 생각임. 너의 의견이 논문들과 다르고, 이를 블로그에 정리하여, ChatGPT가 네 관점을 받아들이길 바라는 형태로 느껴짐. 객관적 평가에는 한계가 있어 보임

    • 최근 ChatGPT는 불안정해졌다고 느낌. 절반 이상 답변에서 근거를 만들어내거나, 문맥을 까먹거나, 그냥 틀릴 때가 많음. Aistudio에서는 30만 토큰을 넘겨도 Gemini/Aistudio가 맥락을 잘 유지하는데, ChatGPT는 많은 정보에 약한 느낌임

    • 나도 비슷한 경험이 많았음. GPT5 Thinking으로 바꾸면 약간 나아지나, o3나 o1에 비해 뭔가 놓치는 경향이 있음. 예를 들어 봇짱 소설의 온천 에피소드를 GPT5에 물어보니 미묘하게 틀린 설명을 하더라. 실제 소설에서는 주인공이 온천에서 수영을 하고 이후 금지 표지로 망신을 당하는데 GPT5는 규칙 설명 쪽에만 집중함

    • 네 글이 흥미롭고 논의에 적합하다고 봄. 솔직히 GPT가 더 좋은 답을 줄 수 있었다고 생각하지만, 리서치를 어느 정도에서 끊어야 하는지에 대한 논의도 의미 있다고 봄. 보통 덜 신뢰받는 소스까지 다 수용하면 토론이 끝나지 않을 것임. 결국 대중적으로 합의된 결론에서 멈추는 것이 타당한 트레이드오프라고 생각함

  • 예전 "heavy" 모델들이 백과사전급 지식을 내장한 반면, 최근의 "lighter" 모델들은 웹검색에 의존해서 얕은 정보만 전달한다고 느낌. 수많은 오프라인 문서들을 기억한 모델의 강점이 그리움

    • 나는 정반대임. 모델의 내재 지식은 환각일 수 있어서 항상 따로 검증 리서치가 필요함. 반면 LLM이 검색-요약까지 미리 해주면, 소스만 확인하면 되니 훨씬 편리함. Kagi Assistant가 이런 역할을 잘 수행함

    • 오랫동안 검색 기능을 꺼두고 썼는데, 최근엔 커스텀 명령에 웹검색/내부지식 사용 모드를 추가함. xz 입력시 웹검색, xx면 내부 지식만 사용. 세션 내 자유롭게 전환 가능한 설정임

    • 검색 없는 모델은 무겁고, 검색 기반 모델은 가볍지만 최신 실제 데이터 의존함. 나는 둘 다 오가다가 최근엔 소스 기반 라이트 모델을 더 선호 중임

    • 실제 지식은 외부에 저장됨. 그래서 대학에서 도서관이 중요한 존재임. 에이전트도 기억만으로는 충분하지 않음

    • 나도 어느 정도 그런 느낌을 받음. 라이트 웹검색 모델이 각 페이지별로 기존에 언급된 정보와 새로운 정보, 페이지마다 주장된 근거사항과 불일치가 구분되는 뷰를 제공하면 흥미로울 것 같음

  • 저자는 인터넷에서 답을 찾기 위해 “비합리적으로 많은 작업”을 처리하는데, 그렇게 컴퓨팅 자원 낭비를 신나게 받아들이는 것 같아 의아함. 과연 그게 목표인지, 무조건 올바른 답을 찾기 위해 엄청난 리소스를 들이는 “wild goose chase”가 정당한지 의문임

    • 역사적으로도 한 평생을 허탕치며 보낸 사람 많음. 뉴턴, 아인슈타인도 그랬고 천재들도 예외 아님
  • ChatGPT가 정말 놀랍지만, 고등학교 교사나 대학교수들은 이런 도구 사용 때문에 고생할 것 같음. 예를 들어 “반지의 제왕이 Gormenghast의 영향을 받았다는 증거를 최대한 찾아 심도 있게 조사하라”는 과제를 두면 학생들은 자동으로 딥리서치를 이용할 것임 공유 예시

    • 직접 사실 검증을 했는지, 모든 링크 클릭해서 소스를 확인해봤는지 궁금함. 나도 예전에 ChatGPT가 뭔가를 “해결했다”고 자랑했는데, 사실 위키피디아 정보였고 틀렸던 적이 있었음

    • 학교에서 부정행위하는 학생들은 대부분 게으르며, 직급을 신경 쓰지 않으므로 질 좋은 과제엔 관심이 없음. 시간이 오래 걸리는 Thinking 모드를 쓸 이유가 없음

    • ChatGPT 답변에 ‘steel-man’ 같은 신조어 사용이 재미있었음

    • 교사 대상 워크샵에서 소크라테스식 질문법을 알려주고, 아이들이 Google/ChatGPT에서 얻은 정보를 스스로 논증하게 도울 아이디어가 떠오름. LLM 리서치로 증폭된 지식을 직접 진술하며 자신의 현재 지식 수준을 정리하는 접근임

  • 이런 답변은 Brave search에 입력하면 몇 초 만에 해결되는 질문들임에도 불구하고, LLM은 놀랄 만큼 오래 걸릴 때가 있음

    • 나는 Brave를 좋아하지만 검색 결과는 별로였음. AI 기능도 괜찮긴 한데 원하는 실제 결과가 거의 안 나옴

    • 요즘 SEO 최적화된 저품질 사이트가 벽처럼 많아서, 나는 이렇게 쉽게 납득이 안 됨

    • Chat+Search를 쓰면 광고, 클릭, 콘텐츠 팜, 악성코드 걱정 없이 곧바로 답을 얻을 수 있다는 장점이 있음

  • 이게 ChatGPT의 “Web Search”, “Deep Research”, “Agent Mode” 중 어떤 기능인지 헷갈림. 기능 구성이 참 재미있음

    • Deep Search나 Agent Mode는 아님. 나는 “GPT-5 Thinking”을 선택하고, 일반 검색 툴만 활성화함

    • 내 경험상, 결과는 그냥 “Reddit을 검색해서 댓글을 얹은 것”에 가까움

    • “ChatGPT 5 Pro”도 잊지 말 것. Deep Research랑은 약간 다름

    • 내 생각엔 그냥 기본 모드임. 굳이 웹 검색 옵션을 켜지 않아도 자동 검색함. 왜 별도 옵션이 있는지 궁금함

    • 내 감으로는 최소한 프로필 레벨에서 웹 검색이 활성화된 ChatGPT 5 Thinking 모드임. 최근 정보나 리서치 요청이 있으면 ChatGPT가 깊게 생각하며 조사하는 경향이 있음

  • 내가 듣는 팟캐스트 수익이 궁금했음. 두 피닉스 출신 코미디언이 추종자 없이 시작해, 이제 Apple 차트 상위권에 오름. 예전에 알아보려 해도 명확한 답이 없었는데, GPT-5가 “무리하게” 많은 리서치를 진행해 다양한 소스를 교차 검증했으며, 신뢰 가능한 범위까지 제시해줌

    • 그럼 범위가 얼마였는지 궁금함

    • 최근엔 GPT도 더 장황한 답변을 내놓는 듯함. Google Gemini는 쓸데없는 논문을 내놓기도 하고, ChatGPT도 정보성보다는 장황한 레포트를 주는 경향이 생김. 아마 사람들이 이런 긴 보고서형 응답을 더 신뢰하게 되어서 그런 것 같음. 게다가 자세한 근거나 수치가 나왔다 해도, 검증이 쉬운 답과 어려운 답이 있음. LLM을 많이 쓰면 내 리서치 스킬이 퇴화할까 우려됨. 또 MCP를 실험하며 느낀 점은 택도 없이 많은 리소스를 소모한다는 것임. 이런 딥리서치는 OpenAI에서 손해를 감수하며 저렴하게 제공하는 것 같아서, 나중에 가격 인상폭이 크면 의존도 자체가 위험할 수도 있겠다는 생각임