Ollama 웹 검색 API 출시
(ollama.com)- Ollama가 최신 웹 정보 검색 기능을 API로 공개해 모델의 환각을 줄이고 정확도 향상을 지원하는 기능을 제공
- 무료 계정에도 넉넉한 무료 검색 할당량이 포함되며, 고빈도 사용자는 Ollama Cloud를 통해 더 높은 제한을 이용 가능
- REST API 기반으로 Python, JavaScript 라이브러리와 통합되어, OpenAI의
gpt-oss
같은 모델이 장시간의 리서치 작업 수행 가능 -
web_search
와web_fetch
기능으로 수천 토큰 단위의 결과를 반환하며, MCP 서버를 통한 Cline, Codex, Goose 등 다양한 툴과 연동 지원 - 이를 활용해 검색 에이전트를 직접 구축할 수 있어, AI 모델이 최신 데이터와 상호작용하는 범용성을 크게 확장가능
Ollama 웹 검색 기능 소개
- Ollama는 웹 검색 API를 공개하여, AI 모델에게 즉시 최신 웹 정보를 제공할 수 있는 환경을 제공
- 이 덕분에 환각 현상(hallucination) 감소와 더불어 정확도 향상 효과를 기대할 수 있음
- 개인 사용자에게는 넉넉한 무료 검색 할당량을 제공하며, 더 높은 사용량이 필요할 시 Ollama 클라우드 구독을 통해 할당량을 확장할 수 있음
- REST API로 제공되며, Python 및 JavaScript 라이브러리를 통해 심화된 도구 통합 지원 가능
- 이러한 구조 덕분에 gpt-oss 등 다양한 모델이 장기적 연구 및 검색 작업을 수행할 수 있음
API 사용 방법 예시
- Ollama 계정에서 발급받은 API 키를 사용하여
cURL
, Python 에선ollama.web_search()
, JavaScript에서client.webSearch()
호출 가능 - 결과는 제목, URL, 본문 요약이 포함된 JSON 구조로 반환됨
-
web_fetch
API를 사용하면 URL 단위의 페이지 내용을 본문 텍스트와 링크 목록까지 가져올 수 있음
웹 검색 기반 검색 에이전트 구현
- Ollama API는 Qwen3, gpt-oss 같은 모델과 결합해 자동화된 멀티턴 검색 에이전트 개발 가능
- 예제 코드에서는 Qwen3:4B 모델을 활용해 검색 → 추론 → 결과 요약 과정 자동화
- 검색 결과에 기반하여 "Thinking" 과정을 거치고, 검색/페치 툴 호출 결과를 반복적으로 이용해 복합적인 연구나 탐색 시나리오를 수행함
- Ollama 엔진의 새로운 업그레이드에는 정확한 메모리 관리, GPU/멀티 GPU 최적화, 성능 향상과 비전(멀티모달) 모델에 대한 본격 지원 등이 포함
권장 모델 및 성능 안내
- 강력한 툴 활용 능력을 지닌 클라우드 모델(예:
qwen3:480b-cloud
,gpt-oss:120b-cloud
,deepseek-v3.1-cloud
) 추천 - 검색·페치 툴은 수천 토큰에 달하는 데이터를 반환할 수 있으므로, 모델의 컨텍스트 길이를 약 32000 토큰 수준으로 늘리는 것이 권장됨
개별 웹페이지 페치 기능
- 웹 검색 외에도 지정한 개별 웹페이지의 텍스트와 링크 구조를 직접 페치할 수 있는 API·함수가 제공됨
- Python, JavaScript, 또는 cURL로 간단하게 url을 인자로 넘겨 페이지의
title
,content
, 연결 링크 등을 추출 가능함 - 보다 자세한 예시 코드는 공식 GitHub 저장소에서 확인 가능함
툴 및 에이전트 통합
-
web_search
,web_fetch
는 수천 토큰의 데이터를 반환하며, 모델 컨텍스트를 32K 이상으로 늘리는 것을 권장 - MCP 서버 지원으로 Cline, Codex, Goose 같은 AI 개발 환경과 직접 연동 가능
- Python과 JavaScript 예제 코드가 공식 GitHub 저장소에 제공됨
시작하기
- 웹 검색은 무료 Ollama 계정으로 기본 제공되며, 더 높은 사용량은 유료 구독을 통해 이용
- Ollama 웹사이트에서 계정을 생성하고 API 키를 발급받아 곧바로 서비스 이용 가능
Hacker News 의견
- 어떤 검색 엔진을 내부적으로 쓰는지 궁금함, 트위터로 문의도 했음 https://twitter.com/simonw/status/1971210260015919488 특히 중요한 부분은 검색 결과의 라이선스임. 저장하거나 재배포가 가능한지, 제공자마다 규칙이 다름
- 우리는 검색 제공자와 협력하며, 데이터 보존 정책이 전혀 없는 환경을 보장함. 검색 결과는 사용자가 소유하고 자유롭게 사용 가능함. 단, 현지 법률은 반드시 준수해야 함
- AI 모델 학습 중이라고 말하면 원하는 대로 활용 가능함
- 검색 결과가 단순히 링크 목록일 뿐이라면, 저작권 자체가 성립하는지 의문임
- 개인정보 처리방침조차 없이 이런 기능을 출시한 점이 이상함. 혹시 최근에 투자를 받은 VC 파트너와의 협업 사례 혹은 고객 스토리로 활용되는 건 아닌지 추측. Exa에 베팅해봄, 초기에 YC가 지원했고 Series B로 $85M을 유치함. Bing은 Microsoft 협력 없이는 자유롭게 운영하기엔 너무 비쌀 것임. 빠른 시일 내에 Ollama가 프라이버시 고지를 업데이트하길 바람. 본사가 CA에 있으니 CCPA 적용 대상임, 수익이 없어도 캘리포니아 거주자 5만 명 데이터만 다뤄도 해당됨 https://oag.ca.gov/privacy/ccpa 만약 데이터 보존이 없는 백엔드 제공자가 Alibaba로 밝혀지면 반응이 궁금함
- Ollama가 사업체인지 궁금했음, 투자도 받았는지 몰랐음. 오픈소스 유틸리티라고 생각했음. 앞으로 유저를 어떻게 수익화할 계획인지 궁금함, 썩 기대는 안 됨
- 최근에 완전히 오픈 소스로 출시된 프로젝트는 거의 없고, 대부분은 기부 모델이거나 기업 후원을 받음, AI 분야는 오히려 더 드물다고 생각함
- Ollama는 Docker 출신 직원들이 Docker 방식으로 운영하고 있음
- 얼마 전에 호스팅 플랫폼을 출시함
- 너의 답글을 보기 전까진 이 글이 OpenAI 관련인 줄 알았음
- Ollama 구현 방식에 대한 더 자세한 정보가 있길 바랐음, 오픈 소스이자 플랫폼 독립적인 툴로 봤지만 최근 분위기가 그와는 다르다고 느껴 고민 중임
- Ollama에 헤드리스 브라우저 등으로 검색 결과와 웹사이트 콘텐츠를 가져오는 기능을 넣는 것도 고민했으나, 결과 품질 및 IP 차단(크롤러 같이 보일 수 있음)이 걱정됐음. 호스팅 API 도입이 더 빠른 결과 제공 경로라 생각했지만, 로컬 옵션도 계속 탐색 중임. 이상적으로는 사용자가 원한다면 완전히 로컬 환경만으로도 이런 검색 기능을 쓸 수 있으면 좋겠음
- GUI가 오픈소스가 아님. 손쉬운 앱을 원한다면 LMStudio를 쓰는 식이 더 나을 수 있고(OSS인 척하지 않으니까), ramalama도 LLM을 컨테이너화한 점에선 ollama와 비슷함. 아니면 llama.cpp나 vllm 같은 “기본기”로 돌아가는 것도 방법임
- Ollama의 운영 방식이 점점 악화되는 느낌임, 신뢰를 잃어서 모든 시스템에서 삭제함
- Ollama가 점점 비로컬(non-local) 방향으로 가는 것 같고, 성능도 vLLM보다 떨어진다고 느낌. OpenAI 호환 API를 통해 open-webui 같은 걸 운영하면서 사용자가 여러 LLM 중에서 선택하는 환경을 만들고 싶은데, RTX 3090 여러 개(1~5대)를 잘 쓸만한 Ollama 대안이 궁금함
- Llamaswap이나 vllm 이야기를 들은 적 있음
- Ollama가 자체 클라우드 서비스를 한다는 걸 몰랐음. 원래 Ollama의 취지가 로컬 모델 아니었는지? 왜 더 작은 저성능 모델 사용을 위해 월 $20 내고 이걸 써야 하나 의문임. OpenAI나 Mistral 같은 AI 기업 쓰는 게 낫지 않을까? 내 컴퓨터에서 모델을 쓰는 데 굳이 계정까지 만들 필요를 못 느끼겠음
- 좋은 질문임. 지원 모델 중엔 대부분 기기에서 돌릴 수 없을 만큼 큰 모델도 있음. 지금은 시작 단계고, 우리가 모델 공급자와 맺은 관계 덕분에 Ollama도 클라우드 기반 최신 모델까지 받아드릴 수 있음. Ollama는 개발자와 함께하며, 이들의 니즈를 해결하는 걸 목표로 함 https://ollama.com/cloud
- 계정을 만드는 이유는 그들의 호스팅 모델을 쓰거나 Ollama API를 통해 로컬에서 모델을 활용하기 위함임. 지금 Claude에 $100, GPT-5에 $200을 쓰고 있는데 $20은 정말 저렴하게 이런 모델들을 쓸 수 있는 값어치임: Qwen3 235b, Deepseek 3.1 671b, Llama 3.1 405b, GPT OSS 120b 등 결코 “작거나 저성능”인 모델이 아님. Codex를 Ollama API에 연동해서 여러 모델로 도구를 쓸 수 있게 만드는 것도 정말 멋진 점임
- 수익화 가능한 기능으로 꾸준히 전환해온 흐름이라고 봄. 오픈소스와 무료 노동을 통해 신뢰쌓고 브랜드 키운 뒤 현금화로 전환 중임
- 로컬에서 돌릴 수 없는 모델들(gpt-oss-120b, deepseek, qwen3-coder 480b 등)도 있음. Ollama의 성공을 수익화할 수 있는 방안임
- 많은 “로컬” 모델조차 다운로드 용량도 크고 평범한 하드웨어에선 느림. 클라우드에서 저렴하게 먼저 평가해본 뒤, 로컬로 직접 다운로드할지 결정할 수 있다는 게 장점임. 중요한 건 실제로 뭔가를 로컬에서 돌릴 “수 있다”는 원칙 그 자체임. 누군가 쉽게 회수 또는 막아버릴 수 있는 기술에 종속되는 건 싫음
- 약간 다른 얘기지만, 개인 용도로 “미니 구글”을 집 안에 구축해볼 생각임. 실제로 검색이 필요한 경우가 1,000여 개의 웹사이트 내에서 대부분 해결된다고 느꼈음. 웹 전체를 크롤링하는 건 나에겐 오버임. 대략적인 설계는 크롤러(경량 스크랩퍼), 인덱서(텍스트 변환 및 역색인), 스토리지(HTML 및 텍스트 압축저장), 검색 레이어(TF-IDF나 임베딩 기반 스코어링), 주기적 업데이트 및 간단한 웹UI로 탐색 구성임. 실제 써본 프로젝트나 비슷한 도전을 해본 사람 있나 궁금함
- Common Crawl 덤프를 살펴본 적이 있는데, 웹의 99.99%는 광고, 음란물, 스팸, 무의미한 블로그 등 정말 쓸모없었음. 나름 역사적‧문화적 가치 혹은 문학적 가치가 있긴 하겠지만, 내 목적엔 거의 아무 쓸모 없음. 덕분에 “진짜로 중요한 웹페이지”만 선택적으로 인덱싱한다면 내 랩톱 수준에서도 충분히 가능하겠다는 확신을 얻었음. 위키피디아만 해도 20GB 정도(압축 기준)라서, 내가 실제 궁금한 주제만 뽑으면 200MB에도 못 미치는 수준임
- YaCy (https://yacy.net)에서 대부분 다 할 수 있음. 단, 크롤링 많이 하면 클라우드플레어에서 IP를 빨리 막을 수 있음
- https://marginalia-search.com도 정말 좋아함
- Drew DeVault가 예전에 SearchHut이라는 이름으로 비슷한 걸 만들려다 중단했음. 포스트그레스 RUM 익스텐션 이해하다 결국 포기했음 SearchHut 언급 HN 스레드 링크
- 완전히 같은 건 아니지만, 나도 도메인별 구글 CSE로 관심 토픽에 맞는 사이트만 검색 결과로 제한해서 쓰고 있음. Alfred에서 단축키로 바로 불러와서 관심 분야만큼은 편하게 검색함 https://blog.gingerbeardman.com/2021/04/…
- 로컬‧엔터프라이즈 검색 관련 팁이 있으면 좋겠음. Ollama를 로컬로 쓰면서 내 문서도 직접 인덱싱하고 있음. 도큐먼트를 임베딩하거나 파인튜닝하는 게 아니라, 전통적인 전체 텍스트 검색 시스템에 Ollama를 연동하는 방법이 궁금함
- solr를 추천함. 매우 좋은 전체 텍스트 검색이고 mcp 통합도 있어서 손쉽게 쓸 수 있음 https://github.com/mjochum64/mcp-solr-search 조금 더 작업하면 문서 벡터화해서 knn 기반으로 의미 유사도 검색까지 겸할 수 있음. 의미‧텍스트 검색 둘 다 쓸 수 있어서 퀄리티도 좋음. chromadb와 solr을 연동해서 결과를 결합할 수도 있을 텐데, 규모가 커지면 chromadb가 더 효율적일지도 고민임
- docling도 좋은 대안일 수 있고, Typesense 같이 검증된 전체 텍스트 검색 엔진들도 고려해볼 만함
- 예전부터 LLM에 python DuckDuckGo 패키지를 연동해서 검색 기능을 썼음. 하지만 구글이 결과가 더 좋아서 개발자 콘솔에서 무언가 설정하고 구글로 바꿈(정확히 뭘 했는지는 기억 안 남). DDG 쪽은 비공식이고, 구글 공식 API는 쿼리 제한이 있음(그래서 심층 연구엔 적합하지 않음). 보통 검색 결과 몇 개를 GPT에 넣고 내 질문을 덧붙이면 대부분 좋은 답변이 나옴. Ollama에도 물론 이 구조를 쓸 수 있지만, GPU가 별로라서 컨텍스트 길면 속도가 느려짐
- 스크래핑 API 없이 의미 있게 활용하려면 어떻게 해야 하는지 궁금함. 공식 API는 너무 제한적이기 때문임
- “Ollama 계정”이 무슨 뜻인지 혼란스러움, 처음엔 Ollama가 모델을 셀프호스팅하는 게 취지라고 이해했음
- 추가 기능이나 Ollama가 호스팅하는 클라우드 모델을 위해선 계정 가입이 필요함. 기본적으로는 정말 선택사항이고, 완전히 로컬에서 직접 모델을 만들어 ollama.com에 공유하는 것도 가능함
- 나도 방금 웹 검색을 연결해서 여러 공급업체를 테스트하며 툴을 만들고 있음. openAI, xAI, gemini는 경쟁사 사이트에서는 차단돼서 쓸 수 없음. YT 동영상에서는 이 검색이 간단 테스트 결과 잘 동작했고, OpenAI web search랑 다르게 접근 가능함. X에서는 잘 안 통했으나 때로는 괜찮은 결과를 줌. 완벽하진 않아도 평균적으로는 쓸 만한 결과임