Ollama 웹 검색 API 출시

(ollama.com)

13P by GN⁺ 2달전 | ★ favorite | 댓글 3개

Ollama가 최신 웹 정보 검색 기능을 API로 공개해 모델의 환각을 줄이고 정확도 향상을 지원하는 기능을 제공
무료 계정에도 넉넉한 무료 검색 할당량이 포함되며, 고빈도 사용자는 Ollama Cloud를 통해 더 높은 제한을 이용 가능
REST API 기반으로 Python, JavaScript 라이브러리와 통합되어, OpenAI의 gpt-oss 같은 모델이 장시간의 리서치 작업 수행 가능
web_search와 web_fetch 기능으로 수천 토큰 단위의 결과를 반환하며, MCP 서버를 통한 Cline, Codex, Goose 등 다양한 툴과 연동 지원
이를 활용해 검색 에이전트를 직접 구축할 수 있어, AI 모델이 최신 데이터와 상호작용하는 범용성을 크게 확장가능

Ollama 웹 검색 기능 소개

Ollama는 웹 검색 API를 공개하여, AI 모델에게 즉시 최신 웹 정보를 제공할 수 있는 환경을 제공
이 덕분에 환각 현상(hallucination) 감소와 더불어 정확도 향상 효과를 기대할 수 있음
개인 사용자에게는 넉넉한 무료 검색 할당량을 제공하며, 더 높은 사용량이 필요할 시 Ollama 클라우드 구독을 통해 할당량을 확장할 수 있음
REST API로 제공되며, Python 및 JavaScript 라이브러리를 통해 심화된 도구 통합 지원 가능
이러한 구조 덕분에 gpt-oss 등 다양한 모델이 장기적 연구 및 검색 작업을 수행할 수 있음

API 사용 방법 예시

Ollama 계정에서 발급받은 API 키를 사용하여 cURL, Python 에선 ollama.web_search(), JavaScript에서 client.webSearch() 호출 가능
결과는 제목, URL, 본문 요약이 포함된 JSON 구조로 반환됨
web_fetch API를 사용하면 URL 단위의 페이지 내용을 본문 텍스트와 링크 목록까지 가져올 수 있음

웹 검색 기반 검색 에이전트 구현

Ollama API는 Qwen3, gpt-oss 같은 모델과 결합해 자동화된 멀티턴 검색 에이전트 개발 가능
예제 코드에서는 Qwen3:4B 모델을 활용해 검색 → 추론 → 결과 요약 과정 자동화
검색 결과에 기반하여 "Thinking" 과정을 거치고, 검색/페치 툴 호출 결과를 반복적으로 이용해 복합적인 연구나 탐색 시나리오를 수행함
Ollama 엔진의 새로운 업그레이드에는 정확한 메모리 관리, GPU/멀티 GPU 최적화, 성능 향상과 비전(멀티모달) 모델에 대한 본격 지원 등이 포함

권장 모델 및 성능 안내

강력한 툴 활용 능력을 지닌 클라우드 모델(예: qwen3:480b-cloud, gpt-oss:120b-cloud, deepseek-v3.1-cloud) 추천
검색·페치 툴은 수천 토큰에 달하는 데이터를 반환할 수 있으므로, 모델의 컨텍스트 길이를 약 32000 토큰 수준으로 늘리는 것이 권장됨

개별 웹페이지 페치 기능

웹 검색 외에도 지정한 개별 웹페이지의 텍스트와 링크 구조를 직접 페치할 수 있는 API·함수가 제공됨
Python, JavaScript, 또는 cURL로 간단하게 url을 인자로 넘겨 페이지의 title, content, 연결 링크 등을 추출 가능함
보다 자세한 예시 코드는 공식 GitHub 저장소에서 확인 가능함

툴 및 에이전트 통합

web_search, web_fetch는 수천 토큰의 데이터를 반환하며, 모델 컨텍스트를 32K 이상으로 늘리는 것을 권장
MCP 서버 지원으로 Cline, Codex, Goose 같은 AI 개발 환경과 직접 연동 가능
Python과 JavaScript 예제 코드가 공식 GitHub 저장소에 제공됨

시작하기

웹 검색은 무료 Ollama 계정으로 기본 제공되며, 더 높은 사용량은 유료 구독을 통해 이용
Ollama 웹사이트에서 계정을 생성하고 API 키를 발급받아 곧바로 서비스 이용 가능

▲

shakespeares 1달전 [-]

무료 ollama로는 실사용할 수 있을 수준이 안될 것 같네요..

답변달기

▲

slowandsnow 2달전 [-]

가격 페이지에도 할당량에 대해 설명이 없어서 값어치를 할지 가늠이 안가네요

답변달기

▲

GN⁺ 2달전 [-]

Hacker News 의견

어떤 검색 엔진을 내부적으로 쓰는지 궁금함, 트위터로 문의도 했음 https://twitter.com/simonw/status/1971210260015919488 특히 중요한 부분은 검색 결과의 라이선스임. 저장하거나 재배포가 가능한지, 제공자마다 규칙이 다름
- 우리는 검색 제공자와 협력하며, 데이터 보존 정책이 전혀 없는 환경을 보장함. 검색 결과는 사용자가 소유하고 자유롭게 사용 가능함. 단, 현지 법률은 반드시 준수해야 함
- AI 모델 학습 중이라고 말하면 원하는 대로 활용 가능함
- 검색 결과가 단순히 링크 목록일 뿐이라면, 저작권 자체가 성립하는지 의문임
- 개인정보 처리방침조차 없이 이런 기능을 출시한 점이 이상함. 혹시 최근에 투자를 받은 VC 파트너와의 협업 사례 혹은 고객 스토리로 활용되는 건 아닌지 추측. Exa에 베팅해봄, 초기에 YC가 지원했고 Series B로 $85M을 유치함. Bing은 Microsoft 협력 없이는 자유롭게 운영하기엔 너무 비쌀 것임. 빠른 시일 내에 Ollama가 프라이버시 고지를 업데이트하길 바람. 본사가 CA에 있으니 CCPA 적용 대상임, 수익이 없어도 캘리포니아 거주자 5만 명 데이터만 다뤄도 해당됨 https://oag.ca.gov/privacy/ccpa 만약 데이터 보존이 없는 백엔드 제공자가 Alibaba로 밝혀지면 반응이 궁금함
Ollama가 사업체인지 궁금했음, 투자도 받았는지 몰랐음. 오픈소스 유틸리티라고 생각했음. 앞으로 유저를 어떻게 수익화할 계획인지 궁금함, 썩 기대는 안 됨
- 최근에 완전히 오픈 소스로 출시된 프로젝트는 거의 없고, 대부분은 기부 모델이거나 기업 후원을 받음, AI 분야는 오히려 더 드물다고 생각함
- Ollama는 Docker 출신 직원들이 Docker 방식으로 운영하고 있음
- 얼마 전에 호스팅 플랫폼을 출시함
- 너의 답글을 보기 전까진 이 글이 OpenAI 관련인 줄 알았음
Ollama 구현 방식에 대한 더 자세한 정보가 있길 바랐음, 오픈 소스이자 플랫폼 독립적인 툴로 봤지만 최근 분위기가 그와는 다르다고 느껴 고민 중임
- Ollama에 헤드리스 브라우저 등으로 검색 결과와 웹사이트 콘텐츠를 가져오는 기능을 넣는 것도 고민했으나, 결과 품질 및 IP 차단(크롤러 같이 보일 수 있음)이 걱정됐음. 호스팅 API 도입이 더 빠른 결과 제공 경로라 생각했지만, 로컬 옵션도 계속 탐색 중임. 이상적으로는 사용자가 원한다면 완전히 로컬 환경만으로도 이런 검색 기능을 쓸 수 있으면 좋겠음
- GUI가 오픈소스가 아님. 손쉬운 앱을 원한다면 LMStudio를 쓰는 식이 더 나을 수 있고(OSS인 척하지 않으니까), ramalama도 LLM을 컨테이너화한 점에선 ollama와 비슷함. 아니면 llama.cpp나 vllm 같은 “기본기”로 돌아가는 것도 방법임
- Ollama의 운영 방식이 점점 악화되는 느낌임, 신뢰를 잃어서 모든 시스템에서 삭제함
Ollama가 점점 비로컬(non-local) 방향으로 가는 것 같고, 성능도 vLLM보다 떨어진다고 느낌. OpenAI 호환 API를 통해 open-webui 같은 걸 운영하면서 사용자가 여러 LLM 중에서 선택하는 환경을 만들고 싶은데, RTX 3090 여러 개(1~5대)를 잘 쓸만한 Ollama 대안이 궁금함
- Llamaswap이나 vllm 이야기를 들은 적 있음
Ollama가 자체 클라우드 서비스를 한다는 걸 몰랐음. 원래 Ollama의 취지가 로컬 모델 아니었는지? 왜 더 작은 저성능 모델 사용을 위해 월 $20 내고 이걸 써야 하나 의문임. OpenAI나 Mistral 같은 AI 기업 쓰는 게 낫지 않을까? 내 컴퓨터에서 모델을 쓰는 데 굳이 계정까지 만들 필요를 못 느끼겠음
- 좋은 질문임. 지원 모델 중엔 대부분 기기에서 돌릴 수 없을 만큼 큰 모델도 있음. 지금은 시작 단계고, 우리가 모델 공급자와 맺은 관계 덕분에 Ollama도 클라우드 기반 최신 모델까지 받아드릴 수 있음. Ollama는 개발자와 함께하며, 이들의 니즈를 해결하는 걸 목표로 함 https://ollama.com/cloud
- 계정을 만드는 이유는 그들의 호스팅 모델을 쓰거나 Ollama API를 통해 로컬에서 모델을 활용하기 위함임. 지금 Claude에 $100, GPT-5에 $200을 쓰고 있는데 $20은 정말 저렴하게 이런 모델들을 쓸 수 있는 값어치임: Qwen3 235b, Deepseek 3.1 671b, Llama 3.1 405b, GPT OSS 120b 등 결코 “작거나 저성능”인 모델이 아님. Codex를 Ollama API에 연동해서 여러 모델로 도구를 쓸 수 있게 만드는 것도 정말 멋진 점임
- 수익화 가능한 기능으로 꾸준히 전환해온 흐름이라고 봄. 오픈소스와 무료 노동을 통해 신뢰쌓고 브랜드 키운 뒤 현금화로 전환 중임
- 로컬에서 돌릴 수 없는 모델들(gpt-oss-120b, deepseek, qwen3-coder 480b 등)도 있음. Ollama의 성공을 수익화할 수 있는 방안임
- 많은 “로컬” 모델조차 다운로드 용량도 크고 평범한 하드웨어에선 느림. 클라우드에서 저렴하게 먼저 평가해본 뒤, 로컬로 직접 다운로드할지 결정할 수 있다는 게 장점임. 중요한 건 실제로 뭔가를 로컬에서 돌릴 “수 있다”는 원칙 그 자체임. 누군가 쉽게 회수 또는 막아버릴 수 있는 기술에 종속되는 건 싫음
약간 다른 얘기지만, 개인 용도로 “미니 구글”을 집 안에 구축해볼 생각임. 실제로 검색이 필요한 경우가 1,000여 개의 웹사이트 내에서 대부분 해결된다고 느꼈음. 웹 전체를 크롤링하는 건 나에겐 오버임. 대략적인 설계는 크롤러(경량 스크랩퍼), 인덱서(텍스트 변환 및 역색인), 스토리지(HTML 및 텍스트 압축저장), 검색 레이어(TF-IDF나 임베딩 기반 스코어링), 주기적 업데이트 및 간단한 웹UI로 탐색 구성임. 실제 써본 프로젝트나 비슷한 도전을 해본 사람 있나 궁금함
- Common Crawl 덤프를 살펴본 적이 있는데, 웹의 99.99%는 광고, 음란물, 스팸, 무의미한 블로그 등 정말 쓸모없었음. 나름 역사적‧문화적 가치 혹은 문학적 가치가 있긴 하겠지만, 내 목적엔 거의 아무 쓸모 없음. 덕분에 “진짜로 중요한 웹페이지”만 선택적으로 인덱싱한다면 내 랩톱 수준에서도 충분히 가능하겠다는 확신을 얻었음. 위키피디아만 해도 20GB 정도(압축 기준)라서, 내가 실제 궁금한 주제만 뽑으면 200MB에도 못 미치는 수준임
- YaCy (https://yacy.net)에서 대부분 다 할 수 있음. 단, 크롤링 많이 하면 클라우드플레어에서 IP를 빨리 막을 수 있음
- https://marginalia-search.com도 정말 좋아함
- Drew DeVault가 예전에 SearchHut이라는 이름으로 비슷한 걸 만들려다 중단했음. 포스트그레스 RUM 익스텐션 이해하다 결국 포기했음 SearchHut 언급 HN 스레드 링크
- 완전히 같은 건 아니지만, 나도 도메인별 구글 CSE로 관심 토픽에 맞는 사이트만 검색 결과로 제한해서 쓰고 있음. Alfred에서 단축키로 바로 불러와서 관심 분야만큼은 편하게 검색함 https://blog.gingerbeardman.com/2021/04/…
로컬‧엔터프라이즈 검색 관련 팁이 있으면 좋겠음. Ollama를 로컬로 쓰면서 내 문서도 직접 인덱싱하고 있음. 도큐먼트를 임베딩하거나 파인튜닝하는 게 아니라, 전통적인 전체 텍스트 검색 시스템에 Ollama를 연동하는 방법이 궁금함
- solr를 추천함. 매우 좋은 전체 텍스트 검색이고 mcp 통합도 있어서 손쉽게 쓸 수 있음 https://github.com/mjochum64/mcp-solr-search 조금 더 작업하면 문서 벡터화해서 knn 기반으로 의미 유사도 검색까지 겸할 수 있음. 의미‧텍스트 검색 둘 다 쓸 수 있어서 퀄리티도 좋음. chromadb와 solr을 연동해서 결과를 결합할 수도 있을 텐데, 규모가 커지면 chromadb가 더 효율적일지도 고민임
- docling도 좋은 대안일 수 있고, Typesense 같이 검증된 전체 텍스트 검색 엔진들도 고려해볼 만함
예전부터 LLM에 python DuckDuckGo 패키지를 연동해서 검색 기능을 썼음. 하지만 구글이 결과가 더 좋아서 개발자 콘솔에서 무언가 설정하고 구글로 바꿈(정확히 뭘 했는지는 기억 안 남). DDG 쪽은 비공식이고, 구글 공식 API는 쿼리 제한이 있음(그래서 심층 연구엔 적합하지 않음). 보통 검색 결과 몇 개를 GPT에 넣고 내 질문을 덧붙이면 대부분 좋은 답변이 나옴. Ollama에도 물론 이 구조를 쓸 수 있지만, GPU가 별로라서 컨텍스트 길면 속도가 느려짐
- 스크래핑 API 없이 의미 있게 활용하려면 어떻게 해야 하는지 궁금함. 공식 API는 너무 제한적이기 때문임
“Ollama 계정”이 무슨 뜻인지 혼란스러움, 처음엔 Ollama가 모델을 셀프호스팅하는 게 취지라고 이해했음
- 추가 기능이나 Ollama가 호스팅하는 클라우드 모델을 위해선 계정 가입이 필요함. 기본적으로는 정말 선택사항이고, 완전히 로컬에서 직접 모델을 만들어 ollama.com에 공유하는 것도 가능함
나도 방금 웹 검색을 연결해서 여러 공급업체를 테스트하며 툴을 만들고 있음. openAI, xAI, gemini는 경쟁사 사이트에서는 차단돼서 쓸 수 없음. YT 동영상에서는 이 검색이 간단 테스트 결과 잘 동작했고, OpenAI web search랑 다르게 접근 가능함. X에서는 잘 안 통했으나 때로는 괜찮은 결과를 줌. 완벽하진 않아도 평균적으로는 쓸 만한 결과임

답변달기