Hacker News 의견
  • “딥 리서치”용으로 공개된 30B MoE 모델이 반가움
    여러 개의 에이전트를 병렬로 돌려 탐색·추출은 가벼운 모델이, 계획·도구 라우팅·검증은 30B 모델이 맡는 구조가 효율적임
    MoE의 전문화 구조가 분산형 에이전트 AI에 잘 맞지만, 재시도·합의·다단계 웹 리서치 평가를 위한 오케스트레이션이 필요함
  • 요즘 특화형 LLM이 폭발적으로 늘어날지 궁금함
    대형 모델이 너무 커져서 사전학습의 한계에 다다른다면, 목적별 모델이 더 많아질 수도 있음
    GPT‑3.5가 체스에 강했는데 최근 모델들은 그렇지 않은 걸 보면, 학습 데이터의 트레이드오프가 있는 듯함
    • 현재는 범용 대형 모델이 거의 모든 면에서 더 뛰어남
      작은 모델을 특정 작업용으로 파인튜닝하는 건 비용이 크고, 대형 모델 발전 속도가 너무 빨라 금세 뒤처짐
      하지만 발전 속도가 느려지면 소형 모델 훈련이 다시 의미를 가질 것임
    • 체스에 강한 LLM의 벤치마크를 보고 싶음
      예전부터 SvelteKit 같은 특정 프레임워크만 잘 아는 4B~8B 모델이 있으면 좋겠다고 생각했음
      대형 모델의 품질이 항상 더 낫다고 보긴 어렵고, 작은 모델이 GPU 한 장으로 돌아간다면 훨씬 실용적일 것 같음
      예전에 형에게 체스 LLM 비교 웹사이트 아이디어를 제안했는데, 아직 구현되지 않았음
    • GPT‑3.5가 체스에 강했다는 말에는 동의하지 않음
      실제로 해보니 환각 수가 많았음
    • seed‑tars.com/game‑tars 링크를 공유함
    • MoE 구조의 핵심이 바로 이거 아님?
      필요한 부분만 개별적으로 학습하고 개선할 수 있다는 점이 장점임
  • 이런 딥 리서치 도구가 실제로 유용한지 궁금함
    내 경험상 검색엔진 요약 수준을 넘지 못하고 밋밋한 보고서만 생성함
    • 영국에서 작은 웹사이트를 운영하며 법률 준수용으로 써봤는데, 맥락을 넣으면 꽤 맞춤형 결과를 줌
      변호사 수준은 아니지만, 예산이 없는 프로젝트엔 큰 도움이 됨
    • 나도 비슷한 경험임
      실제로 배우려는 사람보다는 ‘품질 있어 보이게’ 쓰는 컨설팅 보고서 느낌이라 실질적 가치는 낮음
    • 보고서는 밋밋하지만 자료 출처 탐색에는 유용함
      “이 주제가 이미 연구된 적이 있나?” 같은 질문에 참고할 예시를 찾아주는 데 도움됨
    • ChatGPT를 자주 쓰는데, 질문을 던지면 관련 소스 정리를 잘 해줌
      직접 리서치를 완전히 대체하진 않지만, 초기 정보 정리에 큰 도움이 됨
    • 검색엔진 수준의 요약이라도 새로운 아이디어나 unknown unknowns를 찾는 데 충분히 쓸 만함
  • 예전에 만든 Qwen3 4B distill 모델과 합성 데이터셋을 Hugging Face에 공개했음
    • 브라우저에서 바로 써볼 수 있는 Hugging Face Space를 만들어줬으면 함
      Qwen3 4B는 내 인텔 내장 GPU에서도 잘 돌아가서 인상 깊었음
      예전에 ‘유해 콘텐츠 감지용 초저가 모델’ 아이디어를 생각했는데, 이런 소형 LLM이 그 역할을 할 수 있을 듯함
      또 라우팅용으로도 써볼 수 있을 것 같음
    • 내 웹 검색 MCP로 돌려봤는데, 이렇게 작은 모델에서 이런 딥 리서치 품질은 처음 봤음
  • 전체적으로 흥미로운 시리즈임
    다만 CSS 속성 word-break: break-word; 때문에 읽기가 너무 힘듦
    • 나도 읽으려 해봤는데 단어 연결이 안 되는 느낌
  • 일요일 아침, 엔지니어 취미로 자가 호스팅하려면 어떻게 해야 할지 궁금함
    2080Ti에 128GB VRAM(?)으로 느리게라도 돌려보고 싶음
    제약이 오히려 재미라고 생각함
    • 저렴하게 VRAM을 확보하려면 AMD MI50이 괜찮음
      32GB 버전을 알리익스프레스에서 150~250달러에 구할 수 있고, 여러 장 묶으면 128GB VRAM 구성이 가능함
      최신 GPU만큼 빠르진 않지만 충분히 쓸 만함
    • 빠르게 로컬에서 돌려보고 싶다면 Ollama 앱이 가장 간단함
      ollama.com에서 설치 가능함
      그런데 2080Ti에 128GB VRAM이라면 그 방법이 궁금함
    • 나는 MacBook Pro 128GB 통합 메모리로 모델을 돌림
      속도는 느리지만 오프라인에서도 잘 작동하고, 커피숍에서도 쓸 수 있음
      Ollama를 이용하므로 최신 모델은 포팅될 때까지 기다려야 함
    • 예산 한정으로 조립한 내 세팅은 다음과 같음
      Ryzen 9 9950X, 96GB RAM, RTX 3090 두 장, 1600W PSU
      FP8 양자화된 30B 모델을 무난히 돌릴 수 있음
    • 아마 VRAM이 아니라 RAM을 말한 듯함
      이 모델은 30B MoE지만 활성 파라미터는 3B 정도라 Qwen3 MoE와 비슷함
      나는 11년 된 i5‑6600과 Radeon 6600(8GB)으로 4bit 양자화 모델을 돌리며 16k 컨텍스트에서 약 12tps 정도 나옴
      실행 스크립트 예시도 공유함
  • Tongyi 모델은 OpenRouter에서도 제공되며, 무료 버전도 있음
    openrouter.ai/alibaba/tongyi-deepresearch-30b-a3b
  • “Deep research”가 “동의(Agree)”로 번역된 건 아닐까 하는 농담을 던짐
    • 실제로는 중국어 이름이 通义千问(Tongyi Qianwen) 으로, “모든 질문을 아는”이라는 뜻임
      “同意(동의)”와 발음이 같지만 의미는 다름
      Alibaba Qwen 공식 페이지 참고
  • 이 모델은 한 달 전에 이미 가중치가 공개된 것임
    • 그래도 모든 사람이 실시간으로 따라가는 건 아니니, 한 달 된 모델이라도 여전히 쓸모 있음
    • 그렇다면 다른 모델과 성능 비교는 어떤지 궁금함
  • OpenAI의 “Deep research”는 특정 모델이 아니라 기능적 패턴에 가까움
    GPT‑5, GPT‑4o, o3 등 어떤 모델을 쓰느냐에 따라 결과가 달라짐
    • 지금은 OpenAI, Perplexity, Google Gemini, Anthropic, Grok 등 거의 모든 곳이 비슷한 리서치 패턴을 제공함
      검색 기반의 장기 실행 태스크로, 5~10분 동안 자료를 모아 인용 포함 보고서를 생성함
      Tongyi 모델은 이런 루프형 검색·보고서 작성에 특화되어 있음