“딥 리서치”용으로 공개된 30B MoE 모델이 반가움
여러 개의 에이전트를 병렬로 돌려 탐색·추출은 가벼운 모델이, 계획·도구 라우팅·검증은 30B 모델이 맡는 구조가 효율적임
MoE의 전문화 구조가 분산형 에이전트 AI에 잘 맞지만, 재시도·합의·다단계 웹 리서치 평가를 위한 오케스트레이션이 필요함
요즘 특화형 LLM이 폭발적으로 늘어날지 궁금함
대형 모델이 너무 커져서 사전학습의 한계에 다다른다면, 목적별 모델이 더 많아질 수도 있음
GPT‑3.5가 체스에 강했는데 최근 모델들은 그렇지 않은 걸 보면, 학습 데이터의 트레이드오프가 있는 듯함
현재는 범용 대형 모델이 거의 모든 면에서 더 뛰어남
작은 모델을 특정 작업용으로 파인튜닝하는 건 비용이 크고, 대형 모델 발전 속도가 너무 빨라 금세 뒤처짐
하지만 발전 속도가 느려지면 소형 모델 훈련이 다시 의미를 가질 것임
체스에 강한 LLM의 벤치마크를 보고 싶음
예전부터 SvelteKit 같은 특정 프레임워크만 잘 아는 4B~8B 모델이 있으면 좋겠다고 생각했음
대형 모델의 품질이 항상 더 낫다고 보긴 어렵고, 작은 모델이 GPU 한 장으로 돌아간다면 훨씬 실용적일 것 같음
예전에 형에게 체스 LLM 비교 웹사이트 아이디어를 제안했는데, 아직 구현되지 않았음
MoE 구조의 핵심이 바로 이거 아님?
필요한 부분만 개별적으로 학습하고 개선할 수 있다는 점이 장점임
이런 딥 리서치 도구가 실제로 유용한지 궁금함
내 경험상 검색엔진 요약 수준을 넘지 못하고 밋밋한 보고서만 생성함
영국에서 작은 웹사이트를 운영하며 법률 준수용으로 써봤는데, 맥락을 넣으면 꽤 맞춤형 결과를 줌
변호사 수준은 아니지만, 예산이 없는 프로젝트엔 큰 도움이 됨
나도 비슷한 경험임
실제로 배우려는 사람보다는 ‘품질 있어 보이게’ 쓰는 컨설팅 보고서 느낌이라 실질적 가치는 낮음
보고서는 밋밋하지만 자료 출처 탐색에는 유용함
“이 주제가 이미 연구된 적이 있나?” 같은 질문에 참고할 예시를 찾아주는 데 도움됨
ChatGPT를 자주 쓰는데, 질문을 던지면 관련 소스 정리를 잘 해줌
직접 리서치를 완전히 대체하진 않지만, 초기 정보 정리에 큰 도움이 됨
검색엔진 수준의 요약이라도 새로운 아이디어나 unknown unknowns를 찾는 데 충분히 쓸 만함
예전에 만든 Qwen3 4B distill 모델과 합성 데이터셋을 Hugging Face에 공개했음
브라우저에서 바로 써볼 수 있는 Hugging Face Space를 만들어줬으면 함
Qwen3 4B는 내 인텔 내장 GPU에서도 잘 돌아가서 인상 깊었음
예전에 ‘유해 콘텐츠 감지용 초저가 모델’ 아이디어를 생각했는데, 이런 소형 LLM이 그 역할을 할 수 있을 듯함
또 라우팅용으로도 써볼 수 있을 것 같음
내 웹 검색 MCP로 돌려봤는데, 이렇게 작은 모델에서 이런 딥 리서치 품질은 처음 봤음
전체적으로 흥미로운 시리즈임
다만 CSS 속성 word-break: break-word; 때문에 읽기가 너무 힘듦
나도 읽으려 해봤는데 단어 연결이 안 되는 느낌임
일요일 아침, 엔지니어 취미로 자가 호스팅하려면 어떻게 해야 할지 궁금함
2080Ti에 128GB VRAM(?)으로 느리게라도 돌려보고 싶음
제약이 오히려 재미라고 생각함
저렴하게 VRAM을 확보하려면 AMD MI50이 괜찮음
32GB 버전을 알리익스프레스에서 150~250달러에 구할 수 있고, 여러 장 묶으면 128GB VRAM 구성이 가능함
최신 GPU만큼 빠르진 않지만 충분히 쓸 만함
빠르게 로컬에서 돌려보고 싶다면 Ollama 앱이 가장 간단함 ollama.com에서 설치 가능함
그런데 2080Ti에 128GB VRAM이라면 그 방법이 궁금함
나는 MacBook Pro 128GB 통합 메모리로 모델을 돌림
속도는 느리지만 오프라인에서도 잘 작동하고, 커피숍에서도 쓸 수 있음
Ollama를 이용하므로 최신 모델은 포팅될 때까지 기다려야 함
예산 한정으로 조립한 내 세팅은 다음과 같음
Ryzen 9 9950X, 96GB RAM, RTX 3090 두 장, 1600W PSU
FP8 양자화된 30B 모델을 무난히 돌릴 수 있음
아마 VRAM이 아니라 RAM을 말한 듯함
이 모델은 30B MoE지만 활성 파라미터는 3B 정도라 Qwen3 MoE와 비슷함
나는 11년 된 i5‑6600과 Radeon 6600(8GB)으로 4bit 양자화 모델을 돌리며 16k 컨텍스트에서 약 12tps 정도 나옴 실행 스크립트 예시도 공유함
실제로는 중국어 이름이 通义千问(Tongyi Qianwen) 으로, “모든 질문을 아는”이라는 뜻임
“同意(동의)”와 발음이 같지만 의미는 다름 Alibaba Qwen 공식 페이지 참고
이 모델은 한 달 전에 이미 가중치가 공개된 것임
그래도 모든 사람이 실시간으로 따라가는 건 아니니, 한 달 된 모델이라도 여전히 쓸모 있음
그렇다면 다른 모델과 성능 비교는 어떤지 궁금함
OpenAI의 “Deep research”는 특정 모델이 아니라 기능적 패턴에 가까움
GPT‑5, GPT‑4o, o3 등 어떤 모델을 쓰느냐에 따라 결과가 달라짐
지금은 OpenAI, Perplexity, Google Gemini, Anthropic, Grok 등 거의 모든 곳이 비슷한 리서치 패턴을 제공함
검색 기반의 장기 실행 태스크로, 5~10분 동안 자료를 모아 인용 포함 보고서를 생성함
Tongyi 모델은 이런 루프형 검색·보고서 작성에 특화되어 있음
Hacker News 의견
여러 개의 에이전트를 병렬로 돌려 탐색·추출은 가벼운 모델이, 계획·도구 라우팅·검증은 30B 모델이 맡는 구조가 효율적임
MoE의 전문화 구조가 분산형 에이전트 AI에 잘 맞지만, 재시도·합의·다단계 웹 리서치 평가를 위한 오케스트레이션이 필요함
대형 모델이 너무 커져서 사전학습의 한계에 다다른다면, 목적별 모델이 더 많아질 수도 있음
GPT‑3.5가 체스에 강했는데 최근 모델들은 그렇지 않은 걸 보면, 학습 데이터의 트레이드오프가 있는 듯함
작은 모델을 특정 작업용으로 파인튜닝하는 건 비용이 크고, 대형 모델 발전 속도가 너무 빨라 금세 뒤처짐
하지만 발전 속도가 느려지면 소형 모델 훈련이 다시 의미를 가질 것임
예전부터 SvelteKit 같은 특정 프레임워크만 잘 아는 4B~8B 모델이 있으면 좋겠다고 생각했음
대형 모델의 품질이 항상 더 낫다고 보긴 어렵고, 작은 모델이 GPU 한 장으로 돌아간다면 훨씬 실용적일 것 같음
예전에 형에게 체스 LLM 비교 웹사이트 아이디어를 제안했는데, 아직 구현되지 않았음
실제로 해보니 환각 수가 많았음
필요한 부분만 개별적으로 학습하고 개선할 수 있다는 점이 장점임
내 경험상 검색엔진 요약 수준을 넘지 못하고 밋밋한 보고서만 생성함
변호사 수준은 아니지만, 예산이 없는 프로젝트엔 큰 도움이 됨
실제로 배우려는 사람보다는 ‘품질 있어 보이게’ 쓰는 컨설팅 보고서 느낌이라 실질적 가치는 낮음
“이 주제가 이미 연구된 적이 있나?” 같은 질문에 참고할 예시를 찾아주는 데 도움됨
직접 리서치를 완전히 대체하진 않지만, 초기 정보 정리에 큰 도움이 됨
Qwen3 4B는 내 인텔 내장 GPU에서도 잘 돌아가서 인상 깊었음
예전에 ‘유해 콘텐츠 감지용 초저가 모델’ 아이디어를 생각했는데, 이런 소형 LLM이 그 역할을 할 수 있을 듯함
또 라우팅용으로도 써볼 수 있을 것 같음
다만 CSS 속성
word-break: break-word;때문에 읽기가 너무 힘듦2080Ti에 128GB VRAM(?)으로 느리게라도 돌려보고 싶음
제약이 오히려 재미라고 생각함
32GB 버전을 알리익스프레스에서 150~250달러에 구할 수 있고, 여러 장 묶으면 128GB VRAM 구성이 가능함
최신 GPU만큼 빠르진 않지만 충분히 쓸 만함
ollama.com에서 설치 가능함
그런데 2080Ti에 128GB VRAM이라면 그 방법이 궁금함
속도는 느리지만 오프라인에서도 잘 작동하고, 커피숍에서도 쓸 수 있음
Ollama를 이용하므로 최신 모델은 포팅될 때까지 기다려야 함
Ryzen 9 9950X, 96GB RAM, RTX 3090 두 장, 1600W PSU
FP8 양자화된 30B 모델을 무난히 돌릴 수 있음
이 모델은 30B MoE지만 활성 파라미터는 3B 정도라 Qwen3 MoE와 비슷함
나는 11년 된 i5‑6600과 Radeon 6600(8GB)으로 4bit 양자화 모델을 돌리며 16k 컨텍스트에서 약 12tps 정도 나옴
실행 스크립트 예시도 공유함
openrouter.ai/alibaba/tongyi-deepresearch-30b-a3b
“同意(동의)”와 발음이 같지만 의미는 다름
Alibaba Qwen 공식 페이지 참고
GPT‑5, GPT‑4o, o3 등 어떤 모델을 쓰느냐에 따라 결과가 달라짐
검색 기반의 장기 실행 태스크로, 5~10분 동안 자료를 모아 인용 포함 보고서를 생성함
Tongyi 모델은 이런 루프형 검색·보고서 작성에 특화되어 있음