1P by GN⁺ 2일전 | ★ favorite | 댓글 1개
  • Qwen3-Next는 대규모 모델의 미래 추세인 맥락 길이 확대전체 매개변수 확대를 지원하기 위해 개발된 새로운 모델 아키텍처로, 훈련과 추론 효율성을 극대화하는 기능을 제공
  • 하이브리드 어텐션 메커니즘고도로 희소한 MoE 구조를 도입하여 장맥락과 대형 매개변수 설정에서 성능을 향상시킴
  • 훈련 안정성 최적화멀티 토큰 예측 메커니즘을 통해 추론 속도를 가속화
  • Qwen3-Next-80B-A3B-Base 모델은 훈련 비용을 10% 미만으로 줄이면서 Qwen3-32B 모델과 동등하거나 우수한 성능을 달성
  • 이 모델의 출시는 오픈소스 커뮤니티에 첨단 아키텍처 발전을 제공하며, Qwen3.5 개발로 이어지는 지능과 생산성 향상 기반 마련

서론

  • 미래 대규모 모델의 주요 추세인 맥락 길이 확대전체 매개변수 확대를 믿고, 장맥락과 대형 매개변수 설정에서 훈련 및 추론 효율성을 높이기 위해 Qwen3-Next라는 새로운 모델 아키텍처를 설계
  • Qwen3의 MoE 구조와 비교하여 하이브리드 어텐션 메커니즘, 고도로 희소한 MoE 구조, 훈련 안정성 최적화, 그리고 더 빠른 추론을 위한 멀티 토큰 예측 메커니즘 등 여러 핵심 개선을 도입
  • 이 아키텍처를 기반으로 Qwen3-Next-80B-A3B-Base 모델을 훈련하였으며, 이는 80억 매개변수 모델로 추론 시 30억 매개변수만 활성화
  • 이 베이스 모델은 dense형 Qwen3-32B 모델과 동등하거나 약간 우수한 성능을 달성하면서 훈련 비용(GPU 시간)을 10% 미만으로 사용
  • 특히 32K 토큰 이상의 맥락 길이에서 10배 이상 높은 처리량을 제공하여 훈련과 추론에서 극한 효율성 달성
  • Qwen3-Next-80B-A3B-Base를 기반으로 두 개의 사후 훈련 버전인 Qwen3-Next-80B-A3B-Instruct와 Qwen3-Next-80B-A3B-Thinking을 개발 및 출시
  • 하이브리드 어텐션과 고희소 MoE 아키텍처로 인한 강화 학습(RL) 훈련의 오랜 안정성과 효율성 문제를 해결하여 RL 훈련 속도와 최종 성능을 모두 개선
  • Qwen3-Next-80B-A3B-Instruct는 플래그십 모델 Qwen3-235B-A22B-Instruct-2507과 동등한 성능을 보이며, 최대 256K 토큰의 초장맥락 작업에서 뚜렷한 우위를 나타냄
  • Qwen3-Next-80B-A3B-Thinking은 복잡한 추론 작업에서 탁월하며, 더 높은 비용의 모델인 Qwen3-30B-A3B-Thinking-2507과 Qwen3-32B-Thinking을 능가하고, 폐쇄 소스 Gemini-2.5-Flash-Thinking을 여러 벤치마크에서 초월하며, 최상위 모델 Qwen3-235B-A22B-Thinking-2507의 성능에 근접
  • Qwen3-Next를 Hugging Face와 ModelScope에 이미 출시하였으며, 누구나 Alibaba Cloud Model Studio와 NVIDIA API Catalog를 통해 Qwen3-Next 서비스 이용 가능

주요 기능

  • 하이브리드 아키텍처: Gated DeltaNet + Gated Attention으로 선형 어텐션이 표준 어텐션의 이차 복잡성을 깨고 장맥락에서 더 효율적임을 활용
    • 선형 어텐션은 빠르지만 리콜이 약하고, 표준 어텐션은 비용이 크고 느림을 발견하여 체계적 실험을 통해 Gated DeltaNet이 Sliding Window Attention이나 Mamba2 같은 일반 방법보다 강력한 인맥락 학습 능력을 제공함을 확인
    • Gated DeltaNet을 표준 어텐션과 3:1 비율로 혼합(75% 레이어는 Gated DeltaNet 사용, 25%는 표준 어텐션 유지)하여 단일 아키텍처보다 일관되게 우수한 성능과 효율성 달성
    • 표준 어텐션 레이어에서 출력 게이팅 메커니즘을 채택하여 어텐션의 저랭크 문제를 줄이고, 어텐션 헤드당 차원을 128에서 256으로 증가
    • 로터리 위치 인코딩을 위치 차원의 첫 25%에만 적용하여 더 긴 시퀀스로의 외삽을 개선
  • 초희소 MoE: 매개변수 3.7%만 활성화로 Qwen3-Next는 80B 전체 매개변수 중 추론 단계당 약 3B만 활성화하는 고희소 MoE 설계 채택
    • 실험에서 글로벌 로드 밸런싱을 통해 활성화 전문가를 고정하면서 전체 전문가 매개변수를 증가시킬수록 훈련 손실이 꾸준히 감소함을 보여줌
    • Qwen3의 MoE(전체 128 전문가, 8 라우팅)와 비교하여 Qwen3-Next는 전체 512 전문가로 확장하고, 10 라우팅 전문가 + 1 공유 전문가를 결합하여 자원 사용을 최대화하면서 성능을 저하시키지 않음
  • 훈련 안정성 친화적 설계로 어텐션 출력 게이팅 메커니즘이 Attention Sink와 Massive Activation 같은 문제를 제거하여 모델 전체의 수치 안정성 보장
    • Qwen3에서 사용한 QK-Norm에서 일부 레이어 노름 가중치가 비정상적으로 커지는 문제를 발견하여, Qwen3-Next는 Zero-Centered RMSNorm을 채택하고 노름 가중치에 가중치 감쇠를 적용하여 무한 성장 방지
    • MoE 라우터 매개변수를 초기화 중에 정규화하여 훈련 초기에 각 전문가가 편향 없이 선택되도록 하여 랜덤 초기화로 인한 노이즈 감소
    • 이러한 안정성 중심 설계는 소규모 실험을 더 신뢰할 수 있게 하고 대규모 훈련을 원활하게 실행
  • 멀티 토큰 예측으로 Qwen3-Next는 네이티브 멀티 토큰 예측(MTP) 메커니즘을 도입하여 추측적 디코딩을 위한 높은 수락률의 MTP 모듈을 생성할 뿐만 아니라 전체 성능도 향상
    • Qwen3-Next는 MTP의 다단계 추론 성능을 특별히 최적화하며, 훈련과 추론 간 일관성을 유지하는 다단계 훈련을 통해 실제 시나리오에서 추측적 디코딩의 수락률을 추가 개선

사전 훈련

  • 사전 훈련 효율성 및 추론 속도: Qwen3-Next는 Qwen3의 36T 토큰 사전 훈련 코퍼스 중 균일하게 샘플링된 하위 집합(15T 토큰)에서 훈련
    • Qwen3-30A-3B에 필요한 GPU 시간의 80% 미만을 사용하고, Qwen3-32B의 컴퓨팅 비용의 9.3%만 소비하면서 더 나은 성능을 달성하여 뛰어난 훈련 효율성과 가치 보여줌
    • 하이브리드 아키텍처 덕분에 추론에서도 탁월하며, 프리필 단계에서 4K 맥락 길이에서 Qwen3-32B보다 거의 7배 높은 처리량 제공
    • 32K 초과에서 10배 이상 빠름
    • 디코드 단계에서 4K 맥락에서 거의 4배 높은 처리량을 보이고, 32K 초과에서도 여전히 10배 이상 속도 우위 유지
  • 베이스 모델 성능: Qwen3-Next-80B-A3B-Base는 Qwen3-32B-Base의 비임베딩 매개변수 1/10만 활성화하면서 대부분의 벤치마크에서 이를 능가하고, Qwen3-30B-A3B를 크게 초월하여 예외적인 효율성과 강력한 성능 증명

사후 훈련

  • 인스트럭트 모델 성능: Qwen3-Next-80B-A3B-Instruct는 Qwen3-30B-A3B-Instruct-2507과 Qwen3-32B-Non-thinking을 크게 능가하고, 플래그십 Qwen3-235B-A22B-Instruct-2507과 거의 일치하는 결과 달성
    • RULER에서 Qwen3-Next-80B-A3B-Instruct는 더 많은 어텐션 레이어를 가진 Qwen3-30B-A3B-Instruct-2507을 모든 길이에서 능가하고, 전체 레이어가 더 많은 Qwen3-235B-A22B-Instruct-2507을 256K 맥락 내에서 초월하여 장맥락 작업을 위한 Gated DeltaNet + Gated Attention 하이브리드 설계의 강점 증명
  • Thinking 모델 성능: Qwen3-Next-80B-A3B-Thinking은 더 높은 비용의 모델인 Qwen3-30B-A3B-Thinking-2507과 Qwen3-32B-Thinking을 능가
    • 여러 벤치마크에서 폐쇄 소스 Gemini-2.5-Flash-Thinking을 초월하고, 주요 지표에서 최신 플래그십 모델 Qwen3-235B-A22B-Thinking-2507에 근접

Develop with Qwen3

  • Hugging Face Transformers로 Qwen3-Next 코드는 Hugging Face transformers의 메인 브랜치에 병합
    • 이전 버전에서는 오류가 발생할 수 있음
    • 주어진 입력에 기반한 모델 생성 내용을 예시하는 코드 스니펫 포함
    • 멀티 토큰 예측(MTP)은 Hugging Face Transformers에서 일반적으로 사용 가능하지 않음
    • 효율성이나 처리량 개선은 구현에 크게 의존
    • 추론 작업에는 SGLang과 vLLM 같은 전용 추론 프레임워크 채택 추천
    • flash-linear-attention과 causal-conv1d를 사용하면 추론 설정에 따라 더 나은 효율성 관찰 가능
    • 자세한 지침과 요구사항은 해당 링크 참조
    • 배포를 위해 최신 sglang이나 vllm을 사용하여 OpenAI 호환 API 엔드포인트 생성
  • SGLang 은 대형 언어 모델과 비전 언어 모델을 위한 빠른 서빙 프레임워크로, OpenAI 호환 API 서비스를 가진 서버를 시작할 수 있음
    • SGLang은 메인 브랜치에서 Qwen3-Next를 지원하며, 소스에서 설치 가능
    • 4 GPU에서 텐서 병렬을 사용하여 최대 맥락 길이 256K 토큰으로 http://localhost:30000/v1에서 API 엔드포인트 생성 명령 제공
    • MTP에 대한 권장 명령은 위와 동일한 나머지 설정으로 제공
    • 현재 SGLANG_ALLOW_OVERWRITE_LONGER_CONTEXT_LEN=1 환경 변수 필요
    • 기본 맥락 길이는 256K이며, 서버 시작 실패 시 32768 같은 작은 값으로 줄임 고려
  • vLLM 은 LLM을 위한 고처리량 및 메모리 효율적 추론 및 서빙 엔진으로, OpenAI 호환 API 서비스를 가진 서버를 시작할 수 있음
    • vLLM은 메인 브랜치에서 Qwen3-Next를 지원하며, 소스에서 설치 가능
    • 4 GPU에서 텐서 병렬을 사용하여 최대 맥락 길이 256K 토큰으로 http://localhost:8000/v1에서 API 엔드포인트 생성 명령 제공
    • MTP에 대한 권장 명령은 위와 동일한 나머지 설정으로 제공
    • 현재 VLLM_ALLOW_LONG_MAX_MODEL_LEN=1 환경 변수 필요
    • 기본 맥락 길이는 256K이며, 서버 시작 실패 시 32768 같은 작은 값으로 줄임 고려
  • Agentic 사용: Qwen3는 도구 호출 능력에서 탁월하며, Qwen-Agent를 사용하여 Qwen3의 에이전트 능력을 최대로 활용 추천
    • Qwen-Agent는 내부적으로 도구 호출 템플릿과 도구 호출 파서를 캡슐화하여 코딩 복잡성 크게 감소
    • 사용 가능한 도구를 정의하기 위해 MCP 설정 파일 사용, Qwen-Agent의 통합 도구 사용, 또는 자체 통합 도구 가능
  • 초장 텍스트 처리: Qwen3-Next는 최대 262,144 토큰의 맥락 길이를 네이티브 지원
    • 입력과 출력 포함 총 길이가 이 제한을 크게 초과하는 대화의 경우, YaRN 같은 RoPE 스케일링 기술을 사용하여 장문 텍스트 효과적 처리 추천
    • YaRN을 사용한 맥락 길이 최대 100만 토큰의 모델 성능 검증
    • YaRN은 transformers, vllm, sglang 같은 여러 추론 프레임워크에서 현재 지원
    • 지원 프레임워크에서 YaRN을 활성화하는 두 가지 접근법은 모델 파일 수정 또는 명령줄 인수 전달
    • config.json 파일에서 rope_scaling 필드 추가
    • vllm의 경우 명령줄 인수 사용
    • sglang의 경우 명령줄 인수 사용
    • 모든 주목할 만한 오픈소스 프레임워크는 정적 YaRN을 구현하여 입력 길이에 관계없이 스케일링 팩터가 일정하게 유지되며, 짧은 텍스트 성능에 잠재적 영향
    • 장맥락 처리 필요 시에만 rope_scaling 설정 추가 권장
    • factor를 필요에 따라 수정 추천하며, 예를 들어 애플리케이션의 일반 맥락 길이가 524,288 토큰이면 factor를 2.0으로 설정

요약

  • Qwen3-Next는 어텐션 메커니즘의 혁신을 도입한 선형 어텐션과 어텐션 게이트를 포함한 주요 모델 아키텍처 도약을 나타내며, MoE 설계에서 희소성 증가
  • Qwen3-Next-80B-A3B는 thinking과 non-thinking 모드 모두에서 더 큰 Qwen3-235B-A22B-2507과 동등한 성능을 제공하면서 롱컨텍스트 시나리오에서 상당히 빠른 추론 제공
  • 이 릴리스로 오픈소스 커뮤니티에 첨단 아키텍처 발전을 강화하여 최첨단 아키텍처 발전과 함께 진화하고자 함
Hacker News 의견
  • Qwen3-Next의 가장 멋진 부분은 linear attention 이후에 MTP(Multi-Token Prediction)를 도입하면서도 추가적 un-embedding matrix를 도입하지 않는 점임 Deepseek R1도 61번째 레이어에 MTP가 적용되어 있지만 embed_tokens와 shared_head.head라는 큰 텐서(약 2GB FP8 크기)가 추가되므로, Qwen3-Next가 훨씬 더 적은 활성 파라미터로 MTP를 처리해 GB 단위로 메모리를 절약하게 됨 이 덕분에 추론 속도가 크게 빨라짐
    • MTP가 추론 단계에서 실제로 어떤 이점을 주는지 궁금함, 단지 pretraining 효율성에만 관련된 것인지 알고 싶음
    • MTP와 Medusa heads의 차이점이 뭔지, 또 이 모델이 speculative decoding을 “네이티브”하게 지원하는지 궁금함 vllm에서 이 모델을 돌리면 이미 MTP가 적용되어 있어서 speculative decoding의 장점을 바로 누릴 수 있는지 알고 싶음
    • 이 모든 용어들에 대해 한 번에 알기 쉽게 설명해주는 자료가 있으면 알려주면 좋겠음
  • Alibaba가 정말 놀라운 모델을 계속 내놓는 중임 Qwen3-Next-80B-A3B를 Qwen chat에서 써봤는데 속도가 무척 빠르고, 품질 면에서도 Qwen3-235B-A22B와 비슷한 것 같음 어떻게 이 정도를 구현했는지 인상적임 벤치마크가 Artificial analysis에 올라오는 것도 기대 중임 Qwen Chat에 따르면 Qwen3-Next의 한계는 context length 최대 262,144 token, summary generation 최대 32,768 token임 Qwen3-235B-A22B 대비 context는 2배, summary는 4배임 긴 문맥 이해와 복잡한 과제 처리가 강점임 그래도 나는 Qwen2.5-Turbo를 계속 쓸 예정임 1M token context를 지원하는 몇 안 되는 모델이라서, 큰 PDF를 올려 놓고 챕터 간 질문하는 내 환경엔 더 적합함
    • Frontier 모델들에서 긴 context를 지원한다 해도 실제로는 context 길이가 길어질수록 정확도가 심하게 떨어지는 경우가 많은 것 같음 10M context를 지원한다고 해도 context를 최대로 채우면 제대로 동작하지 않는 것이 현실임 다른 사람들의 의견도 궁금함
    • 모델 카드를 좀 보면 Qwen3-Next 역시 YaRN을 써서 최대 1M context length까지 확장될 수 있음 공식 문구에 따르면, Qwen3-Next는 기본적으로 262,144 token까지 context 지원하며, 입력+출력 토큰의 총합이 이를 크게 넘을 때는 RoPE scaling이나 YaRN 방법을 통해 1M 토큰까지 처리 검증됨 출처
    • Alibaba의 독점 모델들도 성능이 정말 좋고 은근히 잘 알려지지 않음 벤치마크에도 거의 등장하지 않음 Qwen3-coder-plus가 오픈소스 qwen3보다 훨씬 좋고, Qwen3 max도 SOTA 모델과 겨룰 수준임
    • PDF 데이터를 Qwen에 넣기 전 어떻게 준비하는지 방법이 궁금함
  • llm 명령으로 Qwen3-Next-80B-A3B-Thinking로 “spongebob의 ASCII”를 요청했더니 아주 기본적인 모양만 나옴 Qwen3-Coder-480B-A35B-Instruct로는 훨씬 완성도 높은 Spongebob ASCII가 생성됨 밤에 여러 번 실험했을 땐 Qwen3-coder에서 다수의 ASCII가 다리 부분이 빠지는 등 마무리가 제대로 안 됐지만, 아침엔 같은 프롬프트로 한 번에 완벽하게 나옴 혹시 리소스(서버, API) 점유율이나 상태가 응답 품질에 영향을 주는지, 아니면 순전히 운의 문제인지 궁금했음 몇 분 뒤 다시 해보니 실패했으니 아마도 10번 중 1번 정도 챈스이고, Qwen3-next에선 거의 안 나오는 정도임
    • SpongeBob ASCII가 모델에 통째로 암기되어 있는 느낌임
    • Kimi K2와 Qwen Coder(혹은 다른 연관 모델) 사이에 distillation이나 학습 데이터 공유가 있다 생각함 대부분 LLM을 써봤지만 Kimi K2에서만 Qwen3-coder와 똑같은 SpongeBob ASCII가 나왔음 kimi K2 사용시에도 SpongeBob ASCII가 정확히 동일하게 생성됨
    • SpongeBob ASCII 테스트는 Qwen 공식 SNS에서 가져온 것으로, 사실상 주입된 암기력(rote-memorization) 측정용 probe임 규모가 큰 dense 모델이라면 파라미터 용량으로 통째로 외울 수 있으나, Qwen3의 sparse-MoE 구조에서는 expert 선택이나 토큰 샘플링 등 여러 노이즈가 추가되어 꼼꼼한 그림 alignment가 더 잘 깨질 수밖에 없음 또, gated-attention과 multi-token head 같은 새 구조까지 얹어져서 단 한 번의 불운한 expert routing만으로도 그림 배치가 틀어질 수 있음 그리고 Qwen3-coder는 이걸 특별히 학습해서 비교가 불공정해짐 Qwen3 계열 다른 모델들의 ASCII 결과도 비교해봄 상당히 각기 다르게 나옴
  • Qwen 덕분에 MoE가 정말 멀리 왔다는 사실이 놀라움 Qwen3-Next는 기존의 72B dense 모델을 확실히 능가하고, VRAM과 CPU를 잘 offload 하면 14B 모델보다도 빠르게 동작함 이 정도 효율성은 정말 대단함
    • Qwen 덕분에 LLM 발전이 이뤄지는 게 아니라, SOTA LLM은 GPT-4부터 이미 MoE임 HN이 트렌드에 너무 뒤처져서 AI 주제에서 쓸데없는 논평이 난무하게 된 점이 안타깝다는 생각임
    • 돌아보면 작년에 Meta가 dense 405B 모델을 훈련하는 데 엄청난 리소스를 쏟았던 것이 오히려 웃긴 일임 모델이 크기만 하고 실제 성능은 1/10 크기 모델보다도 떨어지고, 현실적으로 어떤 하드웨어에서도 도저히 쓸 만한 속도로 돌릴 수가 없음
  • Qwen3 Next를 Brokk Power Ranking 오픈라운드(코딩 벤치마크)에 추가함 성능상으론 GPT-OSS-20b와 비슷함 오픈 소스 모델 전체 성능 결과는 여기에서 확인할 수 있음
    • 여러 언어가 추가된다면 더 유용한 벤치마크가 될 것 같음 현재는 자바만 평가하는데, 실생활에서 나는 자바가 아니라 다른 언어를 주로 써서 벤치마크 결과와 실제 경험이 일치하지 않음
    • 등록된 Kimi K2가 최신 버전인지, 예전 Kimi k2인지 궁금함
  • Oracle이 이번 주에 데이터센터 수요가 급증할 것이라 전망하고 주가가 상승 중임 만약 LLM의 효율성 10배 향상이 사실이라면 Nvidia, Oracle, Coreweave 등에 대한 수요가 줄어들 수 있음
    • Jevons 파라독스 같은 경제 현상을 생각해봐야 할 듯함
    • Oracle 전망과 별개로, 효율성 향상이 곧바로 수요 감소로 이어지지는 않는다고 봄 Jevons 파라독스처럼, 오히려 효율이 늘면 더 많이 쓰게 될 가능성도 있음
    • deepseek-r1 관련해서도 같은 얘기가 나왔지만 현실은 변하지 않았음 만약 모델을 10배 더 효율적으로 만들면, 모두 그냥 10배 더 큰 모델을 훈련하려 들 거임 플레이어들이 어느 시점에서 “이 정도 크기면 됐다”고 멈추지 않을 것임 scaling이 성능에 계속 영향을 준다면 말임
    • 절대 그렇지 않음 시장 행태를 보면 항상 최고의 품질에 기꺼이 비용을 지불하고, 가격은 대체로 그대로임 새로운 모델이 출시되면 낮은 품질의(싼) 오래된 모델은 바로 외면당하고, 사람들은 같은 가격에 더 나은 모델만 찾음 이번에도 비슷하게 흘러갈 것임
    • 만약 AI 버블이 터져서 데이터센터와 GPU가 남아돈다면, 이를 노리고 투자 이득을 활용할 방법이 뭐가 있을지 궁금함
  • Gated Delta Network가 궁금하다면 여기 논문 참고 arxiv 링크
    • Gated Attention에 대한 논문은 여기에서 참고할 수 있음
  • Qwen3-Next가 꽤 인상적인데, 더 좋은 아키텍처가 앞으로의 혁신을 이끈다고 생각함 GPT OSS 120B처럼 100B 넘는 파라미터가 꼭 필요한 것도 아니라는 느낌임
    • 확실히 파라미터는 더 많을수록 좋음 파라미터가 낮은 모델은 환각(hallucination)이 잦음 다만, 액티브 파라미터가 적고 routing만 좋으면 괜찮을 수도 있음
    • 새로운 아키텍처가 멋지고, 오픈에 바로 공개되는 것도 신기함 다만 Qwen계열 모델은 오버핏이 심한 편임 특정 작업만 잘 하는 경우가 많고, 폐쇄형 모델보다 일반화에는 한계가 큼 단지 스케일의 문제인지, 아니면 학습 레시피/방법 차이까지 원인을 잘 모르겠음 OOD(out-of-distribution)로 테스트해보면 가치가 급격히 떨어지고, 폐쇄형 모델들은 여전히 강점을 보임
  • 예측: AI가 앞으로 4년 내 현 SOTA 모델보다 15 IQ 포인트 더 높은 수준(맥락 길이도 훨씬 길어진 상태)에서 범용 재화처럼 누구나 쉽게 접근할 수 있게 될 것임 그 시점에서 synthetic data 학습에 대한 개선이 한계에 다다르면(“실제(real) 데이터”는 이미 다 소진된 뒤), 대형 자본 모델의 출력물을 활용해 저렴하게 오픈소스 모델이 훈련될 것임 그 후에는 competitive reinforcement learning으로 범용 지능(AI) 훈련하는 방법이 나오기 전까지 AI 발전이 정체될 것임 (알파고가 그렇게 훈련된 것처럼) 이 방식이 등장하면, 더 이상 방대한 학습 데이터가 필요 없게 되고, 진짜 AGI(범용 인공지능)가 나오게 될 것으로 봄
    • “실제 데이터”를 다 썼다는 걸 이해 못 하겠음 인터넷에 매일 새로운 지식, 과학 논문, 영상이 쏟아지는데 어떻게 데이터가 고갈된다는 것인지 의문임
    • 만약 현재 최첨단 모델이 인간 IQ 기준 120점 수준(정확한지는 모르지만 여기 기준 그렇다 치면), 앞으로 135 IQ 수준의 초몰입형 봇이 대량 등장하게 될 거임 그 상황이 실제로 어떤 의미일지 상상조차 어려움
  • 80B 모델이긴 하지만, 요즘 난 MacBook Pro(M4, 64GB)에 편하게 돌아가는 32B 이하 모델을 눈여겨보고 있음 ollama를 매일 스팸 필터링용으로 쓰는데, gemma3:27b가 훌륭하고 gpt-oss:20b는 속도까지 빨라서 자주 씀
    • Ollama로 스팸 필터링을 어떻게 활용하고 있는지 자세히 설명해주면 좋겠음
    • 모델의 전체 파라미터는 80B지만 인퍼런스 때 활성되는 건 3B 정도임 8GB 짜리 Nvidia 카드에서도 예전 2507 Qwen3 30B를 잘 돌리고 있음
    • MoE 구조라서 아주 잘 돌아갈 것임