Step 3.5 Flash – 고속 추론을 지원하는 오픈소스 LLM

(static.stepfun.com)

20P by GN⁺ 5달전 | ★ favorite | 댓글 2개

1960억 매개변수 중 110억만 활성화하는 희소 Mixture of Experts 구조로, 고속 추론과 실시간 상호작용을 지원
초당 최대 350토큰의 생성 속도와 256K 컨텍스트 윈도우를 구현
SWE-bench Verified 74.4% 로 코딩·에이전트 벤치마크에서 안정적 성능을 보이며, 로컬 환경(Mac Studio M4 Max, NVIDIA DGX Spark) 에서도 실행 가능
도구 활용 기반 추론과 멀티에이전트 오케스트레이션을 통해 금융, 데이터 분석, 연구 자동화 등 실제 업무 시나리오에서 높은 신뢰성과 실행력을 입증함
강화학습 기반의 MIS-PO 최적화 기법으로 장기 추론 안정성을 확보하며, 고성능 모델 대비 낮은 비용으로 프론티어급 추론·행동 능력을 제공함

모델 개요 및 성능

Step 3.5 Flash는 고속 추론과 에이전트 기능을 결합한 오픈소스 기반 foundation model로, 평균 벤치마크 점수 81.0을 기록
- GLM-4.7(78.5), DeepSeek V3.2(77.3), Kimi K2.5(80.5) 등 주요 모델보다 높은 평균 점수
희소 MoE 구조로 196B 중 11B 파라미터만 활성화, 효율적 연산으로 실시간 대응 가능
MTP-3 기반으로 일반 사용 시 100~300 tok/s, 코딩 작업 시 최대 350 tok/s 생성 속도 달성
SWE-bench Verified 74.4% , Terminal-Bench 2.0 51.0% 로 장기적 코드·에이전트 작업에서 안정적 성능 확보
256K 컨텍스트 윈도우를 3:1 SWA 구조로 구현, 긴 문맥에서도 비용 효율 유지

실제 활용 사례 및 도구 활용

도구 기반 추론(tool-augmented reasoning) 을 통해 수학·코딩·데이터 분석 등에서 성능 향상
- Python 실행 통합 시 AIME 2025(99.8), HMMT 2025(98.0), IMOAnswerBench(86.7) 등에서 향상된 점수 기록
주식 투자 시나리오에서 80개 이상 MCP 도구를 조합해 데이터 수집·분석·알림 자동화 수행
Autonomous Business Intelligence Engine은 CSV 처리부터 예측까지 자동화, 데이터 품질 격차(1.6배) 식별
Large-Scale Repository Architect는 대규모 코드베이스를 분석해 설계 패턴과 구현 세부를 연결하는 전문 위키 생성

연구 및 에이전트 성능

ResearchRubrics 벤치마크에서 65.3%로 Gemini DeepResearch(63.7), OpenAI DeepResearch(60.7)보다 높은 점수
- 단일 ReAct 기반 루프에서 계획·검색·검증·작성 과정을 수행
Claude Code 환경에서 데이터 분석 벤치마크 39.6% 달성, GPT-5.2(39.3)보다 근소하게 우위
Multi-Agent Framework를 통해 Master Agent가 검색·검증·요약 에이전트를 조율, 구조화된 결과 생성
Cloud-Device Synergy로 Step-GUI와 연동 시 AndroidDaily Hard 벤치마크에서 57점(단독 40점 대비) 기록

아키텍처 및 기술적 특징

Sparse MoE 백본으로 글로벌 용량(196B)과 토큰당 연산(11B)을 분리, 추론 비용과 속도 최적화
Sliding-Window Attention + Full Attention(3:1) 구조로 긴 문맥 처리 시 효율 유지
Head-wise Gated Attention으로 정보 흐름을 동적으로 제어, 수치 안정성 확보
350 tok/s의 디코딩 처리량을 NVIDIA Hopper GPU에서 달성
INT4 GGUF 양자화 모델을 통해 로컬 추론(20 tok/s, 256K 컨텍스트) 지원

강화학습 프레임워크

Metropolis Independence Sampling Filtered Policy Optimization(MIS-PO) 도입
- 중요도 샘플링 대신 이진 필터링으로 불안정한 샘플 제거
- truncation-aware value bootstrapping과 routing confidence monitoring으로 장기 추론 안정화
이 구조는 수학·코딩·도구 활용 전반에서 지속적 자기개선을 가능하게 함

벤치마크 비교

Step 3.5 Flash는 Reasoning, Coding, Agentic 세 영역에서 균형 잡힌 상위권 성능
- AIME 2025: 97.3 / HMMT 2025: 98.4 / LiveCodeBench-V6: 86.4
- τ²-Bench: 88.2 / BrowseComp-ZH: 66.9 / ResearchRubrics: 65.3
디코딩 비용은 128K 컨텍스트 기준 1.0x로, DeepSeek V3.2(6.0x), Kimi K2.5(18.9x)보다 효율적

한계 및 향후 방향

토큰 효율성: Gemini 3.0 Pro 대비 동일 품질에 더 긴 생성 필요
전문성 통합: 범용성과 전문성의 효율적 결합을 위한 on-policy distillation 연구 진행 중
에이전트형 RL 확장: 전문 업무·연구 수준의 복잡한 작업으로 RL 적용 확대 예정
운영 안정성: 장기 대화나 도메인 전환 시 반복 추론·혼합 언어 출력 가능성 존재

배포 및 접근성

OpenClaw 플랫폼과 통합되어 간단한 설치 및 모델 등록으로 사용 가능
API 플랫폼(영문/중문), 웹·모바일 앱(iOS/Android) 을 통해 접근 가능
Discord 커뮤니티를 통해 업데이트 및 지원 제공

GeekNews Weekly에 포함된 글입니다. 에디터 코멘트 보기

sftblw 5달전 [-]

이 모델 좀 치네요
여건이 되셔서 llama.cpp 로 돌려보실 분들은 아래 글타래의 댓글에 있는 프롬프트를 따로 적용해주셔야 합니다. 아니면 여는 <think> 없이 중간에 </think> 하나만 달랑 나오는 문제가 있습니다.
https://huggingface.co/stepfun-ai/Step-3.5-Flash-GGUF-Q4_K_S/…

llama-server \  
  옵션생략 \  
  --jinja \  
  --chat-template-file 경로/step3p5_flash_chat_template.jinja

답변달기

GN⁺ 5달전 [-]

Hacker News 의견들

최근 몇 달 사이 나온 LLM 중 가장 저평가된 릴리스 중 하나라고 생각함
로컬에서 4-bit quant 버전(Step-3.5-Flash-GGUF)으로 테스트했는데, Minimax 2.5나 GLM-4.7보다도 뛰어났음 (GLM은 2-bit만 가능했음)
주요 특징은 다음과 같음
- 컨텍스트 효율성이 매우 높음. 128GB Mac에서 256k 컨텍스트 전체 또는 128k 두 스트림을 동시에 실행 가능함
- M1 Ultra에서 속도도 좋음 (36 t/s tg, 300 t/s pp)이며, 컨텍스트가 커져도 속도 저하가 완만함
- agentic coding에 최적화되어 있고, Claude 코드와 호환되도록 훈련된 듯함. Codex만 패치 편집 도구 문제로 예외임
  200B 파라미터급 모델 중 CLI 하네스에서 실제로 쓸만한 첫 로컬 모델임. pi.dev와 함께 쓰는 중인데 최고의 경험이었음
  단점으로는 무한 추론 루프 버그가 있음 (관련 이슈)
  StepFun이 ACEStep(음악 생성 모델)도 만든 회사로 보이며, ComfyUI 문서에도 언급되어 있음
- Qwen3 Coder Next를 OpenCode와 함께 테스트해봤는데 꽤 잘 작동했음
  가끔 도구 호출을 잘못하지만, Qwen이 제안한 temperature=1 설정에서는 멈추지 않음
  Nemotron 3 Nano는 도구 사용이 부족해서 대부분 shell tool만 쓰는 경향이 있었음
  전반적으로 agentic open weight 모델들이 익숙하지 않은 도구를 잘 호출하지 않는 경향이 있음
- M3 Ultra(512GB RAM)로 OSS 모델을 돌리는 게 Claude나 Codex 구독보다 경제적일지 궁금함
  이런 계산을 해본 사람이 있는지 묻고 싶음
- 무한 추론 루프 문제를 추론 엔진 변경으로 해결할 수 있을지 궁금함
  내 생각엔 모델 가중치 자체를 수정해야 하는 문제 같음
- MLX 버전으로 돌려봤는지 궁금함. 이론상 더 빠르겠지만 여러 버전을 받는 게 망설여짐
- gpt-oss 120b나 20b도 Codex와 잘 작동했음
최근 “Walk or drive to the carwash” 트릭의 추론 과정(reasoning) 을 흥미롭게 읽었음
관련 링크: gist, stepfun.ai 대화
Terminal-Bench 2.0에서 51.0% 점수를 받았다고 하는데, 그게 정말 ‘안정적인 장기 작업 처리 능력’을 보장하는지는 의문임
- 51%라는 수치만으로는 의미가 크지 않음. 이런 벤치마크는 절대 점수 기준이라 100%가 인간 수준을 의미하지 않음
  리더보드를 보면 최고 점수가 75%라서 51%는 SOTA의 약 ⅔ 수준임
- 그 점수는 Gemini 3 Flash와 비슷하지만, 실제로는 모델보다 에이전트 구성이 점수에 더 큰 영향을 주는 듯함
- TerminalBench는 이름과 달리 터미널과 거의 관련이 없고, 대부분 랜덤 도구 문법 테스트에 가까움
  모델이 단순히 명령어 플래그를 암기했을 수도 있음
테스트해보니 환각(hallucination) 이 심했음. “포켓몬 챔피언 덱 찾아줘” 같은 간단한 질문에서도 부정확했음
Opus 4.6, Deepseek, Kimi는 예상대로 잘 작동했음
- 실행용으로는 중간 크기 모델을 쓰는 게 낫다고 생각함
- Gemini 같은 모델은 검색 기능을 적극 활용하기 때문에 더 빠르고 정확했을 가능성이 있음
최근 공개된 모델로, Mixture of Experts (MoE) 구조를 사용해 토큰당 196B 중 11B만 활성화함
Kimi K2.5와 GLM 4.7보다 더 많은 벤치마크에서 우세함
128GB 머신에서도 4-bit quant 버전으로 실행 가능 (참고 링크)
- 벤치마크 우위가 실제로 의미 있는지 의문임. 나는 지시 따르기, 긴 문맥 추론, 비환각성을 더 중요하게 봄
- Q4_K_S(116GB), IQ4_NL(112GB), Q4_0(113GB) 중 어떤 게 더 나은지 궁금함
  모델 페이지 참고
최근 모델들이 벤치마크 점수는 높지만 토큰 사용량 폭증이 동반됨
진정한 혁신을 위해선 전력 효율성 문제를 해결해야 함
- 단순히 토큰 수뿐 아니라 토큰당 에너지 효율(tokens/joule) 도 중요함
  MoE 구조의 효율적 사용이 tokens/joule과 tokens/sec 모두에 영향을 줌
SWE-bench Verified는 괜찮지만, 더 나은 SWE 벤치마크가 필요함
공정한 벤치마크를 만들려면 지속적인 실행 비용이 많이 듦
“라이브 벤치마크” 개념은 좋지만 최신 모델을 충분히 반영하지 못함
- Terminal Bench 3.0 개발에 참여해달라는 제안이 있었음
  문서 링크
파라미터 수보다는 tokens per dollar/sec가 더 중요한 지표라고 생각함
상위 모델들은 로컬 추론을 지원하지 않기 때문임
- 오픈소스 모델이라면 셀프 호스팅을 고려하는 사람에게는 파라미터 수도 중요함
- 파라미터 수는 여전히 모델 성능의 대략적 지표임
  예를 들어 Qwen3 0.6b는 tok/dollar는 훌륭하지만 대부분의 용도에는 부족함
- 이 모델은 $3,000 이하의 머신에서도 로컬 실행이 가능하다는 점에서 의미 있음
간단한 테스트에서 몇 가지 관찰을 했음
1. 출력 trace가 매우 장황하고 LinkedIn 스타일처럼 문단이 짧았음
2. 호스팅 버전의 토큰 출력 속도가 매우 높았음
3. 지시 준수도와 출력 품질이 Opus 4.5 등 주요 모델보다 우수했음
그래프의 x축이 반전되어 있어서 헷갈렸음
- 나도 같은 생각임. 왜 그렇게 했는지 모르겠음
- 아마 그래프를 더 좋아 보이게 하려던 것 같지만, 실제로는 그렇지 않음