1P by GN⁺ 3일전 | ★ favorite | 댓글 1개
  • CerebrasQwen3-235B AI 모델을 공개하며, 초당 1,500 토큰 생성으로 즉각적 추론 성능 제공
  • 기존 폐쇄형 모델 대비 1/10 비용에 30배 빠른 생산성 및 코드 생성 가능
  • 131K 컨텍스트 지원으로 대규모 코드베이스 및 복잡한 문서 처리 실현
  • Cline과 협력해 Microsoft VS Code 내 실시간 코드 생성 경험 확대
  • 이번 출시로 오픈소스 기반의 OpenAI, Anthropic 대안으로 고성능 합리적 비용 실현

Qwen3-235B: Cerebras의 초고속 AI 추론 모델 출시 및 주요 성과

세계 최고 속도 AI 추론 모델, Cerebras Inference Cloud에서 공개

  • Cerebras Systems가 2025년 7월 8일, Qwen3-235B를 정식 론칭하며, 131K 컨텍스트까지 전폭 지원하는 새로운 AI 추론 모델 공개
  • 본 모델은 폐쇄형 대안 대비 1/10 수준의 비용으로 프론티어급 인공지능 능력과 초고속 추론 성능을 결합해 기업 AI 도입에 변혁을 제시함

프론티어 모델 수준의 지능

  • Alibaba의 Qwen3-235B는, Claude 4 Sonnet, Gemini 2.5 Flash, DeepSeek R1 등 최첨단 경쟁 모델과 대등한 과학, 코드, 일반 지식 벤치마크 성능을 Artificial Analysis 독립 평가로 입증함
  • Mixture-of-Experts 구조로 연산 효율을 극대화, 백만 입력 토큰당 0.60달러, 백만 출력 토큰당 1.20달러로 제공되어, 기존 폐쇄형 모델 대비 극히 저렴한 이용 가능

추론 속도: 분에서 초로 혁신

  • 전통적 추론 AI는 일반적인 질의에도 수 분이 소요되는 경우가 많음
  • Wafer Scale Engine을 활용해 Qwen3-235B는 초당 1,500 토큰의 출력을 달성, 질의 응답 시간을 1~2분에서 0.6초로 단축함
  • 이로써 코드 생성, 추론, 대규모 RAG 워크플로우가 즉각적 반응 실현, 실시간 AI 성능의 새로운 기준 확립
  • Artificial Analysis 측정 결과, 글로벌 유일의 초당 1,000 토큰 이상 생성 프론티어 AI 모델로 평가됨

131K 컨텍스트: 실제 환경 코드 생성 지원

  • Qwen3-235B 출시에 맞춰, Cerebras는 기존 32K 컨텍스트에서 131K까지 4배 확대 지원
  • 이는 대규모 코드베이스, 복잡한 문서도 한 번에 추론 가능케 하며, 수십 개 파일/수만 라인 동시 코드 생성으로 생산 환경용 개발 가능성 대폭 증대
  • 기존 32K 컨텍스트로는 간단한 코드 생성만 가능했으나, 131K 컨텍스트는 대형 애플리케이션 개발도 직접 지원함
  • 이를 통해 기업용 코드 생성 시장이라는 생성형 AI의 최대, 가장 빠르게 성장 중인 분야에 직접 대응 가능해짐

Cline과의 전략적 제휴로 VS Code 통합 경험 강화

  • Cerebras는 180만 이상 설치된 최대 VS Code 코딩 에이전트 Cline과 파트너십 체결
  • 모든 Cline 사용자는 Qwen3-32B(64K 컨텍스트, 무료)를 편집기에서 직접 활용 가능, 이후 Qwen3-235B(131K 컨텍스트)도 지원 예정
  • DeepSeek R1 등 경쟁사 대비 10~20배 빠른 코드 생성 속도 제공 예정
  • Cline의 CEO Saoud Rizwan은 “실시간 추론 덕분에 개발자가 코드, 문제를 탐색하며 사고의 속도와 동일하게 작업 흐름을 유지할 수 있음”이라고 강조함

30배 속도·1/10 비용 프론티어 AI 대안 제공

  • Cerebras의 이번 출시는, OpenAI·Anthropic 등 상용 모델과 유사한 수준의 오픈 기반 모델 지능 및 코드 생성을 원하는 개발자들에게 새로운 선택지 제공
  • 특히, 초당 1,500 토큰 이상의 즉각적 추론 속도를 전세계 유일하게 구현, GPU 기반 대비 생산성 10배 향상
  • 토큰 비용 또한 경쟁사 대비 1/10 이하로, 합리적 비용에 초고속 AI를 제공함

Cerebras Systems 소개

  • Cerebras Systems는 컴퓨터 건축, 딥러닝, 리서치, 엔지니어링 전문가 팀으로, AI 대규모 컴퓨팅 인프라 혁신에 집중 중
  • 대표 제품 CS-3 시스템은 세계 최대 규모의 상용 AI 프로세서(Wafer-Scale Engine-3) 장착, 쉽고 빠른 클러스터링을 통해 대형 AI 슈퍼컴퓨터 구성 가능
  • Cerebras Inference는 혁신적인 추론 속도를 제공, 연구기관·기업·정부에서 고성능 전용 모델 개발 및 오픈소스 학습에 활용 중
  • Cerebras Cloud 및 온프레미스 환경 모두에서 솔루션 제공
Hacker News 의견
  • 이 뉴스가 "구버전"일 수 있음, 7월 8일자로 나온 것으로 보이며, 어제 공개된 Qwen 3 coder 405B 출시와 혼동해서 소개된 것 같음. 두 모델의 스펙이 다름

    • 처음엔 이 뉴스가 이틀 전에 발표된 Qwen3-235B-A22B-Instruct-2507 (링크) 인 줄 알았음. 해당 모델은 reasoning이 없는 모델이고, Cerebras 발표는 reasoning에 대해 언급해서 이번 뉴스가 4월에 나온 Qwen3-235B-A22B임을 알게 되었음. 모델 이름이 헷갈림
  • 만약 이게 완전 fp16 quant였다면, 131k 전체 컨텍스트로 사용하려면 2TB 메모리가 필요함. Cerebras 칩 1개에 SRAM이 44GB라서 45개를 직렬로 연결해야 하고, 개당 $3M면 총 $135M이 필요함. 비교하자면 DGX B200 두 대로 2.8TB를 확보할 수 있고 $1M이면 됨. 즉 $1M 대 $135M임. 엄청 빠른 추론속도를 요구하는 고부가가치 작업(헤지펀드, 금융시장 등)이 아닌 이상 효율적이지 않음. 앞으로 Claude Opus 4 수준(혹은 그 이상) 모델을 수천만 컨텍스트 토큰과 초당 1500토큰으로 매우 저렴하게 돌릴 수 있다면 무슨 일이 벌어질지 상상도 안 됨. 하드웨어 발전이 몇 세대 이상은 더 필요할 것 같음

    • “Cerebras 칩당 44GB SRAM, 45개 직렬 필요, 총 $135M”이라는 계산이 틀림. 44GB는 SRAM, 즉 온칩 메모리이고, 모델 파라미터 대부분은 HBM에 저장함. 예를 들어 GB200은 SRAM이 126MB밖에 안 되는데 캐시 용량만 보고 2TB 모델에 필요한 칩 수를 계산하면 결과가 말도 안 되게 나옴. Cerebras는 HBM을 칩과 따로 확장 가능하며, MemoryX 같은 시스템으로 거의 2PB까지 연결 가능함(관련글). 전문가까지는 아니지만 Cerebras 아키텍처상 메모리 한계가 훨씬 넓음
    • 칩 내 SRAM은 완전히 임시 작업 메모리이며 전체 모델 가중치를 담을 필요 없음. Cerebras는 sparse 가중치 방식으로 외부 메모리에서 필요한 데이터만 스트리밍 받고, 코어는 전송 트리거 방식으로 작동함
    • “운영가능/불가능”이라는 관점만 너무 단순함. 실제로는 전체 시스템을 여러 사용자에게 나눠 줄 수 있는 처리량이 중요한 포인트임. 골프카와 기차 둘 다 동부에서 서부까지 갈 수 있지만, 경제성은 다름. 최소 배포 규모도 중요하긴 하나, 대형 클라우드 API로 토큰을 팔거면 고객 입장에선 상관없음
    • 추론을 고정형 fp16으로 돌릴 필요 없음. 요즘 양자화 포맷은 필요한 층마다 정밀도를 다르게 할당해서, 평균 6비트/파라미터로도 거의 전혀 차이를 느끼기 힘듦. 심하게 짜내도 8비트/파라미터면 충분함. 이는 엄청난 메모리 절약임
    • 우리 칩은 개당 $3M이 아님. 어디서 그 수치가 나왔는지 모르겠지만 완전히 잘못된 정보임
  • litellm proxy를 설정하고, Qwen-235B를 가진 새로운 Cerebras API로 연결해 Aider를 붙여서 테스트해 봤음. Claude code보다는 좋지 않지만 속도가 엄청 빠름. leaked claude code 프롬프트로도 Aider를 돌려봤지만 원하는 대로 동작하지 않음. Claude code 프롬프트는 Claude에 최적화된 듯. 그래도 시도해볼 만한 가치가 있었고 가능성이 크다고 느낌. Aider가 엄청 빠르게 텍스트를 내뱉고, 뭔가 설치하고 웹 콜하고 종료함. 정말 순식간임. 내 환경을 재현하려면 다음 설정 사용 가능:

    model_list:
     - model_name: qwen3-235b
      litellm_params:
       model: cerebras/qwen-3-235b-a22b
       api_key: os.environ/CEREBRAS_API_KEY
       api_base: https://api.cerebras.ai/v1
    

    실행법:

    litellm --config config.yaml --port 4000 --debug
    

    그리고

    aider --model cerebras/qwen-3-235b-a22b --openai-api-base http://localhost:4000 --openai-api-key fake-key --no-show-model-warnings --auto-commits --system-file ./prompt.txt --yes
    

    필요한 패키지는 pip 등으로 설치. prompt.txt엔 leaked claude code 프롬프트를 직접 찾아 저장

  • Qwen 3 coder가 Cerebras에서 지원되길 손꼽아 기다리고 있음. 나는 에이전트 루프를 많이 돌리는데, 실행 속도가 엄청난 시간 압축 효과를 줌. Claude 4 Sonnet급 모델이 1000~1500 토큰/초 속도로 돌면 진짜 혁신임. 속도의 감각을 느껴보고 싶다면 Cerebras Inference 페이지나 API, 또는 Mistral / Le Chat의 "Flash Answers"(Cerebras 기반) 등에서 직접 체험해 볼 수 있음. 1000tok/s로 코드 반복실행 하면 마치 마법 같음

    • 바로 이거임. 이런 속도라면 내 작업 효율이 확 늘어남. 에이전트 기다릴 때마다 집중력과 맥락이 끊김. 병렬로 돌리면 빠르긴 한데 집중력 희생임. Cursor 같은 IDE에서 거의 즉시 반복루프가 돌면 진짜 더 마법 느낌임. 그리고 이런 속도면 작업방식 자체가 달라짐. Cursor 같은 인터랙티브 IDE가 명령줄 기반 Claude code보다 훨씬 자연스럽게 느껴질 것임
    • 나도 마찬가지임. 하지만 Cerebras의 API가 더 openAI 호환성이 좋아져야 함. 다양한 코드 에이전트(Cline 포함)로 기존 모델을 시도해봤는데 400 에러나, 도구 호출 포맷 문제로 죄다 안됨. 실망스러웠음
    • 며칠 전 Groq에 Kimi K2 세팅해보고 속도에 충격받음. Qwen 3와 Cerebras로 바꿔야 하나 고민중임. (여담이지만, 이름에서 Starcraft zerg 계급체계의 cerebrate가 떠올라서 어릴 때 흥미로웠던 추억임)
    • 이렇게 LLM 에이전트 속도가 빨라지면, 결국 개발 프로세스에서 컴파일 시간이 병목이 되는 상황이 생길수 있음. 그러면 컴파일러 성능을 높일 경제적 동기가 생길 것임
  • 확실히 속도가 엄청나지만, 내가 경험한 바로는 Cerebras에서 실제 프로덕션 단계의 레이트 리밋이나 토큰 할당량을 받는 게 매우 힘듦. 이 때문에 이들을 기반으로 시스템 설계를 할 수 없어서 우리는 다른 벤더를 씀. 세일즈팀과도 이야기 많이 해봤지만 안된다고 들음

  • Claude Code와 sonnet-4를 많이 써본 사람 중에, Claude Code랑 Qwen3-Coder를 비교 테스트해본 분 계신지 궁금함. Cerebras가 제공하는 빠른 속도에 혹하지만, 속도가 아무리 빨라도 모델 품질이 더 나쁘면 갈아탈 생각 없음

    • Qwen은 안 써봤지만, Groq 등에서 “순간토큰” 추론 서비스 및 diffusion 모델로 LLaMA 기반 코드 생성기 써봤는데 결과가 만족스럽지 못했음. 만약 Gemini 2.5 pro나 Sonnet 4급 모델이 Cerebras에서 수만 줄 코드를 수초 만에 내면 정말 판도가 달라질 것임
  • "Full 131k" 컨텍스트라는데, 실제로는 262144로 두 배고, yarn 8배수까지 하면 2백만까지 간다고 함. 사실 Cerebras도 이론상 컨텍스트 길이 한계가 있는데, 이는 Transformer 구조의 한계라서 메모리 요구량이 거의 선형으로, 계산 요구량은 쿼드러플로 늘어남. 즉, Cerebras도 컨텍스트 길이 문제로 100%를 못쓰는 것처럼 보임. 게다가 양자화 방식이 정확히 뭔지 고객은 알 수 없는건지 궁금함

    • 모델 페이지엔 32768이 native고 4x YaRN에서 성능 검증됐다고 나옴(링크). 이게 131k랑 얼추 맞아떨어지는 듯함
  • 속도가 정말 인상적임. 약간 다른 화제지만, Qwen, Kimi 같은 모델이 자국 검열/편향에서 어떤지 궁금함

    • Qwen 모델은 오픈 모델 중에서도 품질이 매우 높다는 평가가 있음(MoE 구조 특히). 동시에, 엄청 심한 검열이 걸려 있음. "Tiananmen Square에 무슨 일이 있었는지"부터 "주요 시위" "혹시 탱크 관련?" 등 모두 물어봐도 그냥 광장이 아름답고 유서 깊다는 식으로 애매하게 둘러댐
  • Cerebras는 지난 10년간 실리콘밸리에서 나온 가장 미친(멋진) 기술적 성취 중 하나임. 7~8년 전에 Andy를 만났을 때, 만찬 접시만한 칩에 6톤 클램핑... 말도 안된다고 생각했음. 근데 진짜로 만들었고, 지금 보니 엄청 미래를 내다봤던 일임

    • 개념은 쿨한데, 진짜로 Nvidia 대신 Cerebras 쓰는 사람 있음?
    • 사실 hpc, 플롭스를 위한 설계라서 llm 추론엔 결국 메모리 대역폭이 더 중요함
    • 이건 오래된 아이디어의 현대적 해석임. 난 유럽 연구에서 wafer-scale, 아날로그, 신경망 관련 논문을 처음봤었음. 또 다른 프로젝트도 찾았음. (논문1, 논문2). 두 번째 논문은 1989년작이라 특허도 다 만료됨
    • wafer-scale integration도 수십년 전에 이미 시도됨
  • Macbook에서 로컬 qwen 개발 환경을 찾는 중임. localforge + mlx_lm.server 조합을 시도했으나 페이지에선 proof-of-concept 성공이라지만 실제로는 “empty response” 오류 발생함. 비슷한 경험 있으신 분 조언 부탁함

    • 혹시 내가 질문을 잘못 이해했을 수 있지만, ollama로는 Macbook Pro(32GB)에서 qwen 로컬 추론 아주 잘 쓰고 있음