# Cerebras, Qwen3-Coder 기반 초고속 AI 코딩 서비스 출시

> Clean Markdown view of GeekNews topic #22299. Use the original source for factual precision when an external source URL is present.

## Metadata

- GeekNews HTML: [https://news.hada.io/topic?id=22299](https://news.hada.io/topic?id=22299)
- GeekNews Markdown: [https://news.hada.io/topic/22299.md](https://news.hada.io/topic/22299.md)
- Type: GN+
- Author: [neo](https://news.hada.io/@neo)
- Published: 2025-08-02T20:33:33+09:00
- Updated: 2025-08-02T20:33:33+09:00
- Original source: [cerebras.ai](https://www.cerebras.ai/blog/introducing-cerebras-code)
- Points: 7
- Comments: 2

## Summary

Cerebras가 **Qwen3-Coder 기반**의 초고속 **AI 코딩 서비스**를 출시하여, 초당 2,000 토큰이라는 업계 최고 수준의 **즉각적인 코드 생성 경험**을 제공합니다. 별도의 IDE 종속 없이 OpenAI API 호환 에디터에서 바로 사용할 수 있어, **대규모 컨텍스트 처리**와 **에이전트 기반 코딩**에 적합하며, 일상적인 워크플로뿐 아니라 복잡한 멀티에이전트 개발 환경도 지원합니다. 인디 개발자 대상의 **Code Pro (월 $50)**와 대규모 팀을 위한 **Code Max (월 $200)** 플랜으로 즉시 가입 및 사용이 가능해, 개발자는 효율적으로 최신 AI 코딩의 이점을 누릴 수 있습니다.

## Topic Body

- **Cerebras**가 AI 코딩을 빠르고 쉽게 만드는 **Code Pro**(월 $50)와 **Code Max**(월 $200) 플랜을 출시함  
- 두 플랜 모두 **Qwen3-Coder** 모델을 기반으로 하며, **초당 2,000 토큰**, **131k 토큰 컨텍스트**, **주간 사용 제한 없음** 등 **업계 최고 수준의 성능** 제공  
- **IDE 종속 없이** OpenAI API 호환 에디터라면 어디서나 바로 사용 가능, **Cursor**, **Continue.dev**, **Cline** 등 지원  
- **Code Pro**는 하루 1,000 메시지로 인디 개발자와 간단한 워크플로에 적합하며, **Code Max**는 하루 5,000 메시지로 대규모 개발 환경, 리팩토링, 멀티에이전트에 최적  
- 별도 대기자 명단 없이 즉시 가입 및 키 발급으로 바로 코드 생성 가능  
  
---  
  
- **Cerebras**는 초대형 AI 반도체(Wafer Scale Engine) 및 슈퍼컴퓨터를 개발하며, 대규모 인공지능 모델 학습과 추론을 위한 하드웨어·소프트웨어 플랫폼을 제공하는 **AI 인프라 전문 기업**  
  
### Cerebras Makes Code Generation Instant  
  
- **최신 AI 모델**도 코드 생성 시 지연이 발생하지만, **Cerebras Code**는 **초당 2,000 토큰**의 속도로 거의 즉각적인 코드 생성 경험 제공  
- **코딩 워크플로가 에이전트 기반**으로 발전하면서, 각 단계마다 LLM 호출 대기 시간이 누적되는 문제를 해결함  
- **월 $50**부터 제공돼, 누구나 빠른 AI 코딩을 이용 가능함  
  
### Powered by a Frontier Model  
  
- **Qwen3-Coder**는 Alibaba의 대표 코딩 에이전트 모델로, **480B 파라미터** 규모임  
- **Claude Sonnet 4, GPT-4.1**과 동급의 코딩 및 에이전트 작업 성능을 보여줌  
- **Agentic Coding**, **Agentic Browser-Use**, **BFCL** 등 다양한 코딩 벤치마크에서 선도적 성능을 달성함  
  
### Bring your own AI IDE  
  
- OpenAI 호환 **API 엔드포인트**를 지원하는 모든 코드 에디터, 툴에서 사용 가능함  
- **Cursor**, **Continue.dev**, **Cline**, **RooCode** 등 다양한 환경에 바로 연동 가능  
- 추가 설정 없이, 기존 워크플로 안에서 고품질 코드 생성이 즉시 가능함  
  
### Available now  
  
- **Cerebras Code Pro ($50/월)**  
  - Qwen3-Coder 기반, 빠르고 대용량 컨텍스트 코드 완성 지원  
  - 하루 최대 1,000 메시지 (3~4시간 연속 코딩 가능)  
  - 인디 개발자, 간단한 에이전트 워크플로, 주말 프로젝트에 적합  
  
- **Cerebras Code Max ($200/월)**  
  - Qwen3-Coder 기반, 대규모 개발 워크플로에 맞춤  
  - 하루 최대 5,000 메시지  
  - 전일제 개발, IDE 통합, 코드 리팩토링, 멀티에이전트 시스템에 최적  
  
- 두 플랜 모두 **즉시 가입**, 별도 대기 없이 API 키 발급 후 바로 코드 생성 시작 가능

## Comments



### Comment 42070

- Author: plumpmath
- Created: 2025-08-04T08:50:12+09:00
- Points: 1

중국산

### Comment 42042

- Author: neo
- Created: 2025-08-02T20:33:34+09:00
- Points: 1

###### [Hacker News 의견](https://news.ycombinator.com/item?id=44762959) 
* Cline과 함께 직접 API 키를 사용하여 시도해 봤음 (Cerebras는 [여기](https://openrouter.ai/qwen/qwen3-coder)에서 Qwen3 Coder 프로바이더로도 사용 가능)인데, 캐싱 없이 사용하니 비용이 아주 빠르게 올라감에 놀람, 특히 새로운 툴 콜마다 이전 메시지 이력 전체가 입력 토큰으로 전송됨 (API 기준 입력/출력 토큰 모두 100만 개당 $2 비용) 품질은 Claude Code보다는 조금 떨어지지만 속도 면에서는 확실히 훨씬 빠름 Cerebras가 캐싱 지원과 캐싱용 토큰 가격 할인도 제공하면 더 자주 쓸 의향이 있지만 현재로선 1회 에이전트 실행당 비용이 너무 큼

  * 전체 파일을 컨텍스트 윈도우에 넣고 AI가 필요한 부분을 찾게 하는 방식은 매우 비효율적임, 이 방식은 AI로 diff를 생성하면 새로운 문제가 많이 생기기 때문에 쓰긴 하지만, 더 효율적인 방법이 있음: 심볼 레벨에서 파일을 슬라이스하는 것임 즉, 만약 AI가 foo() 선언과 bar() 정의만 필요하다면 전체 파일은 이런 식으로 축약 가능함
    ```
    class MyClass {
      void foo();
      void bar() {
        //code
      }
    }
    ```
    AI가 제안한 수정을 다시 병합하기도 쉽고, 대부분 경우 1~2초 내에 리팩토링이 가능함 (이름 바꾸는 경우만 예외) 이를 에디터에 적용해 step back/forward 기능도 추가하여 잘 동작 중임 개인적으로 Cerebras 플랫폼을 매우 좋아함 (무료 티어와 OpenRouter 통한 종량제 제공) 아주 간단한 프롬프트 한 줄만으로 귀찮은 리팩터링을 1~2초 만에 처리하고, 토큰 비용도 리팩터링 당 약 0.5센트 수준임 알고리즘 적용 시 전체 파일을 다 넣으면 컨텍스트 윈도우를 초과하지만, 필요한 타입 몇 개만 뽑아 쓰면 토큰을 훨씬 아껴 쓸 수 있음 추가로 내가 만드는 기법에 대해 더 궁금하다면 [여기](https://sysprogs.com/CodeVROOM/documentation/concepts/symboledits/)에서 설명 확인 가능함

  * Cerebras.ai는 월 $50, $200의 정액 요금제를 제공함 API 토큰 단가 때문에 구독 가격을 거부하는 건 타당하지 않음

  * 월 $50로 구독하는데 왜 추가 결제가 필요한지 의문임

  * 이 서비스는 메시지 단위로 rate limit가 걸리는 듯하므로 캐시가 없어도 큰 문제 아닐 수 있음

* Cerebras Code의 사용량 한도가 매우 제한적임, $50 플랜으로 하루 750만 토큰 제공되는데 실제로 오래 못 감 이 정보는 결제 전 요금제 설명에 명확히 안내되어 있지 않음

* “초당 2,000 토큰 처리, 131k 토큰 컨텍스트 윈도우, 독점 IDE 필요 없음, 주간 한도 없음!”이라는 문구를 보고 기대했지만, 이어진 “하루 최대 1,000 메시지 전송 – 연속 3~4시간 코딩 분량”이라는 설명을 보고 좀 실망함 실제 쓰는 서비스라면 비용 지불 의사는 있지만 서두와는 상반된 제한이 아쉬움

  * 이런 하루 1,000 메시지 제한은 아마도 [viberank](https://www.viberank.app/) 같은 문제가 발생하지 않게 하기 위한 조치로 보임

  * 참고로 github copilot 비즈니스 라이선스는 “프리미엄” 요청이 한 달에 300회임

  * 하루 1,000 메시지는 대부분 개발자에게 충분함, 나도 claude code sonnet 4만 단독으로 쓰지만 하루 1,000회 이상 전송하진 않음 물론 내가 모르는 사이에 추가 메시지가 내부적으로 더 전송되는 걸 수 있음

  * Claude Code는 5시간 윈도우와 주간 한도까지 있는 반면, 이건 명확하게 다름

  * 진짜 주간 한도가 없는 건 사실임, 오직 일일 한도만 존재하므로, 하루에만 락 걸리고 다음날 바로 사용 가능함

* 확실히 빠르긴 한데 rate limit가 너무 빨리 걸리고 품질은 Claude Code보다 떨어지며 결국엔 더 비싸짐 Cerebras의 타깃 유저가 누구인지 궁금함

  * 나 역시 궁금하지만, 조금 떨어지는 대안이라도 있는 게 좋으며, 이미 대형 플레이어가 있는 동적 시장에선 선택지가 많을수록 유리하다고 생각함 독점 방지 차원에서도 긍정적임

* 코딩 에이전트에서 활용해 보고 싶다면 qwen3-coder 모델이 에이전트에 잘 맞는다고 생각함, Sketch에서 Cerebras Code를 테스트 중임 이제 최신 버전(0.0.33)에서 직접 실행 가능함
  ```
  brew install boldsoftware/tap/sketch
  CEREBRAS_API_KEY=...
  sketch --model=qwen3-coder-cerebras -skaband-addr=
  ```
  다만 현재는 서버 과부하로, 기존 자체 호스팅 버전이 더 나은 결과를 주는 것 같음
  ```
  sketch --model=qwen
  ```

* 일부 프로 요금제($50/월) 가입자는 실제 안내된 한도보다 더 제한이 많다고 보고함 광고엔 1,000 요청 한도라지만, 실제론 하루 750만 토큰 한도임 ([출처](https://old.reddit.com/r/LocalLLaMA/comments/1mfeazc/cerebras_pro_coder_deceptive_limits/)) 평균 1회 요청이 7.5k라 계산했지만, 마케팅 동영상에선 요청당 최대 2.4만 토큰까지 풍선처럼 늘어나기도 함 그래도 API 가격보단 저렴함

  * FAQ까지 나중에 미끼 상품처럼 슬쩍 바꾼 점이 아쉽다고 생각함 시장 점유율 확장에 VC 자금 쓰는 시기임을 감안하면 뭔가 더 적극적인 태도 필요함

* 초당 2,000 토큰 속도는 충격적임, vibe coding(편하게 코드 짜기)을 극히 지양하는 입장이지만, 이런 성능이라면 github copilot과 비슷한 속도에 훨씬 더 나은 품질을 기대 가능함 특히 에디터 안에서 쓸 때 판도가 바뀌는 수준임

  * 풀 스피드로 계속 사용한다면 약 62분 정도면 하루 사용 한도에 도달할 수 있음

* Windsurf도 Cerebras/Qwen3-Coder를 제공함, 월 $15에 1,000회 유저 메시지 한도임 [관련 링크](https://x.com/windsurf/status/1951340259192742063)

* 인플루언서 역할을 하는 공급자 대비, 더 많은 구독형 서비스가 나오길 기다리고 있었음 앞으로 경쟁 상품이 더 많이 출시될 것이며, 이용자 입장에서는 가격이 점점 좋아질 것으로 기대 중임 Cerebras 팀의 출시를 축하함

* claude-code-router에서 동작하는지 궁금함 이번 주 openrouter에서 qwen3 Cerebras와 함께 쓰려 했는데 API 에러가 발생했음

  * Qwen3팀이 Anthropic 호환 API를 제공했으면 정말 좋겠다고 생각함 Kimi와 GLM/Zai팀처럼 쉽게 셋업할 수 있었음 덕분에 Claude Code에서는 이런 [간단한 세팅](https://github.com/pchalasani/claude-code-tools?tab=readme-ov-file#-using-claude-code-with-open-weight-anthropic-api-compatible-llm-providers)으로 다양한 모델 사용이 가능함

  * API Error: 422 {"error":{"message":"Error from provider: {\"message\":\"body.messages.0.system.content: Input should be a valid string\",\"type\":\"invalid_request_error\",\"param\":\"validation_error\",\"code\":\"wrong_api_format\"}
