Cerebras, Qwen3-Coder 기반 초고속 A

▲

GN⁺ 9달전 | parent | ★ favorite | on: Cerebras, Qwen3-Coder 기반 초고속 AI 코딩 서비스 출시(cerebras.ai)

Hacker News 의견

Cline과 함께 직접 API 키를 사용하여 시도해 봤음 (Cerebras는 여기에서 Qwen3 Coder 프로바이더로도 사용 가능)인데, 캐싱 없이 사용하니 비용이 아주 빠르게 올라감에 놀람, 특히 새로운 툴 콜마다 이전 메시지 이력 전체가 입력 토큰으로 전송됨 (API 기준 입력/출력 토큰 모두 100만 개당 $2 비용) 품질은 Claude Code보다는 조금 떨어지지만 속도 면에서는 확실히 훨씬 빠름 Cerebras가 캐싱 지원과 캐싱용 토큰 가격 할인도 제공하면 더 자주 쓸 의향이 있지만 현재로선 1회 에이전트 실행당 비용이 너무 큼
- 전체 파일을 컨텍스트 윈도우에 넣고 AI가 필요한 부분을 찾게 하는 방식은 매우 비효율적임, 이 방식은 AI로 diff를 생성하면 새로운 문제가 많이 생기기 때문에 쓰긴 하지만, 더 효율적인 방법이 있음: 심볼 레벨에서 파일을 슬라이스하는 것임 즉, 만약 AI가 foo() 선언과 bar() 정의만 필요하다면 전체 파일은 이런 식으로 축약 가능함
```
class MyClass {
  void foo();
  void bar() {
    //code
  }
}
```
  AI가 제안한 수정을 다시 병합하기도 쉽고, 대부분 경우 1~2초 내에 리팩토링이 가능함 (이름 바꾸는 경우만 예외) 이를 에디터에 적용해 step back/forward 기능도 추가하여 잘 동작 중임 개인적으로 Cerebras 플랫폼을 매우 좋아함 (무료 티어와 OpenRouter 통한 종량제 제공) 아주 간단한 프롬프트 한 줄만으로 귀찮은 리팩터링을 1~2초 만에 처리하고, 토큰 비용도 리팩터링 당 약 0.5센트 수준임 알고리즘 적용 시 전체 파일을 다 넣으면 컨텍스트 윈도우를 초과하지만, 필요한 타입 몇 개만 뽑아 쓰면 토큰을 훨씬 아껴 쓸 수 있음 추가로 내가 만드는 기법에 대해 더 궁금하다면 여기에서 설명 확인 가능함
- Cerebras.ai는 월 $50, $200의 정액 요금제를 제공함 API 토큰 단가 때문에 구독 가격을 거부하는 건 타당하지 않음
- 월 $50로 구독하는데 왜 추가 결제가 필요한지 의문임
- 이 서비스는 메시지 단위로 rate limit가 걸리는 듯하므로 캐시가 없어도 큰 문제 아닐 수 있음
Cerebras Code의 사용량 한도가 매우 제한적임, $50 플랜으로 하루 750만 토큰 제공되는데 실제로 오래 못 감 이 정보는 결제 전 요금제 설명에 명확히 안내되어 있지 않음
“초당 2,000 토큰 처리, 131k 토큰 컨텍스트 윈도우, 독점 IDE 필요 없음, 주간 한도 없음!”이라는 문구를 보고 기대했지만, 이어진 “하루 최대 1,000 메시지 전송 – 연속 3~4시간 코딩 분량”이라는 설명을 보고 좀 실망함 실제 쓰는 서비스라면 비용 지불 의사는 있지만 서두와는 상반된 제한이 아쉬움
- 이런 하루 1,000 메시지 제한은 아마도 viberank 같은 문제가 발생하지 않게 하기 위한 조치로 보임
- 참고로 github copilot 비즈니스 라이선스는 “프리미엄” 요청이 한 달에 300회임
- 하루 1,000 메시지는 대부분 개발자에게 충분함, 나도 claude code sonnet 4만 단독으로 쓰지만 하루 1,000회 이상 전송하진 않음 물론 내가 모르는 사이에 추가 메시지가 내부적으로 더 전송되는 걸 수 있음
- Claude Code는 5시간 윈도우와 주간 한도까지 있는 반면, 이건 명확하게 다름
- 진짜 주간 한도가 없는 건 사실임, 오직 일일 한도만 존재하므로, 하루에만 락 걸리고 다음날 바로 사용 가능함
확실히 빠르긴 한데 rate limit가 너무 빨리 걸리고 품질은 Claude Code보다 떨어지며 결국엔 더 비싸짐 Cerebras의 타깃 유저가 누구인지 궁금함
- 나 역시 궁금하지만, 조금 떨어지는 대안이라도 있는 게 좋으며, 이미 대형 플레이어가 있는 동적 시장에선 선택지가 많을수록 유리하다고 생각함 독점 방지 차원에서도 긍정적임
코딩 에이전트에서 활용해 보고 싶다면 qwen3-coder 모델이 에이전트에 잘 맞는다고 생각함, Sketch에서 Cerebras Code를 테스트 중임 이제 최신 버전(0.0.33)에서 직접 실행 가능함
```
brew install boldsoftware/tap/sketch
CEREBRAS_API_KEY=...
sketch --model=qwen3-coder-cerebras -skaband-addr=
```
다만 현재는 서버 과부하로, 기존 자체 호스팅 버전이 더 나은 결과를 주는 것 같음
```
sketch --model=qwen
```
일부 프로 요금제($50/월) 가입자는 실제 안내된 한도보다 더 제한이 많다고 보고함 광고엔 1,000 요청 한도라지만, 실제론 하루 750만 토큰 한도임 (출처) 평균 1회 요청이 7.5k라 계산했지만, 마케팅 동영상에선 요청당 최대 2.4만 토큰까지 풍선처럼 늘어나기도 함 그래도 API 가격보단 저렴함
- FAQ까지 나중에 미끼 상품처럼 슬쩍 바꾼 점이 아쉽다고 생각함 시장 점유율 확장에 VC 자금 쓰는 시기임을 감안하면 뭔가 더 적극적인 태도 필요함
초당 2,000 토큰 속도는 충격적임, vibe coding(편하게 코드 짜기)을 극히 지양하는 입장이지만, 이런 성능이라면 github copilot과 비슷한 속도에 훨씬 더 나은 품질을 기대 가능함 특히 에디터 안에서 쓸 때 판도가 바뀌는 수준임
- 풀 스피드로 계속 사용한다면 약 62분 정도면 하루 사용 한도에 도달할 수 있음
Windsurf도 Cerebras/Qwen3-Coder를 제공함, 월 $15에 1,000회 유저 메시지 한도임 관련 링크
인플루언서 역할을 하는 공급자 대비, 더 많은 구독형 서비스가 나오길 기다리고 있었음 앞으로 경쟁 상품이 더 많이 출시될 것이며, 이용자 입장에서는 가격이 점점 좋아질 것으로 기대 중임 Cerebras 팀의 출시를 축하함
claude-code-router에서 동작하는지 궁금함 이번 주 openrouter에서 qwen3 Cerebras와 함께 쓰려 했는데 API 에러가 발생했음
- Qwen3팀이 Anthropic 호환 API를 제공했으면 정말 좋겠다고 생각함 Kimi와 GLM/Zai팀처럼 쉽게 셋업할 수 있었음 덕분에 Claude Code에서는 이런 간단한 세팅으로 다양한 모델 사용이 가능함
- API Error: 422 {"error":{"message":"Error from provider: {"message":"body.messages.0.system.content: Input should be a valid string","type":"invalid_request_error","param":"validation_error","code":"wrong_api_format"}