Grok Code Fast 1

(x.ai)

7P by GN⁺ 3달전 | ★ favorite | 댓글 1개

xAI가 출시한 grok-code-fast-1은 개발자를 위한 초고속 AI 코딩 모델로, 빠른 응답성과 IDE 친화적 기능을 갖췄음
이 모델은 프로그래밍 데이터셋 중심으로 사전 학습되었고, 실사용자 평가를 통해 grep, 터미널, 파일 편집 등 도구 활용에 능숙하게 설계됨
성능은 초당 190 토큰 생성 속도, SWE-Bench-Verified에서 70.8% 점수를 기록하며, TypeScript, Python, Java, Rust, C++, Go 등 다수 언어에 강점을 보임
가격은 입력 100만 토큰당 $0.20, 출력 $1.50, 캐시 입력 $0.02로 책정되어 있으며, 일부 파트너 플랫폼(GitHub Copilot, Cursor 등)에서는 한시적으로 무료 제공됨
곧 멀티모달 입력, 병렬 도구 호출, 확장 컨텍스트를 지원하는 변형 모델도 공개될 예정

개요

xAI의 grok-code-fast-1은 반복적 사고와 도구 사용이 빈번하게 발생하는 실제 개발 환경에서 속도 저하 문제를 해결하기 위해 개발된 초고속 AI 코딩 모델
실무 엔지니어들의 피드백을 바탕으로, 신속하고 민첩하며 실전 업무에 적합한 모델 아키텍처로 처음부터 새롭게 구축함
추론 및 컴퓨팅 엔지니어링 팀이 압도적으로 빠른 서비스 기술(서빙)에 다수의 혁신적 방법을 도입함
- 사용자는 생각의 흐름을 읽기도 전 여러 도구 호출이 이미 이루어진 경험을 체감할 수 있음
프롬프트 캐싱 최적화로 파트너 환경에서 90% 이상의 캐시 적중률을 달성

설계 및 데이터셋

프로그래밍 중심의 방대한 프리트레이닝 데이터를 기반으로 학습 환경을 조성함
실제 풀리퀘스트 및 코드 작성 데이터로 고품질 포스트트레이닝을 진행함
다양한 론치 파트너와 긴밀히 협력하며 모델의 에이전틱(Agentic) 플랫폼 내 동작을 지속적으로 개선함

주요 특징 및 지원 환경

grok-code-fast-1은 grep, 터미널, 파일 편집 등 일반적인 개발 도구를 확실하게 구사함
사용자는 IDE 등 주요 개발 환경에서 바로 활용 가능함

프로그래밍 성능

전체 소프트웨어 개발 스택을 지원함
TypeScript, Python, Java, Rust, C++, Go 등에서 탁월한 활용도를 보여줌
최소 감독 하에서도 제로투원 프로젝트 생성, 코드베이스 질의 응답, 정밀한 버그 수정 등 다양한 프로그래밍 업무를 빠르고 정확하게 처리함

Grok Code Fast 1은 현존 모델 중 가장 빠른 반응성을 제공함
작은 작업 단위로 분할하여 사용하면, 반복적이고 신속한 작업 흐름 구성에 매우 유리함
실제 예시로, Cursor 환경에서 단 하루 만에 Battle Simulator 프로토타입을 완성함
큰 기능을 계획하고, 단계별로 세분화해 반복적으로 실행하는 것이 효율적임

가격 정책

입력 토큰 100만 개당 $0.20
출력 토큰 100만 개당 $1.50
캐시된 입력 토큰 100만 개당 $0.02
우수한 성능과 경제적 가격으로 일상 프로그래밍 과제를 빠르고 효율적으로 처리할 수 있음

모델 성능 및 평가

토큰 처리 속도(Tokens Per Second, TPS): 190으로 업계 최고 수준임
타 모델(Gemini 2.5 Pro, GPT-5, Claude Sonnet 4, Qwen3-Coder, Grok 4)과 비교 시, 가격과 처리 속도 모두에서 강력한 경쟁력 보임
다양한 공개 벤치마크 및 개발자 실제 테스트를 병행함
- SWE-Bench-Verified 하위 집합에서 70.8% 달성
실무 엔지니어와의 주기적 인간 평가 및 자동화 테스트를 결합하여 모델의 실용성과 만족도를 극대화함

향후 계획 및 활용 안내

공식 API 및 주요 파트너 경유로 제공되며 무료 체험도 한시적으로 제공 중임
- GitHub Copilot, Cursor, Cline, Roo Code, Kilo Code, opencode, Windsurf 등
지속적 업데이트와 빠른 개선 주기를 약속함
멀티모달 입력, 병렬 도구 호출, 확장된 컨텍스트 지원 등 신기능을 포함한 새 변종도 훈련 중임
프롬프트 엔지니어링 가이드도 별도 제공함
모델 카드 및 피드백 채널(Discord 등)에서 의견 공유 가능

▲

GN⁺ 3달전 [-]

Hacker News 의견

어제 Cline으로 테스트해봤음, 속도 빠르고 agentic flow에 잘 맞으며 코드 질도 꽤 괜찮음, 왜 이 스레드가 부정적인지 이해 안 됨 (타이핑 중에 flag도 당함) 이 모델은 괜찮다고 생각함, gpt5-mini 수준 이상으로 느껴짐, 며칠간 gpt5-mini를 메인으로 썼는데 예산도 맞으면서 할 일은 잘 해줌
- 주목한 점:
  - 속도가 빠름 (EU 타임존 기준 테스트)
  - agentic 방식을 흥미롭게 다룸, 파일 전체를 한 번에 수정하기보다 여러 번에 걸쳐 조금씩 고쳐나감
  - HTML 파싱(bs4) 관련한 기능에서 11만 토큰 가량 썼는데도 무리 없이 과업을 끝냄, 하이 컨텍스트 상황에서 문제 없었음
  - 첫 시도에 실패하면 새 파일을 따로 만들어 mock/test 한 뒤 성공하면 메인 모듈 파일을 수정함, GPT5-mini는 작업 중 파일 수정으로 종종 혼란을 겪으며 실패했음
- 전반적으로 괜찮음, 가격대비 데일리 드라이버로도 쓸만함, Opus+gpt5 high를 플래너로 두고 이 모델을 implementer로 돌리는 것도 상상해볼 만함, 속도가 빨라 병렬로 pass@x 스타일 세팅도 흥미로울 듯
- 모든 계층에 다양한 선택지가 있는 게 좋음, 다양한 업체가 경쟁해야 서로 긴장하고 가격 하락 효과가 있음, gpt5-mini가 2$/MTok, 이 모델이 1.5$/MTok 수준이라 거의 “공짜” 느낌, 이 부정적인 분위기는 이해 안 됨
- Qwen3-Coder-480B (Cerebras에서 호스팅)는 OpenRouter 통해 입력/출력 포함 2$/Mtok임
  - OpenRouter에서는 Cerebras가 초당 2000토큰 이상 제공한다고 주장, 이는 10배나 더 빠름
  - 독립 벤치마크 결과 Qwen3-Coder-480B 모델이 더 나은 것으로 보임
- context length의 절반쯤 사용하면 성능이 좋은 걸로 간주해야 하나? qwen3-coder의 경우 65k/256k에서 혼란을 겪는 느낌, 그리고 grok에 비해 50% 더 비쌈
- 리뷰 잘 읽었음, claude code와 비교하면 어떤지 궁금함
- 나도 비슷한 생각임, 최근 이 모델 사용 중인데 꽤 괜찮고 속도도 매우 빠름
  - HN 댓글들은 Elon Musk에 부정적이고, LLM에 대해 편향된 반응이 보여서 제대로 평가받지 못하는 것 같음
흥미로운 점은 이 모델이 강조하는 벤치마크가 토큰 출력 속도라는 것임, 심지어 “fast"라는 이름도 붙임
- 일반적으로 소프트웨어 엔지니어들이라면 토큰 품질이 속도보다 중요하다고 생각할 듯함
- 얼마나 빠른지가 관건임
  - LLM 결과가 어차피 종종 틀린다면, 빠르게 프롬프트를 여러 번 시도하고 반복적으로 다듬는 게 더 가치 있을 수 있음
  - 극단적으로 전체 프로젝트를 밀리초 단위로 처리할 수 있다면, 성공율이 동일하더라도 그쪽이 훨씬 더 가치 있음
  - 이런 속도가 사용자 경험은 물론, 도구의 사용방식 자체를 바꿔버릴 수 있음
  - 3가지 다른 제안을 즉석에서 받는 것도 가능
  - 개인적으로 X에 엮이고 싶지 않아 Grok 자체는 쓸 생각 없음, 이것은 개인적 취향임
- xAI가 만들어낸 메트릭 중 최악은 아님
  - 관련 링크
- Cerebras 무료 API(Qwen Coder 480b, gpt-oss-120b 제공, 제휴 아님) 써봤는데 초당 3000토큰 정도로 정말 빠름
  - 그래서 모델 속도는 항상 체크해봄
  - 다만 Cerebras 클라우드는 일일 7천만 토큰 제한이 있고, 이 한도를 금세 넘는다는 피드백이 있어서 데일리 개발엔 제약이 많음
- 용도에 따라 다름
  - 단순 함수 자동완성(문자열 처리, 함수 정의 등)은 속도가 더 중요해짐
  - 그냥 분기점/고민하는 식의 코딩에는 품질이 중요하지만, 내가 무엇을 하는지 확실하다면 덜 똑똑하지만 빠른 모델이 더 작업 흐름에 도움됨
  - 느린 모델은 PR 리뷰하듯 코드를 꼼꼼히 봐야 하는 방식이라 작업 흐름 자체가 많이 달라짐
- 속도 매우 중요함
  - 물론 품질이 너무 떨어지면 의미 없지만, Claude Sonnet 4만큼 좋으면서 빠른 모델이라면 agentic 코딩에서는 판도를 바꿀만함
  - 지금은 프롬프트 보내고 30초~몇 분씩 기다려야 하니까 실질적으로 실험해보는 게 힘듦
  - 만약 몇 초만에 끝난다면 훨씬 실험적/반복적 작업이 가능해질 것임
  - 프론트엔드 코드처럼 반복해서 UI를 바꿔야 할 때 특히 유용함
HN에서는 AI 코딩 어시스턴트로 무엇을 쓰고 있는지 궁금함, VSCode 플러그인 추천 등 실사용 팁 듣고 싶음
Grok-4 코드 성능이 나쁘다는 평이 많았을 때 나왔던 “코딩” 버전이 혹시 이 모델인지 궁금함
- 벤치마크에서 약하면 더 뻥튀기하기 쉬운 항목(속도)을 들고 나오는 듯
- 검색해보니 Reddit에서 명백한 스팸 계정이 해당 모델 찬양하는 글을 올린 것밖에 없음
- 해당 계정 링크
- Grok 3 기반인 것 같다는 느낌임, Grok 3가 엄청 빠르고 프로그래밍 특화였음
"SWE-Bench-Verified" 전체 기준으로 grok-code-fast-1이 사내 벤치마크에서는 70.8%라는데, 이 벤치마크 툴 자체를 좀 보고 싶음
- 서드파티 리포트에서는 57.6% 수준임
- 관련 링크
  - nitpick일 수 있지만, 사이트 열자마자 날짜 표기가 엉망이라 놀랐음(일/월/년 순서 뒤죽박죽임)
  - 혼란만 주는 게 아니라 정렬이 제대로 안 됨
  - 날짜 컬럼 정렬했더니 전혀 말이 안 됨(중간 항목 기준으로 정렬함)
  - 이런 기본적인 것도 신경 안 쓰면 코드도 허술할 수 있다는 의심이 듬
  - [일부 국가는 아직도 이런 표기법 쓰긴 하는데 대다수는 표준으로 넘어감]
  - 그래도 다른 모델과 비교해보면 성적 자체는 좋게 나옴
    - 비교 링크
Grok 4 기본 버전으로도 꽤 괜찮은 결과를 본 적 있음
- 문제는 설명이 별로 없고 그냥 코드만 바꿔치기 하는 경향, 하지만 결과 자체는 나쁘지 않았음
- 개인적으로 더 빠른 버전보다, 변경 제안에 대해 조금 더 많은 피드백과 설명을 원했음
- 최근엔 GPT-5가 Sonnet 4보다 더 유용하다고 느꼈음
  - 다양한 아키텍처 선택지를 물을 때 매우 좋은 답변을 주고, 문제 해결 과정을 단계적으로 안내해줘서 마음에 듦
  - "원샷" 방식으로 한 번에 모든 코드를 리라이트하는 것보다는, 실제로 내가 원하는 방향에 맞춰가는 이 과정이 더 좋음
  - Opus 4.1이나 Sonnet 시리즈는 원샷 문제 해결 평가는 별로 정확하지 않다고 생각함, 진짜 어시스턴트 역할이 중요한 평가 기준임
  - gpt-5도 내가 원하지 않는 방향으로만 고집하면, 아무리 대화를 해도 계속 같은 동작만 반복함
    - 그런 점에서 Claude 같은 모델의 "네, 맞아요" 식 반응을 원하는 사람도 있음
    - 개발 경험 수준 따라 모델에 바라는 점이 달라지겠지만, 나는 최종 결정권이 내게 있는 게 중요함
  - Sonnet 4가 아키텍처 설계나 심층 분석에는 GPT-5에 비해 떨어질지 몰라도, 세부적인 계획이 이미 있는 상태에서 그냥 코드양을 쳐내는 작업은 Sonnet 4가 더 잘함
며칠간 Grok을 테스트해보니 오히려 퇴보처럼 느껴짐
- 내 코드 일부를 무작위로 삭제해버리는 경험, 오랜만에 당함
- 상위권 코딩 모델들이 요즘 꽤 신뢰할 만해졌는데 Grok은 아직 그 단계가 아닌 느낌임
- 아무리 빠르고 무료라 해도, 내 코드를 믿고 맡길 수 없으면 도구로서 쓸 수 없음
  - Kilo Code에서 Grok Code Fast 1 무료 체험해봤는데 결과가 매우 안 좋았음
    - GPT 5 Mini보다 신뢰도도 떨어지고, 아이러니하게 속도도 더 느림
  - Full Self Coding?
  - 사용하는 플랫폼/언어는 무엇인지 궁금함
    - 언급 없는 리뷰가 극과 극이라 혼란스러움
    - 언어별로 차이가 큼, TS 웹 개발 쪽에서는 항상 결과가 더 잘 나옴
  - 코드 일부가 삭제된다고 해서 정말 문제인가? 버전 관리 있지 않음?
말도 안 되는 이상한 행동을 엄청 빠르게 함, 이건 좋은 게 아님
- CRUD 엔드포인트, i8n 파일 등 단순하고 구체적인 작업엔 적합하겠지만 그 외엔 글쎄임
  - 나는 딱 그런 일에 이 모델을 씀
    - “단순하고 귀찮은 잡일"을 처리하는 모델로 딱임
    - 똑똑한 모델이 다 필요한 건 아니고, 아무도 하고 싶지 않은 일에 써서 빠르게 많이 처리함
    - 단, 좀 더 구체적으로 설명하지 않으면 결과가 산으로 감
    - 하지만 명확하게 예시까지 주면 시키는 일만 잘 해줌
  - Justfile 개선시켜달라고 했더니 완전히 꼬여서 모든 걸 망치고 무한 루프에 빠졌음
    - Kilo Code에서 사용함, 경험 상 사람마다 다를 수 있음
‘sonic’ 모델 스텔스 시기에도 속도는 빨랐지만 품질이 필요 이상으로 정확하진 않았음
- 테스트 코드를 만들어 반복 실행하긴 했지만, 정작 의도한 동작을 검증하진 않고 mock 호출만 체크함
- 실제 사용 패턴까지 신경 쓰진 못하는 한계 있음
  - 이런 케이스엔 boilerplate 생성엔 강점이 있을 것처럼 보임
나는 대단하다고 생각했음
- 리팩토링 관련 질문에 여러 툴 호출해 코드 빠르게 읽고, 논리적으로 분석해서 버그 2개 찾았다고 알려줌
- 물론 둘 다 버그가 아니었음
- 그래도 “멋져 보였음"

답변달기