4P by GN⁺ 2일전 | ★ favorite | 댓글 1개
  • xAI가 출시한 grok-code-fast-1은 개발자를 위한 초고속 AI 코딩 모델로, 빠른 응답성과 IDE 친화적 기능을 갖췄음
  • 이 모델은 프로그래밍 데이터셋 중심으로 사전 학습되었고, 실사용자 평가를 통해 grep, 터미널, 파일 편집 등 도구 활용에 능숙하게 설계됨
  • 성능은 초당 190 토큰 생성 속도, SWE-Bench-Verified에서 70.8% 점수를 기록하며, TypeScript, Python, Java, Rust, C++, Go 등 다수 언어에 강점을 보임
  • 가격은 입력 100만 토큰당 $0.20, 출력 $1.50, 캐시 입력 $0.02로 책정되어 있으며, 일부 파트너 플랫폼(GitHub Copilot, Cursor 등)에서는 한시적으로 무료 제공됨
  • 멀티모달 입력, 병렬 도구 호출, 확장 컨텍스트를 지원하는 변형 모델도 공개될 예정

개요

  • xAI의 grok-code-fast-1은 반복적 사고와 도구 사용이 빈번하게 발생하는 실제 개발 환경에서 속도 저하 문제를 해결하기 위해 개발된 초고속 AI 코딩 모델
  • 실무 엔지니어들의 피드백을 바탕으로, 신속하고 민첩하며 실전 업무에 적합한 모델 아키텍처로 처음부터 새롭게 구축함
  • 추론 및 컴퓨팅 엔지니어링 팀이 압도적으로 빠른 서비스 기술(서빙)에 다수의 혁신적 방법을 도입함
    • 사용자는 생각의 흐름을 읽기도 전 여러 도구 호출이 이미 이루어진 경험을 체감할 수 있음
  • 프롬프트 캐싱 최적화로 파트너 환경에서 90% 이상의 캐시 적중률을 달성

설계 및 데이터셋

  • 프로그래밍 중심의 방대한 프리트레이닝 데이터를 기반으로 학습 환경을 조성함
  • 실제 풀리퀘스트 및 코드 작성 데이터로 고품질 포스트트레이닝을 진행함
  • 다양한 론치 파트너와 긴밀히 협력하며 모델의 에이전틱(Agentic) 플랫폼 내 동작을 지속적으로 개선함

주요 특징 및 지원 환경

  • grok-code-fast-1grep, 터미널, 파일 편집 등 일반적인 개발 도구를 확실하게 구사함
  • 사용자는 IDE 등 주요 개발 환경에서 바로 활용 가능함

프로그래밍 성능

  • 전체 소프트웨어 개발 스택을 지원
  • TypeScript, Python, Java, Rust, C++, Go 등에서 탁월한 활용도를 보여줌
  • 최소 감독 하에서도 제로투원 프로젝트 생성, 코드베이스 질의 응답, 정밀한 버그 수정 등 다양한 프로그래밍 업무를 빠르고 정확하게 처리함
  • Grok Code Fast 1은 현존 모델 중 가장 빠른 반응성을 제공함
  • 작은 작업 단위로 분할하여 사용하면, 반복적이고 신속한 작업 흐름 구성에 매우 유리함
  • 실제 예시로, Cursor 환경에서 단 하루 만에 Battle Simulator 프로토타입을 완성
  • 큰 기능을 계획하고, 단계별로 세분화해 반복적으로 실행하는 것이 효율적임

가격 정책

  • 입력 토큰 100만 개당 $0.20
  • 출력 토큰 100만 개당 $1.50
  • 캐시된 입력 토큰 100만 개당 $0.02
  • 우수한 성능과 경제적 가격으로 일상 프로그래밍 과제를 빠르고 효율적으로 처리할 수 있음

모델 성능 및 평가

  • 토큰 처리 속도(Tokens Per Second, TPS): 190으로 업계 최고 수준임
  • 타 모델(Gemini 2.5 Pro, GPT-5, Claude Sonnet 4, Qwen3-Coder, Grok 4)과 비교 시, 가격과 처리 속도 모두에서 강력한 경쟁력 보임
  • 다양한 공개 벤치마크 및 개발자 실제 테스트를 병행함
    • SWE-Bench-Verified 하위 집합에서 70.8% 달성
  • 실무 엔지니어와의 주기적 인간 평가 및 자동화 테스트를 결합하여 모델의 실용성과 만족도를 극대화함

향후 계획 및 활용 안내

  • 공식 API 및 주요 파트너 경유로 제공되며 무료 체험도 한시적으로 제공 중임
    • GitHub Copilot, Cursor, Cline, Roo Code, Kilo Code, opencode, Windsurf 등
  • 지속적 업데이트와 빠른 개선 주기를 약속함
  • 멀티모달 입력, 병렬 도구 호출, 확장된 컨텍스트 지원 등 신기능을 포함한 새 변종도 훈련 중임
  • 프롬프트 엔지니어링 가이드도 별도 제공함
  • 모델 카드 및 피드백 채널(Discord 등)에서 의견 공유 가능
Hacker News 의견
  • 어제 Cline으로 테스트해봤음, 속도 빠르고 agentic flow에 잘 맞으며 코드 질도 꽤 괜찮음, 왜 이 스레드가 부정적인지 이해 안 됨 (타이핑 중에 flag도 당함) 이 모델은 괜찮다고 생각함, gpt5-mini 수준 이상으로 느껴짐, 며칠간 gpt5-mini를 메인으로 썼는데 예산도 맞으면서 할 일은 잘 해줌

    • 주목한 점:

      • 속도가 빠름 (EU 타임존 기준 테스트)
      • agentic 방식을 흥미롭게 다룸, 파일 전체를 한 번에 수정하기보다 여러 번에 걸쳐 조금씩 고쳐나감
      • HTML 파싱(bs4) 관련한 기능에서 11만 토큰 가량 썼는데도 무리 없이 과업을 끝냄, 하이 컨텍스트 상황에서 문제 없었음
      • 첫 시도에 실패하면 새 파일을 따로 만들어 mock/test 한 뒤 성공하면 메인 모듈 파일을 수정함, GPT5-mini는 작업 중 파일 수정으로 종종 혼란을 겪으며 실패했음
    • 전반적으로 괜찮음, 가격대비 데일리 드라이버로도 쓸만함, Opus+gpt5 high를 플래너로 두고 이 모델을 implementer로 돌리는 것도 상상해볼 만함, 속도가 빨라 병렬로 pass@x 스타일 세팅도 흥미로울 듯

    • 모든 계층에 다양한 선택지가 있는 게 좋음, 다양한 업체가 경쟁해야 서로 긴장하고 가격 하락 효과가 있음, gpt5-mini가 2$/MTok, 이 모델이 1.5$/MTok 수준이라 거의 “공짜” 느낌, 이 부정적인 분위기는 이해 안 됨

    • Qwen3-Coder-480B (Cerebras에서 호스팅)는 OpenRouter 통해 입력/출력 포함 2$/Mtok임

      • OpenRouter에서는 Cerebras가 초당 2000토큰 이상 제공한다고 주장, 이는 10배나 더 빠름
      • 독립 벤치마크 결과 Qwen3-Coder-480B 모델이 더 나은 것으로 보임
    • context length의 절반쯤 사용하면 성능이 좋은 걸로 간주해야 하나? qwen3-coder의 경우 65k/256k에서 혼란을 겪는 느낌, 그리고 grok에 비해 50% 더 비쌈

    • 리뷰 잘 읽었음, claude code와 비교하면 어떤지 궁금함

    • 나도 비슷한 생각임, 최근 이 모델 사용 중인데 꽤 괜찮고 속도도 매우 빠름

      • HN 댓글들은 Elon Musk에 부정적이고, LLM에 대해 편향된 반응이 보여서 제대로 평가받지 못하는 것 같음
  • 흥미로운 점은 이 모델이 강조하는 벤치마크가 토큰 출력 속도라는 것임, 심지어 “fast"라는 이름도 붙임

    • 일반적으로 소프트웨어 엔지니어들이라면 토큰 품질이 속도보다 중요하다고 생각할 듯함

    • 얼마나 빠른지가 관건임

      • LLM 결과가 어차피 종종 틀린다면, 빠르게 프롬프트를 여러 번 시도하고 반복적으로 다듬는 게 더 가치 있을 수 있음
      • 극단적으로 전체 프로젝트를 밀리초 단위로 처리할 수 있다면, 성공율이 동일하더라도 그쪽이 훨씬 더 가치 있음
      • 이런 속도가 사용자 경험은 물론, 도구의 사용방식 자체를 바꿔버릴 수 있음
      • 3가지 다른 제안을 즉석에서 받는 것도 가능
      • 개인적으로 X에 엮이고 싶지 않아 Grok 자체는 쓸 생각 없음, 이것은 개인적 취향임
    • xAI가 만들어낸 메트릭 중 최악은 아님

    • Cerebras 무료 API(Qwen Coder 480b, gpt-oss-120b 제공, 제휴 아님) 써봤는데 초당 3000토큰 정도로 정말 빠름

      • 그래서 모델 속도는 항상 체크해봄
      • 다만 Cerebras 클라우드는 일일 7천만 토큰 제한이 있고, 이 한도를 금세 넘는다는 피드백이 있어서 데일리 개발엔 제약이 많음
    • 용도에 따라 다름

      • 단순 함수 자동완성(문자열 처리, 함수 정의 등)은 속도가 더 중요해짐
      • 그냥 분기점/고민하는 식의 코딩에는 품질이 중요하지만, 내가 무엇을 하는지 확실하다면 덜 똑똑하지만 빠른 모델이 더 작업 흐름에 도움됨
      • 느린 모델은 PR 리뷰하듯 코드를 꼼꼼히 봐야 하는 방식이라 작업 흐름 자체가 많이 달라짐
    • 속도 매우 중요함

      • 물론 품질이 너무 떨어지면 의미 없지만, Claude Sonnet 4만큼 좋으면서 빠른 모델이라면 agentic 코딩에서는 판도를 바꿀만함
      • 지금은 프롬프트 보내고 30초~몇 분씩 기다려야 하니까 실질적으로 실험해보는 게 힘듦
      • 만약 몇 초만에 끝난다면 훨씬 실험적/반복적 작업이 가능해질 것임
      • 프론트엔드 코드처럼 반복해서 UI를 바꿔야 할 때 특히 유용함
  • HN에서는 AI 코딩 어시스턴트로 무엇을 쓰고 있는지 궁금함, VSCode 플러그인 추천 등 실사용 팁 듣고 싶음

  • Grok-4 코드 성능이 나쁘다는 평이 많았을 때 나왔던 “코딩” 버전이 혹시 이 모델인지 궁금함

    • 벤치마크에서 약하면 더 뻥튀기하기 쉬운 항목(속도)을 들고 나오는 듯

    • 검색해보니 Reddit에서 명백한 스팸 계정이 해당 모델 찬양하는 글을 올린 것밖에 없음

    • 해당 계정 링크

    • Grok 3 기반인 것 같다는 느낌임, Grok 3가 엄청 빠르고 프로그래밍 특화였음

  • "SWE-Bench-Verified" 전체 기준으로 grok-code-fast-1이 사내 벤치마크에서는 70.8%라는데, 이 벤치마크 툴 자체를 좀 보고 싶음

    • 서드파티 리포트에서는 57.6% 수준임

    • 관련 링크

      • nitpick일 수 있지만, 사이트 열자마자 날짜 표기가 엉망이라 놀랐음(일/월/년 순서 뒤죽박죽임)

      • 혼란만 주는 게 아니라 정렬이 제대로 안 됨

      • 날짜 컬럼 정렬했더니 전혀 말이 안 됨(중간 항목 기준으로 정렬함)

      • 이런 기본적인 것도 신경 안 쓰면 코드도 허술할 수 있다는 의심이 듬

      • [일부 국가는 아직도 이런 표기법 쓰긴 하는데 대다수는 표준으로 넘어감]

      • 그래도 다른 모델과 비교해보면 성적 자체는 좋게 나옴

  • Grok 4 기본 버전으로도 꽤 괜찮은 결과를 본 적 있음

    • 문제는 설명이 별로 없고 그냥 코드만 바꿔치기 하는 경향, 하지만 결과 자체는 나쁘지 않았음
    • 개인적으로 더 빠른 버전보다, 변경 제안에 대해 조금 더 많은 피드백과 설명을 원했음
    • 최근엔 GPT-5가 Sonnet 4보다 더 유용하다고 느꼈음
      • 다양한 아키텍처 선택지를 물을 때 매우 좋은 답변을 주고, 문제 해결 과정을 단계적으로 안내해줘서 마음에 듦

      • "원샷" 방식으로 한 번에 모든 코드를 리라이트하는 것보다는, 실제로 내가 원하는 방향에 맞춰가는 이 과정이 더 좋음

      • Opus 4.1이나 Sonnet 시리즈는 원샷 문제 해결 평가는 별로 정확하지 않다고 생각함, 진짜 어시스턴트 역할이 중요한 평가 기준임

      • gpt-5도 내가 원하지 않는 방향으로만 고집하면, 아무리 대화를 해도 계속 같은 동작만 반복함

        • 그런 점에서 Claude 같은 모델의 "네, 맞아요" 식 반응을 원하는 사람도 있음
        • 개발 경험 수준 따라 모델에 바라는 점이 달라지겠지만, 나는 최종 결정권이 내게 있는 게 중요함
      • Sonnet 4가 아키텍처 설계나 심층 분석에는 GPT-5에 비해 떨어질지 몰라도, 세부적인 계획이 이미 있는 상태에서 그냥 코드양을 쳐내는 작업은 Sonnet 4가 더 잘함

  • 며칠간 Grok을 테스트해보니 오히려 퇴보처럼 느껴짐

    • 내 코드 일부를 무작위로 삭제해버리는 경험, 오랜만에 당함

    • 상위권 코딩 모델들이 요즘 꽤 신뢰할 만해졌는데 Grok은 아직 그 단계가 아닌 느낌임

    • 아무리 빠르고 무료라 해도, 내 코드를 믿고 맡길 수 없으면 도구로서 쓸 수 없음

      • Kilo Code에서 Grok Code Fast 1 무료 체험해봤는데 결과가 매우 안 좋았음

        • GPT 5 Mini보다 신뢰도도 떨어지고, 아이러니하게 속도도 더 느림
      • Full Self Coding?

      • 사용하는 플랫폼/언어는 무엇인지 궁금함

        • 언급 없는 리뷰가 극과 극이라 혼란스러움
        • 언어별로 차이가 큼, TS 웹 개발 쪽에서는 항상 결과가 더 잘 나옴
      • 코드 일부가 삭제된다고 해서 정말 문제인가? 버전 관리 있지 않음?

  • 말도 안 되는 이상한 행동을 엄청 빠르게 함, 이건 좋은 게 아님

    • CRUD 엔드포인트, i8n 파일 등 단순하고 구체적인 작업엔 적합하겠지만 그 외엔 글쎄임

      • 나는 딱 그런 일에 이 모델을 씀

        • “단순하고 귀찮은 잡일"을 처리하는 모델로 딱임
        • 똑똑한 모델이 다 필요한 건 아니고, 아무도 하고 싶지 않은 일에 써서 빠르게 많이 처리함
        • 단, 좀 더 구체적으로 설명하지 않으면 결과가 산으로 감
        • 하지만 명확하게 예시까지 주면 시키는 일만 잘 해줌
      • Justfile 개선시켜달라고 했더니 완전히 꼬여서 모든 걸 망치고 무한 루프에 빠졌음

        • Kilo Code에서 사용함, 경험 상 사람마다 다를 수 있음
  • ‘sonic’ 모델 스텔스 시기에도 속도는 빨랐지만 품질이 필요 이상으로 정확하진 않았음

    • 테스트 코드를 만들어 반복 실행하긴 했지만, 정작 의도한 동작을 검증하진 않고 mock 호출만 체크함

    • 실제 사용 패턴까지 신경 쓰진 못하는 한계 있음

      • 이런 케이스엔 boilerplate 생성엔 강점이 있을 것처럼 보임
  • 나는 대단하다고 생각했음

    • 리팩토링 관련 질문에 여러 툴 호출해 코드 빠르게 읽고, 논리적으로 분석해서 버그 2개 찾았다고 알려줌
    • 물론 둘 다 버그가 아니었음
    • 그래도 “멋져 보였음"