Grok Code Fast 1

▲

GN⁺ 8달전 | parent | ★ favorite | on: Grok Code Fast 1(x.ai)

Hacker News 의견

어제 Cline으로 테스트해봤음, 속도 빠르고 agentic flow에 잘 맞으며 코드 질도 꽤 괜찮음, 왜 이 스레드가 부정적인지 이해 안 됨 (타이핑 중에 flag도 당함) 이 모델은 괜찮다고 생각함, gpt5-mini 수준 이상으로 느껴짐, 며칠간 gpt5-mini를 메인으로 썼는데 예산도 맞으면서 할 일은 잘 해줌
- 주목한 점:
  - 속도가 빠름 (EU 타임존 기준 테스트)
  - agentic 방식을 흥미롭게 다룸, 파일 전체를 한 번에 수정하기보다 여러 번에 걸쳐 조금씩 고쳐나감
  - HTML 파싱(bs4) 관련한 기능에서 11만 토큰 가량 썼는데도 무리 없이 과업을 끝냄, 하이 컨텍스트 상황에서 문제 없었음
  - 첫 시도에 실패하면 새 파일을 따로 만들어 mock/test 한 뒤 성공하면 메인 모듈 파일을 수정함, GPT5-mini는 작업 중 파일 수정으로 종종 혼란을 겪으며 실패했음
- 전반적으로 괜찮음, 가격대비 데일리 드라이버로도 쓸만함, Opus+gpt5 high를 플래너로 두고 이 모델을 implementer로 돌리는 것도 상상해볼 만함, 속도가 빨라 병렬로 pass@x 스타일 세팅도 흥미로울 듯
- 모든 계층에 다양한 선택지가 있는 게 좋음, 다양한 업체가 경쟁해야 서로 긴장하고 가격 하락 효과가 있음, gpt5-mini가 2$/MTok, 이 모델이 1.5$/MTok 수준이라 거의 “공짜” 느낌, 이 부정적인 분위기는 이해 안 됨
- Qwen3-Coder-480B (Cerebras에서 호스팅)는 OpenRouter 통해 입력/출력 포함 2$/Mtok임
  - OpenRouter에서는 Cerebras가 초당 2000토큰 이상 제공한다고 주장, 이는 10배나 더 빠름
  - 독립 벤치마크 결과 Qwen3-Coder-480B 모델이 더 나은 것으로 보임
- context length의 절반쯤 사용하면 성능이 좋은 걸로 간주해야 하나? qwen3-coder의 경우 65k/256k에서 혼란을 겪는 느낌, 그리고 grok에 비해 50% 더 비쌈
- 리뷰 잘 읽었음, claude code와 비교하면 어떤지 궁금함
- 나도 비슷한 생각임, 최근 이 모델 사용 중인데 꽤 괜찮고 속도도 매우 빠름
  - HN 댓글들은 Elon Musk에 부정적이고, LLM에 대해 편향된 반응이 보여서 제대로 평가받지 못하는 것 같음
흥미로운 점은 이 모델이 강조하는 벤치마크가 토큰 출력 속도라는 것임, 심지어 “fast"라는 이름도 붙임
- 일반적으로 소프트웨어 엔지니어들이라면 토큰 품질이 속도보다 중요하다고 생각할 듯함
- 얼마나 빠른지가 관건임
  - LLM 결과가 어차피 종종 틀린다면, 빠르게 프롬프트를 여러 번 시도하고 반복적으로 다듬는 게 더 가치 있을 수 있음
  - 극단적으로 전체 프로젝트를 밀리초 단위로 처리할 수 있다면, 성공율이 동일하더라도 그쪽이 훨씬 더 가치 있음
  - 이런 속도가 사용자 경험은 물론, 도구의 사용방식 자체를 바꿔버릴 수 있음
  - 3가지 다른 제안을 즉석에서 받는 것도 가능
  - 개인적으로 X에 엮이고 싶지 않아 Grok 자체는 쓸 생각 없음, 이것은 개인적 취향임
- xAI가 만들어낸 메트릭 중 최악은 아님
  - 관련 링크
- Cerebras 무료 API(Qwen Coder 480b, gpt-oss-120b 제공, 제휴 아님) 써봤는데 초당 3000토큰 정도로 정말 빠름
  - 그래서 모델 속도는 항상 체크해봄
  - 다만 Cerebras 클라우드는 일일 7천만 토큰 제한이 있고, 이 한도를 금세 넘는다는 피드백이 있어서 데일리 개발엔 제약이 많음
- 용도에 따라 다름
  - 단순 함수 자동완성(문자열 처리, 함수 정의 등)은 속도가 더 중요해짐
  - 그냥 분기점/고민하는 식의 코딩에는 품질이 중요하지만, 내가 무엇을 하는지 확실하다면 덜 똑똑하지만 빠른 모델이 더 작업 흐름에 도움됨
  - 느린 모델은 PR 리뷰하듯 코드를 꼼꼼히 봐야 하는 방식이라 작업 흐름 자체가 많이 달라짐
- 속도 매우 중요함
  - 물론 품질이 너무 떨어지면 의미 없지만, Claude Sonnet 4만큼 좋으면서 빠른 모델이라면 agentic 코딩에서는 판도를 바꿀만함
  - 지금은 프롬프트 보내고 30초~몇 분씩 기다려야 하니까 실질적으로 실험해보는 게 힘듦
  - 만약 몇 초만에 끝난다면 훨씬 실험적/반복적 작업이 가능해질 것임
  - 프론트엔드 코드처럼 반복해서 UI를 바꿔야 할 때 특히 유용함
HN에서는 AI 코딩 어시스턴트로 무엇을 쓰고 있는지 궁금함, VSCode 플러그인 추천 등 실사용 팁 듣고 싶음
Grok-4 코드 성능이 나쁘다는 평이 많았을 때 나왔던 “코딩” 버전이 혹시 이 모델인지 궁금함
- 벤치마크에서 약하면 더 뻥튀기하기 쉬운 항목(속도)을 들고 나오는 듯
- 검색해보니 Reddit에서 명백한 스팸 계정이 해당 모델 찬양하는 글을 올린 것밖에 없음
- 해당 계정 링크
- Grok 3 기반인 것 같다는 느낌임, Grok 3가 엄청 빠르고 프로그래밍 특화였음
"SWE-Bench-Verified" 전체 기준으로 grok-code-fast-1이 사내 벤치마크에서는 70.8%라는데, 이 벤치마크 툴 자체를 좀 보고 싶음
- 서드파티 리포트에서는 57.6% 수준임
- 관련 링크
  - nitpick일 수 있지만, 사이트 열자마자 날짜 표기가 엉망이라 놀랐음(일/월/년 순서 뒤죽박죽임)
  - 혼란만 주는 게 아니라 정렬이 제대로 안 됨
  - 날짜 컬럼 정렬했더니 전혀 말이 안 됨(중간 항목 기준으로 정렬함)
  - 이런 기본적인 것도 신경 안 쓰면 코드도 허술할 수 있다는 의심이 듬
  - [일부 국가는 아직도 이런 표기법 쓰긴 하는데 대다수는 표준으로 넘어감]
  - 그래도 다른 모델과 비교해보면 성적 자체는 좋게 나옴
    - 비교 링크
Grok 4 기본 버전으로도 꽤 괜찮은 결과를 본 적 있음
- 문제는 설명이 별로 없고 그냥 코드만 바꿔치기 하는 경향, 하지만 결과 자체는 나쁘지 않았음
- 개인적으로 더 빠른 버전보다, 변경 제안에 대해 조금 더 많은 피드백과 설명을 원했음
- 최근엔 GPT-5가 Sonnet 4보다 더 유용하다고 느꼈음
  - 다양한 아키텍처 선택지를 물을 때 매우 좋은 답변을 주고, 문제 해결 과정을 단계적으로 안내해줘서 마음에 듦
  - "원샷" 방식으로 한 번에 모든 코드를 리라이트하는 것보다는, 실제로 내가 원하는 방향에 맞춰가는 이 과정이 더 좋음
  - Opus 4.1이나 Sonnet 시리즈는 원샷 문제 해결 평가는 별로 정확하지 않다고 생각함, 진짜 어시스턴트 역할이 중요한 평가 기준임
  - gpt-5도 내가 원하지 않는 방향으로만 고집하면, 아무리 대화를 해도 계속 같은 동작만 반복함
    - 그런 점에서 Claude 같은 모델의 "네, 맞아요" 식 반응을 원하는 사람도 있음
    - 개발 경험 수준 따라 모델에 바라는 점이 달라지겠지만, 나는 최종 결정권이 내게 있는 게 중요함
  - Sonnet 4가 아키텍처 설계나 심층 분석에는 GPT-5에 비해 떨어질지 몰라도, 세부적인 계획이 이미 있는 상태에서 그냥 코드양을 쳐내는 작업은 Sonnet 4가 더 잘함
며칠간 Grok을 테스트해보니 오히려 퇴보처럼 느껴짐
- 내 코드 일부를 무작위로 삭제해버리는 경험, 오랜만에 당함
- 상위권 코딩 모델들이 요즘 꽤 신뢰할 만해졌는데 Grok은 아직 그 단계가 아닌 느낌임
- 아무리 빠르고 무료라 해도, 내 코드를 믿고 맡길 수 없으면 도구로서 쓸 수 없음
  - Kilo Code에서 Grok Code Fast 1 무료 체험해봤는데 결과가 매우 안 좋았음
    - GPT 5 Mini보다 신뢰도도 떨어지고, 아이러니하게 속도도 더 느림
  - Full Self Coding?
  - 사용하는 플랫폼/언어는 무엇인지 궁금함
    - 언급 없는 리뷰가 극과 극이라 혼란스러움
    - 언어별로 차이가 큼, TS 웹 개발 쪽에서는 항상 결과가 더 잘 나옴
  - 코드 일부가 삭제된다고 해서 정말 문제인가? 버전 관리 있지 않음?
말도 안 되는 이상한 행동을 엄청 빠르게 함, 이건 좋은 게 아님
- CRUD 엔드포인트, i8n 파일 등 단순하고 구체적인 작업엔 적합하겠지만 그 외엔 글쎄임
  - 나는 딱 그런 일에 이 모델을 씀
    - “단순하고 귀찮은 잡일"을 처리하는 모델로 딱임
    - 똑똑한 모델이 다 필요한 건 아니고, 아무도 하고 싶지 않은 일에 써서 빠르게 많이 처리함
    - 단, 좀 더 구체적으로 설명하지 않으면 결과가 산으로 감
    - 하지만 명확하게 예시까지 주면 시키는 일만 잘 해줌
  - Justfile 개선시켜달라고 했더니 완전히 꼬여서 모든 걸 망치고 무한 루프에 빠졌음
    - Kilo Code에서 사용함, 경험 상 사람마다 다를 수 있음
‘sonic’ 모델 스텔스 시기에도 속도는 빨랐지만 품질이 필요 이상으로 정확하진 않았음
- 테스트 코드를 만들어 반복 실행하긴 했지만, 정작 의도한 동작을 검증하진 않고 mock 호출만 체크함
- 실제 사용 패턴까지 신경 쓰진 못하는 한계 있음
  - 이런 케이스엔 boilerplate 생성엔 강점이 있을 것처럼 보임
나는 대단하다고 생각했음
- 리팩토링 관련 질문에 여러 툴 호출해 코드 빠르게 읽고, 논리적으로 분석해서 버그 2개 찾았다고 알려줌
- 물론 둘 다 버그가 아니었음
- 그래도 “멋져 보였음"