어제 Cline으로 테스트해봤음, 속도 빠르고 agentic flow에 잘 맞으며 코드 질도 꽤 괜찮음, 왜 이 스레드가 부정적인지 이해 안 됨 (타이핑 중에 flag도 당함) 이 모델은 괜찮다고 생각함, gpt5-mini 수준 이상으로 느껴짐, 며칠간 gpt5-mini를 메인으로 썼는데 예산도 맞으면서 할 일은 잘 해줌
주목한 점:
속도가 빠름 (EU 타임존 기준 테스트)
agentic 방식을 흥미롭게 다룸, 파일 전체를 한 번에 수정하기보다 여러 번에 걸쳐 조금씩 고쳐나감
HTML 파싱(bs4) 관련한 기능에서 11만 토큰 가량 썼는데도 무리 없이 과업을 끝냄, 하이 컨텍스트 상황에서 문제 없었음
첫 시도에 실패하면 새 파일을 따로 만들어 mock/test 한 뒤 성공하면 메인 모듈 파일을 수정함, GPT5-mini는 작업 중 파일 수정으로 종종 혼란을 겪으며 실패했음
전반적으로 괜찮음, 가격대비 데일리 드라이버로도 쓸만함, Opus+gpt5 high를 플래너로 두고 이 모델을 implementer로 돌리는 것도 상상해볼 만함, 속도가 빨라 병렬로 pass@x 스타일 세팅도 흥미로울 듯
모든 계층에 다양한 선택지가 있는 게 좋음, 다양한 업체가 경쟁해야 서로 긴장하고 가격 하락 효과가 있음, gpt5-mini가 2$/MTok, 이 모델이 1.5$/MTok 수준이라 거의 “공짜” 느낌, 이 부정적인 분위기는 이해 안 됨
Qwen3-Coder-480B (Cerebras에서 호스팅)는 OpenRouter 통해 입력/출력 포함 2$/Mtok임
OpenRouter에서는 Cerebras가 초당 2000토큰 이상 제공한다고 주장, 이는 10배나 더 빠름
독립 벤치마크 결과 Qwen3-Coder-480B 모델이 더 나은 것으로 보임
context length의 절반쯤 사용하면 성능이 좋은 걸로 간주해야 하나? qwen3-coder의 경우 65k/256k에서 혼란을 겪는 느낌, 그리고 grok에 비해 50% 더 비쌈
리뷰 잘 읽었음, claude code와 비교하면 어떤지 궁금함
나도 비슷한 생각임, 최근 이 모델 사용 중인데 꽤 괜찮고 속도도 매우 빠름
HN 댓글들은 Elon Musk에 부정적이고, LLM에 대해 편향된 반응이 보여서 제대로 평가받지 못하는 것 같음
흥미로운 점은 이 모델이 강조하는 벤치마크가 토큰 출력 속도라는 것임, 심지어 “fast"라는 이름도 붙임
일반적으로 소프트웨어 엔지니어들이라면 토큰 품질이 속도보다 중요하다고 생각할 듯함
얼마나 빠른지가 관건임
LLM 결과가 어차피 종종 틀린다면, 빠르게 프롬프트를 여러 번 시도하고 반복적으로 다듬는 게 더 가치 있을 수 있음
극단적으로 전체 프로젝트를 밀리초 단위로 처리할 수 있다면, 성공율이 동일하더라도 그쪽이 훨씬 더 가치 있음
Hacker News 의견
어제 Cline으로 테스트해봤음, 속도 빠르고 agentic flow에 잘 맞으며 코드 질도 꽤 괜찮음, 왜 이 스레드가 부정적인지 이해 안 됨 (타이핑 중에 flag도 당함) 이 모델은 괜찮다고 생각함, gpt5-mini 수준 이상으로 느껴짐, 며칠간 gpt5-mini를 메인으로 썼는데 예산도 맞으면서 할 일은 잘 해줌
주목한 점:
전반적으로 괜찮음, 가격대비 데일리 드라이버로도 쓸만함, Opus+gpt5 high를 플래너로 두고 이 모델을 implementer로 돌리는 것도 상상해볼 만함, 속도가 빨라 병렬로 pass@x 스타일 세팅도 흥미로울 듯
모든 계층에 다양한 선택지가 있는 게 좋음, 다양한 업체가 경쟁해야 서로 긴장하고 가격 하락 효과가 있음, gpt5-mini가 2$/MTok, 이 모델이 1.5$/MTok 수준이라 거의 “공짜” 느낌, 이 부정적인 분위기는 이해 안 됨
Qwen3-Coder-480B (Cerebras에서 호스팅)는 OpenRouter 통해 입력/출력 포함 2$/Mtok임
context length의 절반쯤 사용하면 성능이 좋은 걸로 간주해야 하나? qwen3-coder의 경우 65k/256k에서 혼란을 겪는 느낌, 그리고 grok에 비해 50% 더 비쌈
리뷰 잘 읽었음, claude code와 비교하면 어떤지 궁금함
나도 비슷한 생각임, 최근 이 모델 사용 중인데 꽤 괜찮고 속도도 매우 빠름
흥미로운 점은 이 모델이 강조하는 벤치마크가 토큰 출력 속도라는 것임, 심지어 “fast"라는 이름도 붙임
일반적으로 소프트웨어 엔지니어들이라면 토큰 품질이 속도보다 중요하다고 생각할 듯함
얼마나 빠른지가 관건임
xAI가 만들어낸 메트릭 중 최악은 아님
Cerebras 무료 API(Qwen Coder 480b, gpt-oss-120b 제공, 제휴 아님) 써봤는데 초당 3000토큰 정도로 정말 빠름
용도에 따라 다름
속도 매우 중요함
HN에서는 AI 코딩 어시스턴트로 무엇을 쓰고 있는지 궁금함, VSCode 플러그인 추천 등 실사용 팁 듣고 싶음
Grok-4 코드 성능이 나쁘다는 평이 많았을 때 나왔던 “코딩” 버전이 혹시 이 모델인지 궁금함
벤치마크에서 약하면 더 뻥튀기하기 쉬운 항목(속도)을 들고 나오는 듯
검색해보니 Reddit에서 명백한 스팸 계정이 해당 모델 찬양하는 글을 올린 것밖에 없음
해당 계정 링크
Grok 3 기반인 것 같다는 느낌임, Grok 3가 엄청 빠르고 프로그래밍 특화였음
"SWE-Bench-Verified" 전체 기준으로 grok-code-fast-1이 사내 벤치마크에서는 70.8%라는데, 이 벤치마크 툴 자체를 좀 보고 싶음
서드파티 리포트에서는 57.6% 수준임
관련 링크
nitpick일 수 있지만, 사이트 열자마자 날짜 표기가 엉망이라 놀랐음(일/월/년 순서 뒤죽박죽임)
혼란만 주는 게 아니라 정렬이 제대로 안 됨
날짜 컬럼 정렬했더니 전혀 말이 안 됨(중간 항목 기준으로 정렬함)
이런 기본적인 것도 신경 안 쓰면 코드도 허술할 수 있다는 의심이 듬
[일부 국가는 아직도 이런 표기법 쓰긴 하는데 대다수는 표준으로 넘어감]
그래도 다른 모델과 비교해보면 성적 자체는 좋게 나옴
Grok 4 기본 버전으로도 꽤 괜찮은 결과를 본 적 있음
다양한 아키텍처 선택지를 물을 때 매우 좋은 답변을 주고, 문제 해결 과정을 단계적으로 안내해줘서 마음에 듦
"원샷" 방식으로 한 번에 모든 코드를 리라이트하는 것보다는, 실제로 내가 원하는 방향에 맞춰가는 이 과정이 더 좋음
Opus 4.1이나 Sonnet 시리즈는 원샷 문제 해결 평가는 별로 정확하지 않다고 생각함, 진짜 어시스턴트 역할이 중요한 평가 기준임
gpt-5도 내가 원하지 않는 방향으로만 고집하면, 아무리 대화를 해도 계속 같은 동작만 반복함
Sonnet 4가 아키텍처 설계나 심층 분석에는 GPT-5에 비해 떨어질지 몰라도, 세부적인 계획이 이미 있는 상태에서 그냥 코드양을 쳐내는 작업은 Sonnet 4가 더 잘함
며칠간 Grok을 테스트해보니 오히려 퇴보처럼 느껴짐
내 코드 일부를 무작위로 삭제해버리는 경험, 오랜만에 당함
상위권 코딩 모델들이 요즘 꽤 신뢰할 만해졌는데 Grok은 아직 그 단계가 아닌 느낌임
아무리 빠르고 무료라 해도, 내 코드를 믿고 맡길 수 없으면 도구로서 쓸 수 없음
Kilo Code에서 Grok Code Fast 1 무료 체험해봤는데 결과가 매우 안 좋았음
Full Self Coding?
사용하는 플랫폼/언어는 무엇인지 궁금함
코드 일부가 삭제된다고 해서 정말 문제인가? 버전 관리 있지 않음?
말도 안 되는 이상한 행동을 엄청 빠르게 함, 이건 좋은 게 아님
CRUD 엔드포인트, i8n 파일 등 단순하고 구체적인 작업엔 적합하겠지만 그 외엔 글쎄임
나는 딱 그런 일에 이 모델을 씀
Justfile 개선시켜달라고 했더니 완전히 꼬여서 모든 걸 망치고 무한 루프에 빠졌음
‘sonic’ 모델 스텔스 시기에도 속도는 빨랐지만 품질이 필요 이상으로 정확하진 않았음
테스트 코드를 만들어 반복 실행하긴 했지만, 정작 의도한 동작을 검증하진 않고 mock 호출만 체크함
실제 사용 패턴까지 신경 쓰진 못하는 한계 있음
나는 대단하다고 생각했음