벤치마크 조작 방지를 위해 ‘보트 타는 시타키 버섯’ 샘플도 공유함 Shitaki Mushroom riding a rowboat
프롬프트: t3.chat prompt
Claude 4.5 Haiku (Reasoning High): 178.98 token/sec, 1691 tokens, Time-to-First: 0.69초
그리고 Grok 4 Fast는 펠리컨+자전거 스타일에는 괜찮은데, 다른 요청엔 약함 Grok 샘플, 프롬프트: t3.chat prompt
Grok 4 Fast (Reasoning High): 171.49 token/sec, 1291 tokens, Time-to-First: 4.5초
마지막으로 GPT-5 결과: 샘플, 프롬프트: t3.chat prompt
GPT-5 (Reasoning High): 115.11 tok/sec, 4598 tokens, Time-to-First: 4.5초
주관적이긴 하나 Haiku의 버섯 점이 아주 인상적임
그리고 공공 벤치마크와 비공식 테스트 시나리오 간의 성능 차이가 Anthropic 모델에서 가장 적음
종종 Anthropic 모델이 오픈 벤치마크보다 오히려 더 좋은 결과를 보임
Haiku의 Time-to-First도 상당한 이점임
최첨단 모델 회사들이 이런 테스트를 이스터에그로 넣지 않은 게 의외임
이미지 생성 모델들이 궁수의 팔을 그리는 데 늘 고생하던데, 말을 탄 궁수가 호수의 돛단배를 향해 불화살을 쏘는 간단한 테스트 프롬프트로 모든 모델을 비교해 볼 수 있을지 제안해봄
매우 초반 테스트임에도 결과가 상당히 인상적임
GPT-5와 달리 코드 변경에 불필요한 코드 섹션을 적게 포함해 더 정확하게 바뀜
덕분에 실제 환경에서 Haiku 4.5가 겉보기 비용 상승에도 불구하고, 사용 효율 면에선 더 저렴할 가능성이 있음
문제는 브랜드 파워임
Haiku 4.5가 Sonnet 4와 비슷한 품질일지 몰라도, 작은 모델에 대한 인식과 최근 일부 성능 저하로 인해 Haiku 4.5를 Sonnet 4.5 대신 택하기가 쉽지 않을 것
Haiku 3, 3.5, 4.5가 대략 동일 파라미터 범위인지 궁금하며, 모든 모델 정보를 투명하게 공개하면 좋겠음
그래서 대부분 큰 모델을 쓰려는 심리가 큰데, 실제로 GPT-5가 성능 대비 가격이 가장 인상적이라 생각함
참고 가격:
Haiku 3: 입력 $0.25/M, 출력 $1.25/M
Haiku 4.5: 입력 $1.00/M, 출력 $5.00/M
GPT-5: 입력 $1.25/M, 출력 $10.00/M
GPT-5-mini: 입력 $0.25/M, 출력 $2.00/M
GPT-5-nano: 입력 $0.05/M, 출력 $0.40/M
GLM-4.6: 입력 $0.60/M, 출력 $2.20/M
업데이트, Haiku 4.5는 코드 변경이 정확할 뿐 아니라 속도도 매우 빠름
평균 220 token/sec로, 비슷한 모델들 대비 거의 2배 수준임
이 속도가 꾸준히 유지된다면 엄청난 가치
참고로 Gemini 2.5 Flash Lite와 비슷한 속도임
Groq, Cerebras 등도 1000 token/sec까지 나오지만, 비교 가능한 모델은 아님
Anthropic은 내가 해본 퍼스널 벤치마크에서 항상 오픈 벤치마크보다 잘 나왔으며, 그래서 기대가 큼
속도, 성능, 가격이 앞으로도 유지될 수 있다면 대부분의 코딩 작업에 Haiku 4.5가 훌륭한 선택지임
Sonnet은 특정 상황에만 쓸 듯
과거 Claude 모델은 긴 체인 작업(7분 초과)에서는 성능 저하가 있었는데, Haiku 4.5도 그렇다면 단점
하지만 아직 장기 작업 테스트는 못 해 봄
문제는, Claude Code에서 Haiku 4.5와 Sonnet 4.5 사용량을 동일하게 집계하는 중임(가격 차이 심한데)
지원 페이지 업데이트도 안 되어 있음 지원 문서
이런 정보는 런칭 당일엔 꼭 공지되었으면 함
위와 같은 툴링, 테스트, 공지 시스템 등은 Anthropic 모델의 멋진 성능에 그림자를 드리움
Haiku 업데이트를 정말 기다렸고, 이전 버전도 저렴하게 똑똑하게 쓸 수 있어서 꾸준히 써왔음
이번에 드디어 나와서 내 모든 봇(아니 에이전트)에 업그레이드 적용 중임
평소 토큰 사용량 평균치가 없이 가격만 봐서는 의미가 떨어진다고 생각함
요즘 모델, 기능 비교가 너무 번거롭고 귀찮음
LLM 생태계마다 제한이 달라 계속 왔다갔다 해야 하고, Claude Code와 Codex에 각각 월 $20씩 내고 있음
Cursor도 쓰긴 하는데, 내부적으로 어떤 모델이 쓰이는지 신경 안 씀
그저 꾸준하게 통합된 툴을 원함
백엔드에서 무슨 일이 일어나는지 내가 고민하지 않아도 자동으로 더 나아지길 바람
마치 TLS 서버처럼, CLI/Neovim/IDE 어디서든 통합되었으면 함
하나만 골라도, 처음엔 프롬프트 기반 개발, 그다음 컨텍스트 주도, 다시 세부 스펙 활용, 그리고 이젠 대화형 접근이 좋다 함
근데 또 예제 주도형이 낫다고 하고, 각 방식마다 장단점이 있다지만 업계 표준 컨센서스가 없어서 좋은 예시도 찾기 어려움
예전에 누가 답글로 ‘bug-driven development’라고 해서 꽂혔는데, 결국 아무 식이나 써서 결과 나오면 버그랑 에러 다 본 뒤 고치는 식임
CLI건, neovim이건, IDE건 툴링 전환 스트레스 없이 쓸 수 있는 통합이 나에겐 최우선임
그래서 GitHub Copilot Pro+를 쓰고 있음
새로운 모델 나오면 즉시 선택 가능(Claude Haiku 4.5도 나옴)
프리미엄 사용량 다 쓴 적 없음, 나는 빡센 유저는 아님
CLI 버전은 안 써봤지만 흥미로움
IntelliJ 플러그인이 업데이트되기 전엔 VS Code로 프롬프트 날리고 다시 돌아오곤 했음
웹버전의 Spaces도 틈새 작업에 유용함
개별 LLM 대비 Copilot이 어떤지 잘은 모르겠지만, 어쨌든 내가 원할 때만 튀어나오고 조용히 일 잘해주면 충분함
한 가지 옵션이라면 OpenRouter openrouter.ai에서 openrouter/auto 모델을 쓰면 GPT-5, Gemini 2.5 Pro, Claude Sonnet 4.5 등 여러 모델을 자동으로 골라줌
Crystal로 Codex와 Claude Code를 동시에 띄워놓고 가장 결과 좋은 걸 고를 수도 있음
나도 OpenRouter를 비슷한 이유로 쓰는 중임
한편으로는 lock-in 방지, 다른 한편으론 툴스위칭의 불편함을 줄이고, 만약 lock-in 되어도 쉽게 옮길 수 있도록 하기 위함임
Opus의 미래가 궁금함
계속 '괴물' 레벨의 성능과 가격으로 갈지, 아니면 4에서 4.5로의 점프가 완만할지 궁금함
최근에 Opus 4.1을 출시했으니, 4.1에서 4.5로의 변화 폭은 Sonnet 4->4.5 업그레이드와 비교하면 작을 듯
물론 버전 넘버링이 마케팅 효과만 있지 실제 의미가 있는지는 모르겠음
내 느낌엔 Sonnet과 Haiku 4.5는 4와 동일한 베이스 모델이며, Opus에서 생성한 데이터로 파인튜닝 한 게 주된 개선임
업계를 팔로우만 할 뿐 실제로 만들거나 개발하는 사람은 아니지만, 큰 모델로 작은 모델을 파인튜닝하는 건 업계 관행임
GPT-4 Turbo도 원본 GPT-4보다 훨씬 빠르고 저렴한 이유가 이것밖에 없음
OpenAI가 reasoning token 숨기는 것도 경쟁사 데이터 학습 방지를 위한 전략임
Opus가 한동안 사라졌다가 최근에 다시 나타남
아마 대/중/소 세가지 크기 모델을 계속 개발하며, 시장 수요와 모델 역량에 맞춰 출시 타이밍을 정하는 듯함
Haiku보다 더 작은 모델 이름은 뭘로 나올지 기대됨. 혹시 "Claude Phrase"?
실제 코드 문서화가 필요한 질문에서 Haiku와 Sonnet을 비교해 봤음
Haiku는 함수 출력 자체를 지어내서 틀린 답을 줬고, Sonnet은 정답을 맞춤
프리랜서 개발자로서 3배 빨라진 응답 속도만으로도 충분히 가치가 있다고 느낌
claude 4.5 대신 이걸로 갈아타면 훨씬 생산성 오를 것 같아 기대됨
이런 소형 모델들의 용도는 뭔지 궁금함? 속도? 온디바이스 전이 목적? API 요금 완화?
대부분 Claude 구독을 쓰고 있다면 용도가 별로 없는 거 아닌지 의문임
이제 GPT-5-mini와 Haiku 4.5까지 나온 지금, 오히려 ‘큰 모델이 필요한 경우가 무엇인지’를 묻고 싶음
우리 회사도 복잡한 내부 코드작업 빼고는 거의 다 작은 모델로 처리함
사용자 노출 환경, 워크플로우(추출, 변환, 번역, 병합, 평가 등)는 미니/나노 모델이 다 해냄
Claude code에서 소형 모델은 문맥성이 높고 작업이 명확한 경우(설정 가능)에 Sonnet 4.5에서 자동 위임하도록 되어 있음
주세션 컨텍스트 윈도우 절약과 토큰 처리량 증가 효과가 큼
빅 모델이 호출하는, 더 특화된 툴 콜용 서브모듈 만들 때 최적임
내가 쓰는 Cerebras Qwen Coder의 워크플로우는 실시간에 가까워서(3k tps), 에이전트라기보다 자연어 셸 느낌이 들고
플랜 짜서 큰 모델로 넘기기 전에 빠르게 반복 실험 가능함
OpenRouter LLM 랭킹만 봐도, 실제로 vibe/agentic coding에 쓰이는 대부분 모델은 ‘스몰 클래스’임 OpenRouter 랭킹 링크
물론 Gemini 2.5 Pro도 예상보다 순위가 높음
Hacker News 의견
약간 수상해 보이는 자전거를 타고 있는 귀여운 펠리컨 그림을 공유함 링크
Six months in LLMs,
펠리컨 자전거 태그 설명,
벤치마크 방법론
Shitaki Mushroom riding a rowboat
프롬프트: t3.chat prompt Claude 4.5 Haiku (Reasoning High): 178.98 token/sec, 1691 tokens, Time-to-First: 0.69초
그리고 Grok 4 Fast는 펠리컨+자전거 스타일에는 괜찮은데, 다른 요청엔 약함
Grok 샘플, 프롬프트: t3.chat prompt Grok 4 Fast (Reasoning High): 171.49 token/sec, 1291 tokens, Time-to-First: 4.5초
마지막으로 GPT-5 결과: 샘플, 프롬프트: t3.chat prompt GPT-5 (Reasoning High): 115.11 tok/sec, 4598 tokens, Time-to-First: 4.5초
주관적이긴 하나 Haiku의 버섯 점이 아주 인상적임
그리고 공공 벤치마크와 비공식 테스트 시나리오 간의 성능 차이가 Anthropic 모델에서 가장 적음
종종 Anthropic 모델이 오픈 벤치마크보다 오히려 더 좋은 결과를 보임
Haiku의 Time-to-First도 상당한 이점임
매우 초반 테스트임에도 결과가 상당히 인상적임
GPT-5와 달리 코드 변경에 불필요한 코드 섹션을 적게 포함해 더 정확하게 바뀜
덕분에 실제 환경에서 Haiku 4.5가 겉보기 비용 상승에도 불구하고, 사용 효율 면에선 더 저렴할 가능성이 있음
문제는 브랜드 파워임
Haiku 4.5가 Sonnet 4와 비슷한 품질일지 몰라도, 작은 모델에 대한 인식과 최근 일부 성능 저하로 인해 Haiku 4.5를 Sonnet 4.5 대신 택하기가 쉽지 않을 것
Haiku 3, 3.5, 4.5가 대략 동일 파라미터 범위인지 궁금하며, 모든 모델 정보를 투명하게 공개하면 좋겠음
그래서 대부분 큰 모델을 쓰려는 심리가 큰데, 실제로 GPT-5가 성능 대비 가격이 가장 인상적이라 생각함
참고 가격:
Haiku 3: 입력 $0.25/M, 출력 $1.25/M
Haiku 4.5: 입력 $1.00/M, 출력 $5.00/M
GPT-5: 입력 $1.25/M, 출력 $10.00/M
GPT-5-mini: 입력 $0.25/M, 출력 $2.00/M
GPT-5-nano: 입력 $0.05/M, 출력 $0.40/M
GLM-4.6: 입력 $0.60/M, 출력 $2.20/M
평균 220 token/sec로, 비슷한 모델들 대비 거의 2배 수준임
이 속도가 꾸준히 유지된다면 엄청난 가치
참고로 Gemini 2.5 Flash Lite와 비슷한 속도임
Groq, Cerebras 등도 1000 token/sec까지 나오지만, 비교 가능한 모델은 아님
Anthropic은 내가 해본 퍼스널 벤치마크에서 항상 오픈 벤치마크보다 잘 나왔으며, 그래서 기대가 큼
속도, 성능, 가격이 앞으로도 유지될 수 있다면 대부분의 코딩 작업에 Haiku 4.5가 훌륭한 선택지임
Sonnet은 특정 상황에만 쓸 듯
과거 Claude 모델은 긴 체인 작업(7분 초과)에서는 성능 저하가 있었는데, Haiku 4.5도 그렇다면 단점
하지만 아직 장기 작업 테스트는 못 해 봄
문제는, Claude Code에서 Haiku 4.5와 Sonnet 4.5 사용량을 동일하게 집계하는 중임(가격 차이 심한데)
지원 페이지 업데이트도 안 되어 있음 지원 문서
이런 정보는 런칭 당일엔 꼭 공지되었으면 함
위와 같은 툴링, 테스트, 공지 시스템 등은 Anthropic 모델의 멋진 성능에 그림자를 드리움
이번에 드디어 나와서 내 모든 봇(아니 에이전트)에 업그레이드 적용 중임
요즘 모델, 기능 비교가 너무 번거롭고 귀찮음
LLM 생태계마다 제한이 달라 계속 왔다갔다 해야 하고, Claude Code와 Codex에 각각 월 $20씩 내고 있음
Cursor도 쓰긴 하는데, 내부적으로 어떤 모델이 쓰이는지 신경 안 씀
그저 꾸준하게 통합된 툴을 원함
백엔드에서 무슨 일이 일어나는지 내가 고민하지 않아도 자동으로 더 나아지길 바람
마치 TLS 서버처럼, CLI/Neovim/IDE 어디서든 통합되었으면 함
근데 또 예제 주도형이 낫다고 하고, 각 방식마다 장단점이 있다지만 업계 표준 컨센서스가 없어서 좋은 예시도 찾기 어려움
예전에 누가 답글로 ‘bug-driven development’라고 해서 꽂혔는데, 결국 아무 식이나 써서 결과 나오면 버그랑 에러 다 본 뒤 고치는 식임
그래서 GitHub Copilot Pro+를 쓰고 있음
새로운 모델 나오면 즉시 선택 가능(Claude Haiku 4.5도 나옴)
프리미엄 사용량 다 쓴 적 없음, 나는 빡센 유저는 아님
CLI 버전은 안 써봤지만 흥미로움
IntelliJ 플러그인이 업데이트되기 전엔 VS Code로 프롬프트 날리고 다시 돌아오곤 했음
웹버전의
Spaces도 틈새 작업에 유용함개별 LLM 대비 Copilot이 어떤지 잘은 모르겠지만, 어쨌든 내가 원할 때만 튀어나오고 조용히 일 잘해주면 충분함
한편으로는 lock-in 방지, 다른 한편으론 툴스위칭의 불편함을 줄이고, 만약 lock-in 되어도 쉽게 옮길 수 있도록 하기 위함임
Opus의 미래가 궁금함
계속 '괴물' 레벨의 성능과 가격으로 갈지, 아니면 4에서 4.5로의 점프가 완만할지 궁금함
물론 버전 넘버링이 마케팅 효과만 있지 실제 의미가 있는지는 모르겠음
업계를 팔로우만 할 뿐 실제로 만들거나 개발하는 사람은 아니지만, 큰 모델로 작은 모델을 파인튜닝하는 건 업계 관행임
GPT-4 Turbo도 원본 GPT-4보다 훨씬 빠르고 저렴한 이유가 이것밖에 없음
OpenAI가 reasoning token 숨기는 것도 경쟁사 데이터 학습 방지를 위한 전략임
아마 대/중/소 세가지 크기 모델을 계속 개발하며, 시장 수요와 모델 역량에 맞춰 출시 타이밍을 정하는 듯함
실제 코드 문서화가 필요한 질문에서 Haiku와 Sonnet을 비교해 봤음
Haiku는 함수 출력 자체를 지어내서 틀린 답을 줬고, Sonnet은 정답을 맞춤
Sonnet 결과: 링크
입력 $1, 출력 $5 요금은 Sonnet 4.5에 비해 저렴하지만, 지금은 워낙 작은·빠른 LLM들이 많이 나와서, 대규모 에이전트 코딩에는 더 저렴한 모델이 중요함
Sonnet이 여전히 비싼데도 많이 쓰이기에 Haiku도 품질만 좋다면 충분히 인기 끌 것임
거의 모든 오픈소스 저가 모델들은 이만큼 효과적인 캐싱이 되지 않음
이거 진짜 엄청날 수도 있음
속도가 훨씬 중요해서 Haiku 4.5에 Sonnet 4.5보다 더 지불할 의향 있음
답변 기다리는 시간 너무 아까움
SWE Bench 73% 돌파면 내겐 충분함
Anthropic의 첫 소형 Reasoner 제품이라고 알고 있으며, 시스템 카드 정보도 첨부함
시스템 카드 PDF
(관련 논의 여기서 참고)
Extended NYT Connections(연결성 퍼즐 벤치마크)에서 Haiku 4.5는 20.0점, Haiku 3.5는 10.0점, Sonnet 3.7은 19.2점, Sonnet 4.0은 26.6점, Sonnet 4.5는 46.1점 나옴
프리랜서 개발자로서 3배 빨라진 응답 속도만으로도 충분히 가치가 있다고 느낌
claude 4.5 대신 이걸로 갈아타면 훨씬 생산성 오를 것 같아 기대됨
이런 소형 모델들의 용도는 뭔지 궁금함? 속도? 온디바이스 전이 목적? API 요금 완화? 대부분 Claude 구독을 쓰고 있다면 용도가 별로 없는 거 아닌지 의문임
우리 회사도 복잡한 내부 코드작업 빼고는 거의 다 작은 모델로 처리함
사용자 노출 환경, 워크플로우(추출, 변환, 번역, 병합, 평가 등)는 미니/나노 모델이 다 해냄
주세션 컨텍스트 윈도우 절약과 토큰 처리량 증가 효과가 큼
플랜 짜서 큰 모델로 넘기기 전에 빠르게 반복 실험 가능함
OpenRouter 랭킹 링크
물론 Gemini 2.5 Pro도 예상보다 순위가 높음