Anthropic, Claude Haiku 4.5 공개
(anthropic.com)- Claude Haiku 4.5는 소형 모델임에도 불구하고, Claude Sonnet 4 수준의 코드 성능을 3분의 1 비용과 2배 이상의 속도로 제공함
- SWE-bench Verified 등 실제 개발 벤치마크에서 이전 세대 모델을 뛰어넘는 AI 코딩 효율성과 반응성을 보임
- Sonnet 4.5와 연계해 멀티 에이전트 구성이나 복잡한 문제 분할 실행이 가능하며, 실시간 작업과 저지연 환경에 적합함
- 실시간 챗봇, 고객 지원, 페어 프로그래밍 등에서 높은 지능과 속도의 장점을 경험할 수 있음
- 안전성 평가 결과, Anthropic 모델 중 가장 높은 정렬 수준을 보였으며, AI Safety Level 2(ASL-2) 기준으로 공개됨
- 입력/출력 백만 토큰당 $1/$5
소개
- Claude Haiku 4.5는 Anthropic의 최신 소형 모델 라인업으로, 모든 사용자에게 제공되는 성능과 속도, 비용 효율의 균형을 맞춘 모델
- Claude Sonnet 4와 유사한 코딩 능력을 보이면서, 비용은 3분의 1, 속도는 2배 이상 빠름
- 특정 작업(컴퓨터 활용 등)에서는 Sonnet 4보다도 높은 성능을 보임
- 특히 Claude for Chrome이나 Claude Code와 같은 실시간 도구에서 지연 없는 AI 보조 작업 환경을 제공함
주요 특징 및 사용 사례
- 실시간, 저지연 작업에 적합하여 챗봇, 고객 서비스, 페어 프로그래밍 등에서 높은 효율성을 보임
- Claude Code 이용자에게는 다중 에이전트 프로젝트, 빠른 프로토타이핑 등에서 빠른 반응성을 보여 이상적인 성능을 제공
- 현재 Sonnet 4.5는 여전히 최상위 모델로 남아 있지만, Haiku 4.5는 비슷한 성능과 높은 비용 효율성을 제공함
- 두 모델을 함께 사용할 수도 있는데, 예를 들어 Sonnet 4.5가 복잡한 문제를 분해해 Haiku 4.5 여러 개가 병렬적으로 하위 작업을 처리할 수 있음
- Claude Haiku 4.5는 오늘부터 전 세계에서 사용 가능하며, 개발자는 Claude API에서
claude-haiku-4-5
로 바로 활용 가능 - 가격은 입력/출력 토큰 백만 개당 $1/$5로 제공됨
벤치마크 및 사용자 평가
- Haiku 4.5는 Anthropic에서 출시한 가장 강력한 모델 중 하나
- Augment, Warp, Gamma 등 다양한 기업들이 실제 테스트에서 Sonnet 4.5 대비 90% 이상의 코드 품질을 확인했다고 언급함
- 에이전트 코딩, 하위 에이전트 조율, 컴퓨터 활용 과제 등에서 비약적인 진전을 보이며, 개발 경험의 즉각성을 극대화함
- 전통적으로 품질과 속도, 비용 간에 절충이 있었으나, Haiku 4.5는 속도와 비용 효율성 모두를 달성함
- 지능과 실시간 반응성을 모두 제공하여, 새로운 AI 애플리케이션 가능성을 열음
- 6개월 전만 해도 최첨단 수준이었던 성능이 이제 더 저렴하고 빠른 속도로 구현됨
- 복잡한 워크플로를 빠르고 안정적으로 처리하며, 실시간 자기 교정도 가능함
- 슬라이드 텍스트 생성 등 특정 지시 처리에서 기존 모델 대비 월등한 수행율을 기록함
- GitHub Copilot 등과 연계 시 Sonnet 4와 비슷한 코드 품질을 더 빠르게 제공함
안전성 평가
- 다양한 안전·정렬 평가 결과, 문제 행동 비율이 낮으며, 이전 버전(Claude Haiku 3.5) 대비 정렬력도 향상됨
- Sonnet 4.5/Opus 4.1보다도 낮은 오정렬 행동 비율을 보여, Anthropic이 제작한 모델 중 가장 안전한 모델로 평가됨
- 화학·생물·방사능·핵(CBRN) 위험성 역시 매우 낮게 평가되어 ASL-2 표준으로 공개됨
- 더 엄격한 제한이 적용된 ASL-3(Sonnet 4.5, Opus 4.1) 대비 자유롭게 활용 가능
추가 정보
Hacker News 의견
-
약간 수상해 보이는 자전거를 타고 있는 귀여운 펠리컨 그림을 공유함 링크
- Gemini Pro가 처음엔 SVG 코드 제공을 거부했지만, ‘SVG 코드가 맞는지 확인해 보고 싶다고’ 조금 더 자세히 요청하니, 결국 SVG 코드를 반환해줌
- 이 벤치마크의 배경을 모르는 분들을 위해 참고 자료를 공유함
Six months in LLMs,
펠리컨 자전거 태그 설명,
벤치마크 방법론 - 벤치마크 조작 방지를 위해 ‘보트 타는 시타키 버섯’ 샘플도 공유함
Shitaki Mushroom riding a rowboat
프롬프트: t3.chat prompt Claude 4.5 Haiku (Reasoning High): 178.98 token/sec, 1691 tokens, Time-to-First: 0.69초
그리고 Grok 4 Fast는 펠리컨+자전거 스타일에는 괜찮은데, 다른 요청엔 약함
Grok 샘플, 프롬프트: t3.chat prompt Grok 4 Fast (Reasoning High): 171.49 token/sec, 1291 tokens, Time-to-First: 4.5초
마지막으로 GPT-5 결과: 샘플, 프롬프트: t3.chat prompt GPT-5 (Reasoning High): 115.11 tok/sec, 4598 tokens, Time-to-First: 4.5초
주관적이긴 하나 Haiku의 버섯 점이 아주 인상적임
그리고 공공 벤치마크와 비공식 테스트 시나리오 간의 성능 차이가 Anthropic 모델에서 가장 적음
종종 Anthropic 모델이 오픈 벤치마크보다 오히려 더 좋은 결과를 보임
Haiku의 Time-to-First도 상당한 이점임 - 최첨단 모델 회사들이 이런 테스트를 이스터에그로 넣지 않은 게 의외임
- 이미지 생성 모델들이 궁수의 팔을 그리는 데 늘 고생하던데, 말을 탄 궁수가 호수의 돛단배를 향해 불화살을 쏘는 간단한 테스트 프롬프트로 모든 모델을 비교해 볼 수 있을지 제안해봄
-
매우 초반 테스트임에도 결과가 상당히 인상적임
GPT-5와 달리 코드 변경에 불필요한 코드 섹션을 적게 포함해 더 정확하게 바뀜
덕분에 실제 환경에서 Haiku 4.5가 겉보기 비용 상승에도 불구하고, 사용 효율 면에선 더 저렴할 가능성이 있음
문제는 브랜드 파워임
Haiku 4.5가 Sonnet 4와 비슷한 품질일지 몰라도, 작은 모델에 대한 인식과 최근 일부 성능 저하로 인해 Haiku 4.5를 Sonnet 4.5 대신 택하기가 쉽지 않을 것
Haiku 3, 3.5, 4.5가 대략 동일 파라미터 범위인지 궁금하며, 모든 모델 정보를 투명하게 공개하면 좋겠음
그래서 대부분 큰 모델을 쓰려는 심리가 큰데, 실제로 GPT-5가 성능 대비 가격이 가장 인상적이라 생각함
참고 가격:
Haiku 3: 입력 $0.25/M, 출력 $1.25/M
Haiku 4.5: 입력 $1.00/M, 출력 $5.00/M
GPT-5: 입력 $1.25/M, 출력 $10.00/M
GPT-5-mini: 입력 $0.25/M, 출력 $2.00/M
GPT-5-nano: 입력 $0.05/M, 출력 $0.40/M
GLM-4.6: 입력 $0.60/M, 출력 $2.20/M- 업데이트, Haiku 4.5는 코드 변경이 정확할 뿐 아니라 속도도 매우 빠름
평균 220 token/sec로, 비슷한 모델들 대비 거의 2배 수준임
이 속도가 꾸준히 유지된다면 엄청난 가치
참고로 Gemini 2.5 Flash Lite와 비슷한 속도임
Groq, Cerebras 등도 1000 token/sec까지 나오지만, 비교 가능한 모델은 아님
Anthropic은 내가 해본 퍼스널 벤치마크에서 항상 오픈 벤치마크보다 잘 나왔으며, 그래서 기대가 큼
속도, 성능, 가격이 앞으로도 유지될 수 있다면 대부분의 코딩 작업에 Haiku 4.5가 훌륭한 선택지임
Sonnet은 특정 상황에만 쓸 듯
과거 Claude 모델은 긴 체인 작업(7분 초과)에서는 성능 저하가 있었는데, Haiku 4.5도 그렇다면 단점
하지만 아직 장기 작업 테스트는 못 해 봄
문제는, Claude Code에서 Haiku 4.5와 Sonnet 4.5 사용량을 동일하게 집계하는 중임(가격 차이 심한데)
지원 페이지 업데이트도 안 되어 있음 지원 문서
이런 정보는 런칭 당일엔 꼭 공지되었으면 함
위와 같은 툴링, 테스트, 공지 시스템 등은 Anthropic 모델의 멋진 성능에 그림자를 드리움 - Haiku 업데이트를 정말 기다렸고, 이전 버전도 저렴하게 똑똑하게 쓸 수 있어서 꾸준히 써왔음
이번에 드디어 나와서 내 모든 봇(아니 에이전트)에 업그레이드 적용 중임 - 평소 토큰 사용량 평균치가 없이 가격만 봐서는 의미가 떨어진다고 생각함
- 업데이트, Haiku 4.5는 코드 변경이 정확할 뿐 아니라 속도도 매우 빠름
-
요즘 모델, 기능 비교가 너무 번거롭고 귀찮음
LLM 생태계마다 제한이 달라 계속 왔다갔다 해야 하고, Claude Code와 Codex에 각각 월 $20씩 내고 있음
Cursor도 쓰긴 하는데, 내부적으로 어떤 모델이 쓰이는지 신경 안 씀
그저 꾸준하게 통합된 툴을 원함
백엔드에서 무슨 일이 일어나는지 내가 고민하지 않아도 자동으로 더 나아지길 바람
마치 TLS 서버처럼, CLI/Neovim/IDE 어디서든 통합되었으면 함- 하나만 골라도, 처음엔 프롬프트 기반 개발, 그다음 컨텍스트 주도, 다시 세부 스펙 활용, 그리고 이젠 대화형 접근이 좋다 함
근데 또 예제 주도형이 낫다고 하고, 각 방식마다 장단점이 있다지만 업계 표준 컨센서스가 없어서 좋은 예시도 찾기 어려움
예전에 누가 답글로 ‘bug-driven development’라고 해서 꽂혔는데, 결국 아무 식이나 써서 결과 나오면 버그랑 에러 다 본 뒤 고치는 식임 - CLI건, neovim이건, IDE건 툴링 전환 스트레스 없이 쓸 수 있는 통합이 나에겐 최우선임
그래서 GitHub Copilot Pro+를 쓰고 있음
새로운 모델 나오면 즉시 선택 가능(Claude Haiku 4.5도 나옴)
프리미엄 사용량 다 쓴 적 없음, 나는 빡센 유저는 아님
CLI 버전은 안 써봤지만 흥미로움
IntelliJ 플러그인이 업데이트되기 전엔 VS Code로 프롬프트 날리고 다시 돌아오곤 했음
웹버전의Spaces
도 틈새 작업에 유용함
개별 LLM 대비 Copilot이 어떤지 잘은 모르겠지만, 어쨌든 내가 원할 때만 튀어나오고 조용히 일 잘해주면 충분함 - 한 가지 옵션이라면 OpenRouter openrouter.ai에서 openrouter/auto 모델을 쓰면 GPT-5, Gemini 2.5 Pro, Claude Sonnet 4.5 등 여러 모델을 자동으로 골라줌
- Crystal로 Codex와 Claude Code를 동시에 띄워놓고 가장 결과 좋은 걸 고를 수도 있음
- 나도 OpenRouter를 비슷한 이유로 쓰는 중임
한편으로는 lock-in 방지, 다른 한편으론 툴스위칭의 불편함을 줄이고, 만약 lock-in 되어도 쉽게 옮길 수 있도록 하기 위함임
- 하나만 골라도, 처음엔 프롬프트 기반 개발, 그다음 컨텍스트 주도, 다시 세부 스펙 활용, 그리고 이젠 대화형 접근이 좋다 함
-
Opus의 미래가 궁금함
계속 '괴물' 레벨의 성능과 가격으로 갈지, 아니면 4에서 4.5로의 점프가 완만할지 궁금함- 최근에 Opus 4.1을 출시했으니, 4.1에서 4.5로의 변화 폭은 Sonnet 4->4.5 업그레이드와 비교하면 작을 듯
물론 버전 넘버링이 마케팅 효과만 있지 실제 의미가 있는지는 모르겠음 - 내 느낌엔 Sonnet과 Haiku 4.5는 4와 동일한 베이스 모델이며, Opus에서 생성한 데이터로 파인튜닝 한 게 주된 개선임
업계를 팔로우만 할 뿐 실제로 만들거나 개발하는 사람은 아니지만, 큰 모델로 작은 모델을 파인튜닝하는 건 업계 관행임
GPT-4 Turbo도 원본 GPT-4보다 훨씬 빠르고 저렴한 이유가 이것밖에 없음
OpenAI가 reasoning token 숨기는 것도 경쟁사 데이터 학습 방지를 위한 전략임 - Opus가 한동안 사라졌다가 최근에 다시 나타남
아마 대/중/소 세가지 크기 모델을 계속 개발하며, 시장 수요와 모델 역량에 맞춰 출시 타이밍을 정하는 듯함 - Haiku보다 더 작은 모델 이름은 뭘로 나올지 기대됨. 혹시 "Claude Phrase"?
- 최근에 Opus 4.1을 출시했으니, 4.1에서 4.5로의 변화 폭은 Sonnet 4->4.5 업그레이드와 비교하면 작을 듯
-
실제 코드 문서화가 필요한 질문에서 Haiku와 Sonnet을 비교해 봤음
Haiku는 함수 출력 자체를 지어내서 틀린 답을 줬고, Sonnet은 정답을 맞춤 -
입력 $1, 출력 $5 요금은 Sonnet 4.5에 비해 저렴하지만, 지금은 워낙 작은·빠른 LLM들이 많이 나와서, 대규모 에이전트 코딩에는 더 저렴한 모델이 중요함
Sonnet이 여전히 비싼데도 많이 쓰이기에 Haiku도 품질만 좋다면 충분히 인기 끌 것임- 캐싱 활용 땐 입력백만 당 10센트까지 내려감
거의 모든 오픈소스 저가 모델들은 이만큼 효과적인 캐싱이 되지 않음
이거 진짜 엄청날 수도 있음 - 나는 프로 개발자라 비용은 신경 안 씀
속도가 훨씬 중요해서 Haiku 4.5에 Sonnet 4.5보다 더 지불할 의향 있음
답변 기다리는 시간 너무 아까움
SWE Bench 73% 돌파면 내겐 충분함 - API 사용 측면에서 Claude Code가 더 비싸지긴 했음(벤치마크만 믿는다면 그래도 품질은 개선됨)
- 3.5 Haiku가 $0.8/$4였는데 4.5가 $1/$5라 다소 실망스러움 현재 OpenAI, Gemini의 저가 모델(GPT-5-Nano $0.05/$0.40·Gemini 2.0 Flash Lite $0.075/$0.30)에 비해 가격 경쟁력이 떨어짐
- 캐싱 활용 땐 입력백만 당 10센트까지 내려감
-
Anthropic의 첫 소형 Reasoner 제품이라고 알고 있으며, 시스템 카드 정보도 첨부함
시스템 카드 PDF
(관련 논의 여기서 참고) -
Extended NYT Connections(연결성 퍼즐 벤치마크)에서 Haiku 4.5는 20.0점, Haiku 3.5는 10.0점, Sonnet 3.7은 19.2점, Sonnet 4.0은 26.6점, Sonnet 4.5는 46.1점 나옴
-
프리랜서 개발자로서 3배 빨라진 응답 속도만으로도 충분히 가치가 있다고 느낌
claude 4.5 대신 이걸로 갈아타면 훨씬 생산성 오를 것 같아 기대됨 -
이런 소형 모델들의 용도는 뭔지 궁금함? 속도? 온디바이스 전이 목적? API 요금 완화? 대부분 Claude 구독을 쓰고 있다면 용도가 별로 없는 거 아닌지 의문임
- 이제 GPT-5-mini와 Haiku 4.5까지 나온 지금, 오히려 ‘큰 모델이 필요한 경우가 무엇인지’를 묻고 싶음
우리 회사도 복잡한 내부 코드작업 빼고는 거의 다 작은 모델로 처리함
사용자 노출 환경, 워크플로우(추출, 변환, 번역, 병합, 평가 등)는 미니/나노 모델이 다 해냄 - Claude code에서 소형 모델은 문맥성이 높고 작업이 명확한 경우(설정 가능)에 Sonnet 4.5에서 자동 위임하도록 되어 있음
주세션 컨텍스트 윈도우 절약과 토큰 처리량 증가 효과가 큼 - 빅 모델이 호출하는, 더 특화된 툴 콜용 서브모듈 만들 때 최적임
- 내가 쓰는 Cerebras Qwen Coder의 워크플로우는 실시간에 가까워서(3k tps), 에이전트라기보다 자연어 셸 느낌이 들고
플랜 짜서 큰 모델로 넘기기 전에 빠르게 반복 실험 가능함 - OpenRouter LLM 랭킹만 봐도, 실제로 vibe/agentic coding에 쓰이는 대부분 모델은 ‘스몰 클래스’임
OpenRouter 랭킹 링크
물론 Gemini 2.5 Pro도 예상보다 순위가 높음
- 이제 GPT-5-mini와 Haiku 4.5까지 나온 지금, 오히려 ‘큰 모델이 필요한 경우가 무엇인지’를 묻고 싶음