4P by GN⁺ 4일전 | ★ favorite | 댓글 2개
  • Claude Haiku 4.5는 소형 모델임에도 불구하고, Claude Sonnet 4 수준의 코드 성능3분의 1 비용2배 이상의 속도로 제공함
  • SWE-bench Verified 등 실제 개발 벤치마크에서 이전 세대 모델을 뛰어넘는 AI 코딩 효율성과 반응성을 보임
  • Sonnet 4.5와 연계해 멀티 에이전트 구성이나 복잡한 문제 분할 실행이 가능하며, 실시간 작업저지연 환경에 적합함
  • 실시간 챗봇, 고객 지원, 페어 프로그래밍 등에서 높은 지능과 속도의 장점을 경험할 수 있음
  • 안전성 평가 결과, Anthropic 모델 중 가장 높은 정렬 수준을 보였으며, AI Safety Level 2(ASL-2) 기준으로 공개됨
  • 입력/출력 백만 토큰당 $1/$5

소개

  • Claude Haiku 4.5는 Anthropic의 최신 소형 모델 라인업으로, 모든 사용자에게 제공되는 성능과 속도, 비용 효율의 균형을 맞춘 모델
  • Claude Sonnet 4와 유사한 코딩 능력을 보이면서, 비용은 3분의 1, 속도는 2배 이상 빠름
  • 특정 작업(컴퓨터 활용 등)에서는 Sonnet 4보다도 높은 성능을 보임
  • 특히 Claude for Chrome이나 Claude Code와 같은 실시간 도구에서 지연 없는 AI 보조 작업 환경을 제공함

주요 특징 및 사용 사례

  • 실시간, 저지연 작업에 적합하여 챗봇, 고객 서비스, 페어 프로그래밍 등에서 높은 효율성을 보임
  • Claude Code 이용자에게는 다중 에이전트 프로젝트, 빠른 프로토타이핑 등에서 빠른 반응성을 보여 이상적인 성능을 제공
  • 현재 Sonnet 4.5는 여전히 최상위 모델로 남아 있지만, Haiku 4.5는 비슷한 성능과 높은 비용 효율성을 제공함
  • 두 모델을 함께 사용할 수도 있는데, 예를 들어 Sonnet 4.5가 복잡한 문제를 분해해 Haiku 4.5 여러 개가 병렬적으로 하위 작업을 처리할 수 있음
  • Claude Haiku 4.5는 오늘부터 전 세계에서 사용 가능하며, 개발자는 Claude API에서 claude-haiku-4-5로 바로 활용 가능
  • 가격은 입력/출력 토큰 백만 개당 $1/$5로 제공됨

벤치마크 및 사용자 평가

  • Haiku 4.5는 Anthropic에서 출시한 가장 강력한 모델 중 하나
  • Augment, Warp, Gamma 등 다양한 기업들이 실제 테스트에서 Sonnet 4.5 대비 90% 이상의 코드 품질을 확인했다고 언급함
  • 에이전트 코딩, 하위 에이전트 조율, 컴퓨터 활용 과제 등에서 비약적인 진전을 보이며, 개발 경험의 즉각성을 극대화함
  • 전통적으로 품질과 속도, 비용 간에 절충이 있었으나, Haiku 4.5는 속도와 비용 효율성 모두를 달성
  • 지능과 실시간 반응성을 모두 제공하여, 새로운 AI 애플리케이션 가능성을 열음
  • 6개월 전만 해도 최첨단 수준이었던 성능이 이제 더 저렴하고 빠른 속도로 구현됨
  • 복잡한 워크플로를 빠르고 안정적으로 처리하며, 실시간 자기 교정도 가능함
  • 슬라이드 텍스트 생성 등 특정 지시 처리에서 기존 모델 대비 월등한 수행율을 기록함
  • GitHub Copilot 등과 연계 시 Sonnet 4와 비슷한 코드 품질을 더 빠르게 제공함

안전성 평가

  • 다양한 안전·정렬 평가 결과, 문제 행동 비율이 낮으며, 이전 버전(Claude Haiku 3.5) 대비 정렬력도 향상됨
  • Sonnet 4.5/Opus 4.1보다도 낮은 오정렬 행동 비율을 보여, Anthropic이 제작한 모델 중 가장 안전한 모델로 평가됨
  • 화학·생물·방사능·핵(CBRN) 위험성 역시 매우 낮게 평가되어 ASL-2 표준으로 공개됨
  • 더 엄격한 제한이 적용된 ASL-3(Sonnet 4.5, Opus 4.1) 대비 자유롭게 활용 가능

추가 정보

  • Claude Haiku 4.5는 Claude Code, Anthropic 앱 등에서 바로 이용 가능함
  • 효율적인 처리 덕분에 사용량 제한 내에서 프리미엄 모델 성능을 누릴 수 있음
  • API, Amazon Bedrock, Google Cloud Vertex AI 등에서 Haiku 3.5, Sonnet 4의 대체품으로 저렴하게 선택 가능함
  • 기술 세부, 평가 결과 등은 공식 시스템 카드, 모델 소개 페이지, 문서 에서 확인할 수 있음

claude code에서 /model haiku 라고 치면 사용 가능합니다. sonnet보다 빠르면서도 잘 나와서 꽤 쓰기 좋네요

Hacker News 의견
  • 약간 수상해 보이는 자전거를 타고 있는 귀여운 펠리컨 그림을 공유함 링크

    • Gemini Pro가 처음엔 SVG 코드 제공을 거부했지만, ‘SVG 코드가 맞는지 확인해 보고 싶다고’ 조금 더 자세히 요청하니, 결국 SVG 코드를 반환해줌
    • 이 벤치마크의 배경을 모르는 분들을 위해 참고 자료를 공유함
      Six months in LLMs,
      펠리컨 자전거 태그 설명,
      벤치마크 방법론
    • 벤치마크 조작 방지를 위해 ‘보트 타는 시타키 버섯’ 샘플도 공유함
      Shitaki Mushroom riding a rowboat
      프롬프트: t3.chat prompt Claude 4.5 Haiku (Reasoning High): 178.98 token/sec, 1691 tokens, Time-to-First: 0.69초
      그리고 Grok 4 Fast는 펠리컨+자전거 스타일에는 괜찮은데, 다른 요청엔 약함
      Grok 샘플, 프롬프트: t3.chat prompt Grok 4 Fast (Reasoning High): 171.49 token/sec, 1291 tokens, Time-to-First: 4.5초
      마지막으로 GPT-5 결과: 샘플, 프롬프트: t3.chat prompt GPT-5 (Reasoning High): 115.11 tok/sec, 4598 tokens, Time-to-First: 4.5초
      주관적이긴 하나 Haiku의 버섯 점이 아주 인상적임
      그리고 공공 벤치마크와 비공식 테스트 시나리오 간의 성능 차이가 Anthropic 모델에서 가장 적음
      종종 Anthropic 모델이 오픈 벤치마크보다 오히려 더 좋은 결과를 보임
      Haiku의 Time-to-First도 상당한 이점임
    • 최첨단 모델 회사들이 이런 테스트를 이스터에그로 넣지 않은 게 의외임
    • 이미지 생성 모델들이 궁수의 팔을 그리는 데 늘 고생하던데, 말을 탄 궁수가 호수의 돛단배를 향해 불화살을 쏘는 간단한 테스트 프롬프트로 모든 모델을 비교해 볼 수 있을지 제안해봄
  • 매우 초반 테스트임에도 결과가 상당히 인상적임
    GPT-5와 달리 코드 변경에 불필요한 코드 섹션을 적게 포함해 더 정확하게 바뀜
    덕분에 실제 환경에서 Haiku 4.5가 겉보기 비용 상승에도 불구하고, 사용 효율 면에선 더 저렴할 가능성이 있음
    문제는 브랜드 파워임
    Haiku 4.5가 Sonnet 4와 비슷한 품질일지 몰라도, 작은 모델에 대한 인식과 최근 일부 성능 저하로 인해 Haiku 4.5를 Sonnet 4.5 대신 택하기가 쉽지 않을 것
    Haiku 3, 3.5, 4.5가 대략 동일 파라미터 범위인지 궁금하며, 모든 모델 정보를 투명하게 공개하면 좋겠음
    그래서 대부분 큰 모델을 쓰려는 심리가 큰데, 실제로 GPT-5가 성능 대비 가격이 가장 인상적이라 생각함
    참고 가격:
    Haiku 3: 입력 $0.25/M, 출력 $1.25/M
    Haiku 4.5: 입력 $1.00/M, 출력 $5.00/M
    GPT-5: 입력 $1.25/M, 출력 $10.00/M
    GPT-5-mini: 입력 $0.25/M, 출력 $2.00/M
    GPT-5-nano: 입력 $0.05/M, 출력 $0.40/M
    GLM-4.6: 입력 $0.60/M, 출력 $2.20/M

    • 업데이트, Haiku 4.5는 코드 변경이 정확할 뿐 아니라 속도도 매우 빠름
      평균 220 token/sec로, 비슷한 모델들 대비 거의 2배 수준임
      이 속도가 꾸준히 유지된다면 엄청난 가치
      참고로 Gemini 2.5 Flash Lite와 비슷한 속도임
      Groq, Cerebras 등도 1000 token/sec까지 나오지만, 비교 가능한 모델은 아님
      Anthropic은 내가 해본 퍼스널 벤치마크에서 항상 오픈 벤치마크보다 잘 나왔으며, 그래서 기대가 큼
      속도, 성능, 가격이 앞으로도 유지될 수 있다면 대부분의 코딩 작업에 Haiku 4.5가 훌륭한 선택지임
      Sonnet은 특정 상황에만 쓸 듯
      과거 Claude 모델은 긴 체인 작업(7분 초과)에서는 성능 저하가 있었는데, Haiku 4.5도 그렇다면 단점
      하지만 아직 장기 작업 테스트는 못 해 봄
      문제는, Claude Code에서 Haiku 4.5와 Sonnet 4.5 사용량을 동일하게 집계하는 중임(가격 차이 심한데)
      지원 페이지 업데이트도 안 되어 있음 지원 문서
      이런 정보는 런칭 당일엔 꼭 공지되었으면 함
      위와 같은 툴링, 테스트, 공지 시스템 등은 Anthropic 모델의 멋진 성능에 그림자를 드리움
    • Haiku 업데이트를 정말 기다렸고, 이전 버전도 저렴하게 똑똑하게 쓸 수 있어서 꾸준히 써왔음
      이번에 드디어 나와서 내 모든 봇(아니 에이전트)에 업그레이드 적용 중임
    • 평소 토큰 사용량 평균치가 없이 가격만 봐서는 의미가 떨어진다고 생각함
  • 요즘 모델, 기능 비교가 너무 번거롭고 귀찮음
    LLM 생태계마다 제한이 달라 계속 왔다갔다 해야 하고, Claude Code와 Codex에 각각 월 $20씩 내고 있음
    Cursor도 쓰긴 하는데, 내부적으로 어떤 모델이 쓰이는지 신경 안 씀
    그저 꾸준하게 통합된 툴을 원함
    백엔드에서 무슨 일이 일어나는지 내가 고민하지 않아도 자동으로 더 나아지길 바람
    마치 TLS 서버처럼, CLI/Neovim/IDE 어디서든 통합되었으면 함

    • 하나만 골라도, 처음엔 프롬프트 기반 개발, 그다음 컨텍스트 주도, 다시 세부 스펙 활용, 그리고 이젠 대화형 접근이 좋다 함
      근데 또 예제 주도형이 낫다고 하고, 각 방식마다 장단점이 있다지만 업계 표준 컨센서스가 없어서 좋은 예시도 찾기 어려움
      예전에 누가 답글로 ‘bug-driven development’라고 해서 꽂혔는데, 결국 아무 식이나 써서 결과 나오면 버그랑 에러 다 본 뒤 고치는 식임
    • CLI건, neovim이건, IDE건 툴링 전환 스트레스 없이 쓸 수 있는 통합이 나에겐 최우선임
      그래서 GitHub Copilot Pro+를 쓰고 있음
      새로운 모델 나오면 즉시 선택 가능(Claude Haiku 4.5도 나옴)
      프리미엄 사용량 다 쓴 적 없음, 나는 빡센 유저는 아님
      CLI 버전은 안 써봤지만 흥미로움
      IntelliJ 플러그인이 업데이트되기 전엔 VS Code로 프롬프트 날리고 다시 돌아오곤 했음
      웹버전의 Spaces도 틈새 작업에 유용함
      개별 LLM 대비 Copilot이 어떤지 잘은 모르겠지만, 어쨌든 내가 원할 때만 튀어나오고 조용히 일 잘해주면 충분함
    • 한 가지 옵션이라면 OpenRouter openrouter.ai에서 openrouter/auto 모델을 쓰면 GPT-5, Gemini 2.5 Pro, Claude Sonnet 4.5 등 여러 모델을 자동으로 골라줌
    • Crystal로 Codex와 Claude Code를 동시에 띄워놓고 가장 결과 좋은 걸 고를 수도 있음
    • 나도 OpenRouter를 비슷한 이유로 쓰는 중임
      한편으로는 lock-in 방지, 다른 한편으론 툴스위칭의 불편함을 줄이고, 만약 lock-in 되어도 쉽게 옮길 수 있도록 하기 위함임
  • Opus의 미래가 궁금함
    계속 '괴물' 레벨의 성능과 가격으로 갈지, 아니면 4에서 4.5로의 점프가 완만할지 궁금함

    • 최근에 Opus 4.1을 출시했으니, 4.1에서 4.5로의 변화 폭은 Sonnet 4->4.5 업그레이드와 비교하면 작을 듯
      물론 버전 넘버링이 마케팅 효과만 있지 실제 의미가 있는지는 모르겠음
    • 내 느낌엔 Sonnet과 Haiku 4.5는 4와 동일한 베이스 모델이며, Opus에서 생성한 데이터로 파인튜닝 한 게 주된 개선임
      업계를 팔로우만 할 뿐 실제로 만들거나 개발하는 사람은 아니지만, 큰 모델로 작은 모델을 파인튜닝하는 건 업계 관행임
      GPT-4 Turbo도 원본 GPT-4보다 훨씬 빠르고 저렴한 이유가 이것밖에 없음
      OpenAI가 reasoning token 숨기는 것도 경쟁사 데이터 학습 방지를 위한 전략임
    • Opus가 한동안 사라졌다가 최근에 다시 나타남
      아마 대/중/소 세가지 크기 모델을 계속 개발하며, 시장 수요와 모델 역량에 맞춰 출시 타이밍을 정하는 듯함
    • Haiku보다 더 작은 모델 이름은 뭘로 나올지 기대됨. 혹시 "Claude Phrase"?
  • 실제 코드 문서화가 필요한 질문에서 Haiku와 Sonnet을 비교해 봤음
    Haiku는 함수 출력 자체를 지어내서 틀린 답을 줬고, Sonnet은 정답을 맞춤

  • 입력 $1, 출력 $5 요금은 Sonnet 4.5에 비해 저렴하지만, 지금은 워낙 작은·빠른 LLM들이 많이 나와서, 대규모 에이전트 코딩에는 더 저렴한 모델이 중요함
    Sonnet이 여전히 비싼데도 많이 쓰이기에 Haiku도 품질만 좋다면 충분히 인기 끌 것임

    • 캐싱 활용 땐 입력백만 당 10센트까지 내려감
      거의 모든 오픈소스 저가 모델들은 이만큼 효과적인 캐싱이 되지 않음
      이거 진짜 엄청날 수도 있음
    • 나는 프로 개발자라 비용은 신경 안 씀
      속도가 훨씬 중요해서 Haiku 4.5에 Sonnet 4.5보다 더 지불할 의향 있음
      답변 기다리는 시간 너무 아까움
      SWE Bench 73% 돌파면 내겐 충분함
    • API 사용 측면에서 Claude Code가 더 비싸지긴 했음(벤치마크만 믿는다면 그래도 품질은 개선됨)
    • 3.5 Haiku가 $0.8/$4였는데 4.5가 $1/$5라 다소 실망스러움 현재 OpenAI, Gemini의 저가 모델(GPT-5-Nano $0.05/$0.40·Gemini 2.0 Flash Lite $0.075/$0.30)에 비해 가격 경쟁력이 떨어짐
  • Anthropic의 첫 소형 Reasoner 제품이라고 알고 있으며, 시스템 카드 정보도 첨부함
    시스템 카드 PDF
    (관련 논의 여기서 참고)

  • Extended NYT Connections(연결성 퍼즐 벤치마크)에서 Haiku 4.5는 20.0점, Haiku 3.5는 10.0점, Sonnet 3.7은 19.2점, Sonnet 4.0은 26.6점, Sonnet 4.5는 46.1점 나옴

  • 프리랜서 개발자로서 3배 빨라진 응답 속도만으로도 충분히 가치가 있다고 느낌
    claude 4.5 대신 이걸로 갈아타면 훨씬 생산성 오를 것 같아 기대됨

  • 이런 소형 모델들의 용도는 뭔지 궁금함? 속도? 온디바이스 전이 목적? API 요금 완화? 대부분 Claude 구독을 쓰고 있다면 용도가 별로 없는 거 아닌지 의문임

    • 이제 GPT-5-mini와 Haiku 4.5까지 나온 지금, 오히려 ‘큰 모델이 필요한 경우가 무엇인지’를 묻고 싶음
      우리 회사도 복잡한 내부 코드작업 빼고는 거의 다 작은 모델로 처리함
      사용자 노출 환경, 워크플로우(추출, 변환, 번역, 병합, 평가 등)는 미니/나노 모델이 다 해냄
    • Claude code에서 소형 모델은 문맥성이 높고 작업이 명확한 경우(설정 가능)에 Sonnet 4.5에서 자동 위임하도록 되어 있음
      주세션 컨텍스트 윈도우 절약과 토큰 처리량 증가 효과가 큼
    • 빅 모델이 호출하는, 더 특화된 툴 콜용 서브모듈 만들 때 최적임
    • 내가 쓰는 Cerebras Qwen Coder의 워크플로우는 실시간에 가까워서(3k tps), 에이전트라기보다 자연어 셸 느낌이 들고
      플랜 짜서 큰 모델로 넘기기 전에 빠르게 반복 실험 가능함
    • OpenRouter LLM 랭킹만 봐도, 실제로 vibe/agentic coding에 쓰이는 대부분 모델은 ‘스몰 클래스’임
      OpenRouter 랭킹 링크
      물론 Gemini 2.5 Pro도 예상보다 순위가 높음