Hacker News 의견
  • 2차 효과로 사람들이 많이 언급하지 않는 부분이 가격임에 주목함, 모델의 빠른 확장과 함께 가격도 떨어지는 현상은 인상적임, 이는 AI의 보급과 모델 지능만큼 중요한 요소임, 근본적으로 가격 하락을 막을 법칙 같은 건 없다고 알고 있음, 현재는 무어의 법칙(또는 AI/Nvidia 칩 개발 주기)과 유사하게 하드웨어 세대마다 훨씬 더 빠르고 저렴해짐, 그럼 1년 뒤엔 ChatGPT-5를 반값에 쓸 수 있겠음 (물론 고성능 모델이 더 비싸긴 하지만 토큰 당 요금 기준으로 봤을 때 얘기임)

    • 가격 하락 폭을 상당히 과소평가한 것임, 예를 들어 Andreessen Horowitz의 연구에 따르면 GPT-3.5 등장 이후 2년 동안 추론 비용이 연간 10배씩 감소했다고 함 참고 그래서 성장 둔화 시나리오여도 앞으로 5년 내에 1,000배 하락이 가능하다고 봄, 현재 가격 하락은 무어의 법칙과 직결되지 않고 모델 최적화, 고대역폭 메모리 공급망, 전력 인프라 투자 등 다양한 혁신 덕분임
  • 중국 오픈소스 모델들이 계속 발전하고 저렴해지는 흐름을 반가워함, 이미 저렴한 모델인데 API 가격이 50% 추가 인하되어 Input $0.28/M, (캐시 적중 시 $0.028/M), Output $0.42/M에 제공됨

    • 가격이 인하되었다니 예전 가격은 얼마였는지 궁금해짐, 오히려 최근에 가격이 올랐었다는 인상도 있었음

    • 가격 인하는 좋지만 이 수준이 얼마나 유지될지 궁금해짐, 예전에는 매우 저렴하다가 한 번 크게 오르더니 지금 다시 내렸기 때문임

  • Deepseek v3.2-exp 모델 소개 링크

    • 이상하게도 해당 모델은 "데이터로 학습"을 한다고 표시되어 있음 ("해당 제공업체는 프롬프트와 결과물을 신규 모델 학습에 활용할 수도 있음. 이 제공업체는 비활성화 상태지만 데이터 정책 변경 시 재활성화 가능"), 일반적으로 유료 모델은 입력 데이터를 학습에 쓰는 경우가 거의 없는데, Openrouter가 잘못 표시한 건지 Deepseek가 실제로 사용자 데이터를 학습에 사용하는 건지 궁금해짐

    • Open Router가 정말로 오픈소스인지 의문임, "메인" 레포는 아카이브 상태이고 작은 프로젝트들만 있음, 실제 오픈소스는 API 클라이언트 바인딩 뿐이고, 핵심 라우팅 서비스는 닫혀 있는 것 아닌지 궁금함

  • 내가 이해한 게 맞는지 모르겠지만, 이 모델은 전체 어텐션 분포를 흉내 내도록 학습시키면서도 중요한 상위 k개(여기선 k=2048) 토큰만 필터링하여, 컨텍스트 창이 커져도 [query, key] 계산의 컴퓨팅 복잡도는 선형적으로 늘지 않고 일정하게 유지되는 것이 특징임(실제 그래프 상에서 보면 인덱서가 전체 컨텍스트를 대충 한 번 훑는 과정이 남아 있어서 O(L)이긴 함)

  • 이런 "저렴한" 모델의 큰 문제는, 제공자가 캐싱을 지원하지 않으면 실제 활용 환경(특히 에이전트 워크플로)에서는 오히려 비용이 더 높아질 수 있다는 점임, 입력/출력 토큰 비용은 큰 의미 없고 캐시 적중분(재사용) 비용이 전체 토큰의 대부분을 차지함, 이럴 바엔 그냥 GPT-5 쓰는 게 더 싸거나 비슷한 비용에 더 강력한 모델을 쓸 수 있음

    • DeepSeek는 캐시를 지원하며, 캐시 적중시 비용이 캐시 미스의 10분의 1임, 구체적으로 캐시 적중 $0.028/M, 캐시 미스 $0.28/M, 출력 $0.42/M임 참고

    • 이 모델은 캐싱을 지원하는 것으로 알고 있었음, 가격 안내 페이지도 캐시 적중 시 입력 토큰이 $0.028임을 명시함

    • 심각한 문제라고 선언하면서 전제조건(IF)를 붙였음, DeepSeek API는 공식적으로 캐싱을 지원함, 문제를 없는 데서 만들지 말기 바람 캐시 안내

  • 벤치마크는 거의 그대로 두고 비용이 극적으로 줄어든 점이 놀라움

  • 흥미로운 점은 여전히 모델 발전 속도가 빨라서 특정 모델 전용 하드웨어가 크게 각광받지 않고, 여전히 범용 플랫폼에서 주된 스케일링 이점이 발생하고 있다는 것임

    • 그래도 구글 TPU, Groq, Cerebras 같은 아키텍처 최적화 칩들도 언급할 필요가 있음, 이들은 완전한 전용은 아니지만 보다 일반적인 구조에서 최적화된 사례임
  • Deep Sparse Attention이 코드와 같은 구조적, 장문 추론에 실질적 도움을 줄 수 있어 보임

  • 정말 대단하다는 생각임, 실제로 미묘한 차이가 중요한 현실 세계 데이터에선 어떻게 동작하는지 궁금함, 그리고 128K 컨텍스트 윈도우보다 큰 상황에서도 테스트해본 적이 있는지 매우 궁금함

  • Sparse attention이 실제 환경에 적용된 사례를 볼 수 있어 멋짐