DeepSeek-V3.2-Exp: 실험적 장기 컨텍스트

▲

GN⁺ 7달전 | parent | ★ favorite | on: DeepSeek-V3.2-Exp: 실험적 장기 컨텍스트 최적화 모델 공개(github.com/deepseek-ai)

Hacker News 의견

2차 효과로 사람들이 많이 언급하지 않는 부분이 가격임에 주목함, 모델의 빠른 확장과 함께 가격도 떨어지는 현상은 인상적임, 이는 AI의 보급과 모델 지능만큼 중요한 요소임, 근본적으로 가격 하락을 막을 법칙 같은 건 없다고 알고 있음, 현재는 무어의 법칙(또는 AI/Nvidia 칩 개발 주기)과 유사하게 하드웨어 세대마다 훨씬 더 빠르고 저렴해짐, 그럼 1년 뒤엔 ChatGPT-5를 반값에 쓸 수 있겠음 (물론 고성능 모델이 더 비싸긴 하지만 토큰 당 요금 기준으로 봤을 때 얘기임)
- 가격 하락 폭을 상당히 과소평가한 것임, 예를 들어 Andreessen Horowitz의 연구에 따르면 GPT-3.5 등장 이후 2년 동안 추론 비용이 연간 10배씩 감소했다고 함 참고 그래서 성장 둔화 시나리오여도 앞으로 5년 내에 1,000배 하락이 가능하다고 봄, 현재 가격 하락은 무어의 법칙과 직결되지 않고 모델 최적화, 고대역폭 메모리 공급망, 전력 인프라 투자 등 다양한 혁신 덕분임
중국 오픈소스 모델들이 계속 발전하고 저렴해지는 흐름을 반가워함, 이미 저렴한 모델인데 API 가격이 50% 추가 인하되어 Input $0.28/M, (캐시 적중 시 $0.028/M), Output $0.42/M에 제공됨
- 가격이 인하되었다니 예전 가격은 얼마였는지 궁금해짐, 오히려 최근에 가격이 올랐었다는 인상도 있었음
- 가격 인하는 좋지만 이 수준이 얼마나 유지될지 궁금해짐, 예전에는 매우 저렴하다가 한 번 크게 오르더니 지금 다시 내렸기 때문임
Deepseek v3.2-exp 모델 소개 링크
- 이상하게도 해당 모델은 "데이터로 학습"을 한다고 표시되어 있음 ("해당 제공업체는 프롬프트와 결과물을 신규 모델 학습에 활용할 수도 있음. 이 제공업체는 비활성화 상태지만 데이터 정책 변경 시 재활성화 가능"), 일반적으로 유료 모델은 입력 데이터를 학습에 쓰는 경우가 거의 없는데, Openrouter가 잘못 표시한 건지 Deepseek가 실제로 사용자 데이터를 학습에 사용하는 건지 궁금해짐
- Open Router가 정말로 오픈소스인지 의문임, "메인" 레포는 아카이브 상태이고 작은 프로젝트들만 있음, 실제 오픈소스는 API 클라이언트 바인딩 뿐이고, 핵심 라우팅 서비스는 닫혀 있는 것 아닌지 궁금함
내가 이해한 게 맞는지 모르겠지만, 이 모델은 전체 어텐션 분포를 흉내 내도록 학습시키면서도 중요한 상위 k개(여기선 k=2048) 토큰만 필터링하여, 컨텍스트 창이 커져도 [query, key] 계산의 컴퓨팅 복잡도는 선형적으로 늘지 않고 일정하게 유지되는 것이 특징임(실제 그래프 상에서 보면 인덱서가 전체 컨텍스트를 대충 한 번 훑는 과정이 남아 있어서 O(L)이긴 함)
이런 "저렴한" 모델의 큰 문제는, 제공자가 캐싱을 지원하지 않으면 실제 활용 환경(특히 에이전트 워크플로)에서는 오히려 비용이 더 높아질 수 있다는 점임, 입력/출력 토큰 비용은 큰 의미 없고 캐시 적중분(재사용) 비용이 전체 토큰의 대부분을 차지함, 이럴 바엔 그냥 GPT-5 쓰는 게 더 싸거나 비슷한 비용에 더 강력한 모델을 쓸 수 있음
- DeepSeek는 캐시를 지원하며, 캐시 적중시 비용이 캐시 미스의 10분의 1임, 구체적으로 캐시 적중 $0.028/M, 캐시 미스 $0.28/M, 출력 $0.42/M임 참고
- 이 모델은 캐싱을 지원하는 것으로 알고 있었음, 가격 안내 페이지도 캐시 적중 시 입력 토큰이 $0.028임을 명시함
- 심각한 문제라고 선언하면서 전제조건(IF)를 붙였음, DeepSeek API는 공식적으로 캐싱을 지원함, 문제를 없는 데서 만들지 말기 바람 캐시 안내
벤치마크는 거의 그대로 두고 비용이 극적으로 줄어든 점이 놀라움
흥미로운 점은 여전히 모델 발전 속도가 빨라서 특정 모델 전용 하드웨어가 크게 각광받지 않고, 여전히 범용 플랫폼에서 주된 스케일링 이점이 발생하고 있다는 것임
- 그래도 구글 TPU, Groq, Cerebras 같은 아키텍처 최적화 칩들도 언급할 필요가 있음, 이들은 완전한 전용은 아니지만 보다 일반적인 구조에서 최적화된 사례임
Deep Sparse Attention이 코드와 같은 구조적, 장문 추론에 실질적 도움을 줄 수 있어 보임
정말 대단하다는 생각임, 실제로 미묘한 차이가 중요한 현실 세계 데이터에선 어떻게 동작하는지 궁금함, 그리고 128K 컨텍스트 윈도우보다 큰 상황에서도 테스트해본 적이 있는지 매우 궁금함
Sparse attention이 실제 환경에 적용된 사례를 볼 수 있어 멋짐