2P by GN⁺ 2일전 | ★ favorite | 댓글 1개
  • DeepSeek-V3.1은 차세대 에이전트 시대를 위한 첫 번째 단계임
  • 한 개의 모델에서 Think(추론 기반)Non-Think(비추론 기반) 의 두 가지 모드를 선택적으로 사용할 수 있는 하이브리드 추론 기능을 탑재함
  • DeepSeek-V3.1-Think 모드에서는 이전 모델 DeepSeek-R1-0528 대비 더 짧은 시간 내에 정답 도출이 가능해 효율성이 크게 향상됨
  • 사후 학습(Post-training) 을 통해 도구 활용, 외부 시스템 조작, 다단계 에이전트 과업 등에서 모델의 역할 수행 능력이 대폭 개선됨
  • 사용자는 DeepSeek 챗봇 서비스에서 “DeepThink” 버튼을 통해 Think/Non-Think 모드 전환을 자유롭게 할 수 있음
  • API 업데이트
    • SWE(Software Engineering) 및 Terminal-Bench 평가에서 더 우수한 결과를 달성함
    • 복잡한 검색 또는 멀티스텝 과업에서 다단계 추론 및 문제 해결력이 크게 강화됨
    • 전반적인 추론 효율성이 큰 폭으로 증대됨
  • 요금제 변경 (9/25 부터 적용)
    • 입력 API : 1M 토큰당 $0.07(캐시 히트) / $0.56 (캐시 미스)
    • 출력 API : 1M 토큰당 $1.68
Hacker News 의견
  • 로컬에서 실행할 때 GGUF 모델을 만들어 놓았음, 동적 2bit 방식(2bit MoE, 나머지는 6-8bit)으로 좋은 성능 내려면 RAM과 VRAM 합쳐 약 250GB 필요함, SSD 오프로딩도 가능한데 느림, 실행법과 최적 파라미터 등 자세한 내용은 공식 문서 참고 바람
    • 그런데 unsloth가 파이썬 라이브러리이면서 apt-get을 sudo로 실행하려고 하는 점이 의아함, 내 nixos에서는 이게 실패해서 사용하기가 어려움
    • 이런 동적 2bit 압축에서 원본 모델 대비 얼마나 성능이 떨어지는지에 대한 벤치마크 결과가 궁금함
  • 참고로 terminal-bench 리더보드를 공유함, GPT-5, Claude 4, GLM-4.5와는 차이가 크지만, 다른 오픈웨이트 모델과는 비교적 준수한 성능임, 벤치마크가 전부를 말해주진 않으니 실제 결과는 시간이 지나봐야 알 수 있음
    • 해당 벤치마크는 agent tool과 모델을 뒤섞어 결과가 일관성이 부족하다고 봄, agent tool만 고정해서 모델만 비교해야 의미 있다고 생각함, 이런 류의 벤치마크는 신뢰성이 떨어지는 편이고 직접 모델을 사용해 자신의 문제에 적용해보는 것이 나은 방법이라 생각함
    • 내 체감상 결과물의 품질이 꽤 좋았음
    • Anthropic, OpenAI 같은 회사들도 특정 벤치마크를 위해 커스텀 에이전트를 개발하는 경향이 있음
    • DeepSeek R1은 이미 교체된 구 모델임을 알림, 업데이트 사항 파악함
    • 가격이 너무 비싸진 않아서 SOTA 모델이어도 부담스럽지 않아야 관심이 생김
  • 이전 비수기 할인이 사라진 점이 아쉬움, 그때는 토큰을 엄청나게 뽑으면서도 비용이 거의 들지 않았음, 그래도 여전히 가격 경쟁력이 아주 좋다는 점에서 크게 불만은 없음
  • artificialanalysis.ai의 벤치 결과에 따르면 대략 gpt-oss-120B와 비슷한 지능인데 약 10배 느리고 3배 비쌈
    • 제시된 소스는 현재 특정 프로바이더 한 군데만 보여주고 있음, 똑같은 공급자로 gpt-oss-120Bdeepseek-chat-v3.1을 비교하는 게 더 정확하겠음, gpt-oss-120B는 이미 구축 및 최적화된 공급자가 더 많아서 유리한 점을 감안할 필요 있음
  • DeepSeek V3.1은 하이브리드 리즈닝 모델이며, 툴 호출(Task Tool Calling)에 강점 있음, 하지만 표준 JSON 형식 대신 옛날 툴 포맷을 랜덤하게 사용하는 현상이 자주 나타남, 아마 V3 학습셋이 그런 자료를 많이 포함한 듯함
    • strict(베타) 펑션콜을 써봤는지 궁금함, 관련 가이드 있음
    • 어떤 포맷을 의미하는건지 궁금함, json이 LLM이 구조적 출력을 강제하는 데 적합하다고 알았는데 왜 굳이 json을 벗어나는지 의문임
  • Qwen3 235B 2507 Reasoning(내가 좋아하는 모델)이나 gpt-oss-120B보다는 뒤쳐지는 듯함, 벤치마크 링크 참고, 가격 참고
    • Qwen3 2507 계열 모델이 현 시점에서 로컬 최고라고 생각함, GPU와 대략 32GB 램만 있으면 A3B 모델로 페어 프로그래밍 작업에 아주 적합함
  • 최근 6개월간 사용해본 모델 중 DeepSeek V3.1이 가장 환각(hallucination)이 많이 발생함
    • 어떤 context length를 썼는지 궁금함
    • 이번에 안 좋은 데이터를 가져왔을 가능성 물어봄
  • V3와 Qwen3 Coder의 중간 정도 위치임, 비교 링크
    • gpt-5 Mini 모델의 무료 제공 여부 묻는 중임
  • 오픈웨이트 모델 사이에서는 경쟁력 있어 보이나 GPT-5나 Claude에 비하면 아직 격차가 큼
  • GLM-4.5보다 agentic 코딩 태스크에서 더 뛰어나다는 증거는 아직 못 봄
    • 그게 전부인지, 혹시 다른 점에서 못 본 근거가 있는지 되묻는 중임