# DeepSeek V4 Pro, 정밀도에서 GPT-5.5 Pro를 앞서다

> Clean Markdown view of GeekNews topic #30310. Use the original source for factual precision when an external source URL is present.

## Metadata

- GeekNews HTML: [https://news.hada.io/topic?id=30310](https://news.hada.io/topic?id=30310)
- GeekNews Markdown: [https://news.hada.io/topic/30310.md](https://news.hada.io/topic/30310.md)
- Type: GN+
- Author: [neo](https://news.hada.io/@neo)
- Published: 2026-06-09T10:24:47+09:00
- Updated: 2026-06-09T10:24:47+09:00
- Original source: [runtimewire.com](https://runtimewire.com/article/deepseek-v4-pro-beats-gpt-5-5-pro-on-precision)
- Points: 3
- Comments: 2

## Topic Body

- 사전 준비가 불가능하도록 즉석 생성된 **4개 텍스트 과제** 1:1 비교에서 DeepSeek V4 Pro가 **38.0점**, GPT-5.5 Pro가 33.0점 기록  
- 두 모델 모두 강력했으나, DeepSeek는 더 엄격하고 직역적이며 **제약 조건 하 신뢰성**이 높았고, GPT-5.5 Pro는 불필요한 즉흥적 변경으로 감점  
- 가장 명확한 기술적 우위는 **python-log-redactor** 과제로, 단일 정규식과 치환 함수로 중첩 패턴을 올바른 우선순위로 처리하며 누락 없는 결과 도출  
- **지시 따르기** 과제에서 프롬프트 요구사항만 정확히 수행한 반면, GPT-5.5 Pro는 교대 인수인계·에스컬레이션 같은 비요청 항목을 추가  
- 작은 편차가 실제 실패로 이어지는 **정밀 작업**에서 더 절제되고 정확하며 의존 가능한 모델로 평가  
  
---  
  
### 종합 평가 결과  
  
- 점수상 DeepSeek V4 Pro가 **38.0 대 33.0**으로 승리, 격차에 충분한 근거 존재  
- 채점된 과제 전반에서 Model A(DeepSeek)는 더 **엄격하고 직역적이며** 제약 조건에서 더 안정적  
  - Model B(GPT-5.5 Pro)는 우수하나 **즉흥적 변경**에 다소 과도한 경향  
- 최종 결론은 작은 편차가 실제 실패로 직결되는 작업에서 **더 절제되고 정확하며 의존 가능한 모델**이라는 평가  
  
### python-log-redactor (코드 작성 과제)  
  
- Python 3로 `redact_log(line: str) -> str` 함수 구현 과제로, 이메일은 `[EMAIL]`, IPv4는 `[IP]`, `INC-` + 숫자 6자리 형태의 티켓 ID는 `[TICKET]`으로 마스킹  
  - 나머지 텍스트는 그대로 보존, `999.1.2.3` 같은 **잘못된 IP는 마스킹 제외**, 멀티라인 입력 없음 가정  
- **승자: DeepSeek V4 Pro** — 단일 정규식과 치환 함수로 중첩 패턴을 처리해 올바른 치환 우선순위 보장 및 누락 없음  
  - GPT-5.5 Pro는 정규식을 분리해 **순서 오류** 위험 발생, 이메일 정규식에 단어 경계 누락·과잉 매칭 같은 결함 존재  
  
### vendor-delay-update (업무 메시지 작성 과제)  
  
- 운영 담당 VP가 지역 창고 관리자에게 보낼 상태 업데이트 작성 과제로, 바코드 스캐너 공급사 **North Quay Devices**의 배터리 인증 실패로 교체 유닛 420대 배송이 5월 12일에서 19일로 지연된 상황 전달  
  - 여유 스캐너는 Memphis·Reno만 충당 가능, Tulsa·Allentown은 1주간 기기 공유 필요  
  - 비필수 재고 재점검 중단, 출고 피킹 우선, **매일 현지 시각 오후 4시까지 부족분 집계 보고** 요청, 어조는 차분·책임감·실용적, 분량 140~180단어  
- **승자: DeepSeek V4 Pro** — 프롬프트 요구대로 "매일 현지 시각 오후 4시까지 부족분 집계 보고"를 VP에게 직접 명시, 차분·책임감·실용적 어조 유지  
  - GPT-5.5 Pro는 교대 인수인계·에스컬레이션 같은 **비요청 세부사항**을 추가하고 수신자를 "Operations Planning"으로 전환해 지시에서 다소 이탈, 단 양측 모두 고품질·단어 제한 내 유지  
  
### meeting-notes-summary (요약 및 JSON 생성 과제)  
  
- 회의록을 읽고 2문장 요약과 함께 `launch_date`, `owner`, `blocked_by`, `open_questions`(배열), `decisions`(배열) 키를 가진 **JSON 객체** 생성 과제  
  - 회의록은 **Cedar Lane** 테넌트 포털 개편 프로젝트 관련으로, 법무 승인, 프런트엔드 완료 상태, 2026-03-18 출시 희망, 금융 샌드박스의 ACH 재시도 중복 영수증 ID 차단 이슈, 다크 모드 제거 결정 등 포함  
- **승자: DeepSeek V4 Pro** — 요청된 스키마를 정확히 준수하고 2문장 요약과 올바른 타입의 JSON 필드 제공  
  - GPT-5.5 Pro는 요약은 양호했으나 `launch_date`에 **조건부 텍스트**를 포함하고 단일 값이 필요한 `blocked_by`를 배열로 처리해 구조 위반  
  
### messy-orders-to-json (데이터 정규화 과제)  
  
- 지저분한 주문 라인을 지정된 스키마의 객체 배열 **유효 JSON**으로 변환하는 과제로, 입력 순서 보존 필수  
  - `priority`를 true/false로 정규화, `none`·`tbd`·`-` 같은 누락 배송일은 null로 변환, 값 앞뒤 공백 제거, 항목은 `;`로 구분되고 각 항목은 `SKU xQTY` 형식  
- **결과: 무승부** — 양측 모두 유효 JSON, 입력 순서 보존, 스키마 정확 일치, priority·ship_by 값 정규화를 올바르게 수행  
  - 품질·정확성에서 **실질적 차이 없음**, 다만 쉬운 정리 과제의 무승부가 정밀 작업의 실수를 상쇄하지는 못함  
  
### 테스트 방식  
  
- 어느 모델도 사전 준비할 수 없도록 매치업용으로 **즉석 생성된 4개 텍스트 과제** 사용  
- 채점은 **grok-4-1-fast-non-reasoning**이 각 과제별로 수행  
- 최종 점수는 DeepSeek V4 Pro **38.0**, GPT-5.5 Pro **33.0**  
  
### 모델 사양  
  
- ## OpenAI: GPT-5.5 Pro  
  - 깊은 추론과 정확성에 최적화된 **고성능 모델**로 복잡하고 고위험 워크로드 대상  
  - **1M+ 토큰 컨텍스트**(입력 922K, 출력 128K), 텍스트·이미지 입력 지원, 장기 호흡 문제 해결·에이전트 코딩·다단계 워크플로의 정밀 실행 설계  
  - 가격 입력 $30.00 / 출력 $180.00 (백만 토큰당), 컨텍스트 1.1M, 컷오프 **2025-12-01**  
- ## DeepSeek: DeepSeek V4 Pro  
  - 총 **1.6T 파라미터·활성 49B 파라미터**의 대규모 Mixture-of-Experts 모델로 1M 토큰 컨텍스트 지원  
  - 고급 추론·코딩·장기 호흡 에이전트 워크플로 대상이며 지식·수학·소프트웨어 엔지니어링 벤치마크에서 강력한 성능  
  - **DeepSeek V4 Flash와 동일 아키텍처** 기반으로, 효율적 장문 처리를 위한 **하이브리드 어텐션 시스템** 도입  
  - 추론 강도 `high`·`xhigh` 지원, `xhigh`는 최대 추론에 매핑, 전체 코드베이스 분석·다단계 자동화·대규모 정보 종합 같은 복잡 워크로드에 적합  
  - 가격 입력 $0.435 / 출력 $0.870 (백만 토큰당), 컨텍스트 1M

## Comments



### Comment 59258

- Author: shakespeares
- Created: 2026-06-09T13:31:51+09:00
- Points: 1

안믿기네 참..

### Comment 59244

- Author: neo
- Created: 2026-06-09T10:24:48+09:00
- Points: 1

###### [Hacker News 의견들](https://news.ycombinator.com/item?id=48440448) 
- **임의로 짠 실험 4개**로는 어느 모델의 역량도 거의 말해주지 못함  
  글도 모델 홍보나 논쟁 유도를 노린 얄팍한 **AI 생성 클릭베이트**처럼 읽힘  
  리드 문단의 “where it matters”, “cleanly”, “is still strong” 같은 표현은 모호하고, 실제로는 4개 중 3개 테스트에서 DeepSeek가 더 간결한 결과를 냈다는 식의 구체적 설명이 부족함. 별 1개짜리임
  - **lede**의 목적을 오해한 듯함  
    Merriam-Webster에 따르면 lede는 “독자가 전체 기사를 읽도록 유도하려는 뉴스 글의 도입부”임  
    더 건조한 문체를 선호할 수는 있지만, 도입부가 자기 목적을 달성하려 한다고 비판하는 건 정당하지 않음  
    [https://www.merriam-webster.com/dictionary/lede](<https://www.merriam-webster.com/dictionary/lede>)
  - **AI에 관한 AI 생성 글**은 정말 잘 쓴 경우가 아니면 HN에서 보고 싶지 않음
  - 4개 실험 중 3개라면 확실히 일화적이지만, 결과 자체는 더 정립된 **지시 이행 벤치마크**와도 어느 정도 맞아떨어짐. 다만 DeepSeek V4 Pro가 그 벤치마크에서 1위는 아님  
    [https://artificialanalysis.ai/evaluations/ifbench](<https://artificialanalysis.ai/evaluations/ifbench>)  
    글은 명확하고 꽤 균형 잡혀 보였음. 리드가 약간 영업 문구 같긴 하지만 보통 리드는 그런 편이고, “LLM이 쓴 것 같은 느낌”만으로 즉각 배척하는 건 꽤 성의 없는 반응임
  - 자동차 시장에서도 이상적인 최고 선택지는 한두 모델뿐이지만, 그보다 못한 회사와 모델들도 여러 이유로 계속 팔림  
    이 글은 **DeepSeek가 GPT 5.5와 경쟁 가능**하고 때로는 더 나을 수도 있음을 보여줌. 또한 방어 가능한 해자(moat)가 없다는 신호라서 꽤 의미가 큼
  - “펠리컨이 자전거를 타는” 지표에 대해서는 아무도 이런 식으로 **부실한 임의 실험**이라고 하지 않음

- 이런 테스트들은 점점 시간 낭비처럼 보임  
  이제 **지능 자체는 분명히 있음**. 그걸 측정하려 드는 게 무의미해 보임. 철물점에서 망치를 살 때 “이 망치로 만들 완제품의 품질” 기준으로 정렬할 수는 없는데, 지금 모델 평가가 대략 그런 요구를 하고 있음  
  다음 마법은 **도메인 특화 하니스와 환경**에서 나옴. 일부러 약간 덜 강한 모델을 써서 도메인을 모델에 노출한 방식의 약점을 드러내게 함. 여유 성능이 남아 있으면 프로젝트 신뢰도가 크게 올라감. 고객이 특정 엣지 케이스를 불평하면 그 시나리오만 gpt5.5로 올리면 되지만, 이미 5.5를 쓰고 있다면 더 갈 곳이 없음
  - “지능이 분명히 있다”는 말이 와닿지 않음  
    다른 사람들이 쓰는 모델과 같은 걸 쓰는지 의문임. 내 기준으로 LLM은 80%는 좋은 답을 주지만, 20%는 너무 처참하게 실패해서 **지능이 없다**는 게 명확해짐
  - 동의함. **sonnet 4.6**이면 거의 모든 일에 충분하다고 느낌. 그 수준을 넘어서면 모델 자체보다 **오케스트레이션**이 더 중요해 보임  
    그래도 모델들은 매일 다양한 환각, 인식론 부족, 상식 부족, 지시 불이행으로 놀라게 함  
    오늘은 opus 4.8에게 Rails 앱 컨트롤러의 단순한 아키텍처 패턴을 따르게 하려 했는데, 상어 이빨을 뽑는 느낌이었음
  - “분명히 있다”고 해도 이미 “어디에 있느냐”를 물어야 한다는 사실, 그리고 명백히 지능적이지 않은 봇을 봤다는 사실 때문에 **지능의 위치와 원인**을 정의하고 조사할 필요가 생김  
    그래야 지능이 우연히, 겉보기로만 나타나는 게 아니라 일관적이고 구조적으로 나타난다는 보증을 얻을 수 있음. 가벼운 용도에는 가벼운 도구, 미션 크리티컬 용도에는 인증된 도구가 필요함
  - 왜 시간 낭비인지 모르겠음  
    이제 막 LLM 벤치마킹의 세부로 들어가는 중이고, 아직 갈 길은 멀다고 봄. 그래도 **로컬 실행 LLM**이 최신 최고 수준 모델과 비슷한 결과를 낼 수 있다는 건 굉장히 흥미로움
  - 도메인 특화 하니스와 환경에서 마법이 일어나는 건 아님. 핵심은 **학습과 강화학습**에서 일어남. 하니스가 모델이 학습받은 행동을 덮어쓰지는 못함  
    모델이 CRUD 웹사이트를 찍어내도록 학습되어 있고, CRUD 웹사이트를 만들려는 경우라면 하니스가 유용할 수는 있음. 하지만 그건 이미 있는 것을 더 잘 섞는 시간 낭비에 가까움

- Claude를 쓰다가 Opencode가 막힌 뒤 직장에서는 GPT를 쓰고 있음. 개인적으로는 **Opencode Go**에서 월 $10 요금제로 Deepseek를 쓰는데, 솔직히 차이를 별로 못 느끼겠음  
  비슷하게 유능하고, 3월 이후 다른 둘이 계속 저지르던 멍청한 실수도 같은 종류로 함. 가격을 생각하면 충분히 만족함
  - 95%의 시간에는 프런티어 모델이 10~100배 저렴한 중국 모델보다 제공하는 **추가 5%의 엄밀함**이 필요 없음  
    나머지 5%의 시간에는 고난도 추론 문제에서 큰 도움을 받고 많은 고통을 피할 수 있음. 이제 그 추가 5%가 언제 필요한지 정확히 예측할 수만 있으면 좋겠음
  - 두 구독을 모두 쓰고 있는데, **gpt가 더 좋고 일관적**이라고 확실히 느낌. 다만 한도에 걸리면 크게 그립지는 않음
  - 내가 뭘 잘못하는지 모르겠음. 지난 7개월 동안 Claude를 쓰면서 가끔 deepseek, kimi 같은 모델을 시도했지만, 아무것도 Claude에 근접하지 못했음. **Claude는 거의 항상 한 번에 해결**함

- 직접 만든 취약점 스캐닝 벤치마크에 GPT 5.5 Pro를 추가해 봤는데([https://swelljoe.com/post/will-it-mythos/](<https://swelljoe.com/post/will-it-mythos/>)), 중간에 **$100 예산 한도**를 다 써버림. DeepSeek V4 Pro는 전체 벤치마크에 약 1달러가 들었고, GPT Pro는 케이스당 평균 $22가 들었음  
  GPT 5.5 Pro는 예산이 바닥나기 전 처리한 4개 중 2개를 찾았음. 무제한 예산이면 최고였을 수도 있지만, Opus 4.8, DeepSeek V4 Pro, MiMo 2.5 Pro는 9개 버그 중 4개를 찾았음. Opus는 GPT 5.5 Pro보다 한 자릿수 규모로 저렴했고 GPT 5.5보다도 약 30% 저렴했으며, DeepSeek와 MiMo는 케이스당 약 10센트로 두 자릿수 규모로 저렴했음  
  GPT Pro는 상대적으로 오래, 많이 “씹어댐”  
  Opus 비용의 약 31배를 들여 GPT 5.5 Pro를 쓸 만한 합리적 용례를 떠올릴 수 없고, 더 이상 이걸로 벤치마크하지 않을 예정임  
  토큰 비용이 점점 중요한 이슈가 되는 상황에서, 미국 대형 제공사보다 극적으로 저렴한 모델들이 있다는 사실은 Anthropic과 OpenAI에 문제가 될 것임. 대화형 코딩에서 최고 모델에 합리적 프리미엄을 내는 건 괜찮지만, API 사용에서는 모델 반복, 모델 간 비교, 모델 심사 등을 사람이 오래 붙잡을 필요 없이 하니스와 정답 검증 프레임워크로 처리할 수 있어서 DeepSeek보다 10배에서 200배를 더 낼 이유를 찾기 어려움
  - 이 내용도 흥미로울 수 있음  
    “$3.88, 690,003,591 토큰, 5시간으로 Deepseek Pro와 Flash를 함께 써서 Teamspeak 3.13.8의 라이선스 시스템을 역공학했다”  
    [https://www.reddit.com/r/DeepSeek/comments/1txcfrh/with_388_...](<https://www.reddit.com/r/DeepSeek/comments/1txcfrh/with_388_690003591_tokens_and_5_hours_deepseek/>)
  - 비교에 **GPT 5.5 non-pro**도 넣어줄 수 있는지 궁금함. GPT Pro는 “가끔 조금 더 나은 결과를 위해 돈을 태워도 됨” 옵션이지, 사람들이 일상적으로 쓰라고 기대되는 옵션은 아님. Codex에 들어가지 않은 이유도 아마 그중 하나일 듯함
  - 좋은 글임. 다만 **Sonnet이 Haiku보다 못한 이유**가 헷갈림. 찾으려던 버그는 아니지만 다른 버그는 많이 찾았다고 했던 것 같음  
    9개 버그는 순위를 매기기에는 표본이 조금 적어 보임  
    그래도 순위는 대체로 예상과 비슷하게 나옴  
    Deepseek는 Pro 맞는지, Flash는 아닌지 궁금함. Flash를 작은 작업에 많이 쓰고 있는데 꽤 괜찮음. “대화형” 사용에 좋고 매우 빠르며 작은 작업은 거의 즉시 끝냄  
    큰 코드베이스 조사에도 쓸 만함. 보안 작업도 가능할지 궁금함
  - 좋은 작업임. 직관이 맞는 것 같음. **Mythos moment**의 상당 부분은 적절한 하니스와, 어리석은 가드레일이 많지 않은 탄탄한 모델로 재현할 수 있을 듯함  
    저렴한 모델들이 잘하는 것도 보기 좋음
  - DeepSeek는 어디서 실행함?

- Claude Code를 **DeepSeek API 가격**으로 바꾸면 지금 쓰는 $100 Max 플랜보다 돈값을 더 할지 궁금함  
  5시간 한도는 며칠에 한 번 정도만 치고, 주간 한도도 가장 공격적으로 써야 리셋 하루이틀 전에 닿는 정도임. 한도에 막히지 않는 것 말고 사용량이 크게 늘 것 같지는 않음  
  미국에 적대적인 정부 아래 있는 연구소로 내 작업물을 보내는 것도 아직 꺼림칙해서 순수 비용만 보는 건 아니지만, 지금 질문은 비용 관점임
  - ‘돈값’을 무엇으로 보느냐에 따라 다름. **오픈 가중치 모델**이 openai/claude보다 낫지는 않음. 하지만 훨씬 싸고 한도도 훨씬 높아서 더 적은 돈으로 더 많은 일을 시킬 수 있음  
    모든 구독 제공사가 Anthropic보다 돈 대비 한도 가치가 더 좋음. GitHub만 예외인데, 이쪽은 압도적으로 민망할 만큼 비싸고 제한적임  
    ([https://codeberg.org/mutablecc/calculate-ai-cost/src/branch/...](<https://codeberg.org/mutablecc/calculate-ai-cost/src/branch/main/subscription_vs_api_comparison.csv>))  
    미국이 아닌 연구소가 만든 모델을 쓰기 싫다는 뜻이라면 미국 모델에 묶이게 되지만, 미국에도 큰 연구소가 여러 곳 있음. 추론이 어디서 수행되는지가 걱정이라면 OpenRouter를 통해 미국을 포함한 12개국 제공사를 쓸 수 있고, 여러 구독 제공사도 여러 국가에서 호스팅함. 선택지는 많음
  - 일단 해보는 걸 추천함. deepseek.com에 $5 넣고, 이 설정을 셸 스크립트에 넣은 뒤 ` . ./deepseek-claude.sh `를 실행하고 평소처럼 claude를 쓰면 됨  
    export ANTHROPIC_BASE_URL=https://api.deepseek.com/anthropic  
    export ANTHROPIC_AUTH_TOKEN= *** PUT YOUR DEEPSEEK KEY HERE***  
    export ANTHROPIC_MODEL=deepseek-v4-pro  
    export ANTHROPIC_DEFAULT_OPUS_MODEL=deepseek-v4-pro  
    export ANTHROPIC_DEFAULT_SONNET_MODEL=deepseek-v4-pro  
    export ANTHROPIC_DEFAULT_HAIKU_MODEL=deepseek-v4-flash  
    export CLAUDE_CODE_SUBAGENT_MODEL=deepseek-v4-flash  
    export CLAUDE_CODE_EFFORT_LEVEL=max  
    처음에는 한도에 가까울 때 큰 읽기 작업에 써봤음. 솔직히 Claude만큼 좋지는 않지만 훨씬 싸고 계속 일할 수 있게 해줌. 가끔은 claude와 deepseek 둘 다에게 코드를 보고 다듬는 방법을 묻고, 둘의 답을 비교하는 것도 좋음
  - 월 $100 구독으로 Claude를 쓰고 있음. **Opus를 설계자**, Sonnet을 구현자/엔지니어, deepseek-pro를 깊은 리뷰어와 테스터로 쓰는 구성을 실험 중인데 예상대로 꽤 좋음  
    사용 패턴이 유지되면 구독을 월 $20로 낮추고 Deepseek에 더 돈을 넣을 생각임  
    참고 저장소: [https://github.com/aravindhsampath/agentic-template](<https://github.com/aravindhsampath/agentic-template>)
  - 달러당 성과는 훨씬 좋고, 시간당 성과는 조금 떨어짐  
    늘 그렇듯 모델마다 막히는 지점이 다름. Cursor 실험, 탐색, 개념 증명 대부분에는 **DeepSeek v4 API**를 쓰지만, 프로덕션 코드 작성은 OpenAI/Claude보다 덜 신뢰함. DeepSeek가 디버깅이나 계획에 아주 좋을 때도 있고, 막히거나 낮은 품질을 낼 때도 있음. OpenAI와 Anthropic 모델도 마찬가지긴 함  
    전체적으로 DeepSeek는 쓸 만하지만 Opus 4.8과 GPT 5.5보다는 한 단계 아래로 보임. 모두 최대 사고 설정으로 돌림
  - 추론을 위해 데이터를 외부로 보내는 게 걱정이라면, **Fireworks**는 오픈 모델을 좋은 성능으로 제공하면서 컴플라이언스와 무데이터 보존을 잘 정리한 회사 중 하나임. OpenCode도 Fireworks와 여러 제공사를 지원하고, Cursor도 Fireworks를 씀  
    DeepSeek 자체 엔드포인트처럼 초저가 캐시 읽기 혜택은 없지만 Anthropic API 요금보다는 여전히 훨씬 낮음. 다만 지금은 API 요금을 내고 있는 게 아니라는 점이 중요함  
    DeepSeek와 Xiaomi의 캐시 읽기 할인은 최신 세대 모델이 KV 저장 공간을 덜 써서 캐싱이 더 싸진 것과 관련 있음. 어떤 오픈 모델 추론 제공사도 그 가격을 맞추기로 하지는 않았는데, 추론 가격 구조에 대해 뭔가 말해주긴 하지만 정확히 무엇인지는 모르겠음  
    최고 오픈 모델들이 프런티어 수준은 아니라는 데 동의함. 큰 그림 계획이나, 큰 틀만 주고 많은 추측을 기대하는 상황에서는 차이가 날 것임. 하지만 구체적 계획에서 코딩하는 데는 충분히 괜찮아 보임. 회사 밖에서만 써서 거대한 코드베이스 경험은 없지만, 뛰어들기 전에 필요한 정보를 모으는 능력이 괜찮아서 필요하면 grep으로 찾아다닐 것 같음  
    귀찮은 단서가 하나 있는데, 개인 구독 플랜을 많이 쓰면 API보다 훨씬 싸다는 점임. [https://she-llac.com/claude-limits](<https://she-llac.com/claude-limits>)를 보면 비용 논의가 복잡해짐. 그래도 오픈 모델을 가지고 놀아볼 가치는 있다고 봄. 소수 회사의 제품 묶음이 아니라 하나의 기술로 다룰 수 있게 해주는 요소 중 하나임

- 이런 식의 큰 뉴스에 지침. 작은 테스트 묶음으로 한 모델이 다른 모델보다 낫다고 선언하는데, 그 결과를 정말 일관되게 재현할 수 있는지 의문임  
  공개도 거의 없어서 다른 사람이 테스트나 판단을 직접 검증할 만한 자료가 사실상 없음  
  **DeepSeek V4 Pro의 가장 큰 가치**는 낮은 가격임. GPT-5.5보다 훨씬 나은 성능은 기대하지 않고, gpt-5.4 정도 성능만 되어도 여전히 좋은 모델임
  - 기대가 항상 현실은 아님. 모델을 직접 써보는 게 좋음. 솔직히 나는 Pro도 안 쓰고 **Flash**만 써봤는데, PHP 웹 개발을 함

- **DSv4 Flash**보다 나은 모델이 필요한 일을 거의 하지 않음. Pro는 더더욱 필요 없음  
  문제와 해법을 충분히 잘 설명할 수 있으면 Flash가 그냥 해냄  
  문제를 충분히 설명하지 못하거나 귀찮아서 원하는 결과만 설명할 수 있을 때는 GPT 5.5 같은 모델이 스스로 탄탄한 해법을 찾아내는 데 확실히 더 낫다고 느낌  
  모델 역량 차이는 분명 있지만, 더 작은 오픈 가중치 모델도 대부분의 작업에서 큰 도움이 될 만큼 충분히 좋다는 점도 분명함

- 비용 대비 성능 때문에 **deepseek v4**를 쓰고 있음. 전반적으로 다른 몇몇 모델보다 못하다고 느끼지만, 결국 올바른 수용 기준을 주면 어떤 모델이든 작동하게 만들 수 있음  
  상세한 명세와 테스트를 주고, 제대로 될 때까지 반복할 권한을 주면 됨. **원샷**은 성능을 재는 나쁜 지표임
  - 모든 모델이 수용 기준으로 수렴한다고 보지는 않음. 에이전트 기반 모델링과 그 영역의 과학 모델링을 꽤 다양하게 해봤는데, 검증할 기준이 있고 수렴점에 도달할 방법에 대한 아이디어가 있어도 실제로 수렴한다는 뜻은 아님  
    정보 공간에서 계속 반복하다가 원하는 해법을 찾지 못한 채 갇힐 수 있음  
    도움이 되긴 하지만 실패 케이스에서는 사람이 개입해 안내하거나 특정 경로를 강제로 고쳐야 해법에 도달하는 경우가 많음

- **reasonix와 함께 쓰는 DeepSeek V4 Pro**는 놀라울 정도로 싸고 대부분의 코딩 작업에 충분히 좋음. GPT 5.5와 Opus 4.8과도 꽤 달라서, 다른 둘이 못 찾는 문제를 가끔 찾아냄  
  도구함에 넣어둘 가치가 있다고 봄

- DeepSeek V4 Pro는 훌륭하고 말도 안 되게 싸지만, **MiMo V2.5 Pro**를 과소평가하고 있음. 가격은 같고 캐시 가격은 더 낮으며, 멀티모달이고 대부분의 벤치마크에서 더 높은 위치에 있음  
  MiMo V2.5와 DeepSeek V4 Flash 비교도 마찬가지임
  - 글을 쓰던 시점의 [https://news.ycombinator.com/item?id=48343690](<https://news.ycombinator.com/item?id=48343690>) 기준으로는 **MiMo V2.5 Pro의 캐시 적중 가격**이 더 낮았음. 원문 내용은 이렇음  
    OSS 모델은 어느 제공사에서 쓰느냐에 따라 큰 차이가 나며, 주된 이유는 캐시 적중률임  
    Model Cheapest effectiveInputPrice (Provider)  
    MiMo-V2.5-Pro 0.3720 (Xiaomi)  
    DeepSeek V4 Pro (Max) 0.0560 (DeepSeek)
