DeepSeek V4 Pro, 정밀도에서 GPT-5.5 Pro를 앞서다

(runtimewire.com)

7P by GN⁺ 1달전 | ★ favorite | 댓글 3개

사전 준비가 불가능하도록 즉석 생성된 4개 텍스트 과제 1:1 비교에서 DeepSeek V4 Pro가 38.0점, GPT-5.5 Pro가 33.0점 기록
두 모델 모두 강력했으나, DeepSeek는 더 엄격하고 직역적이며 제약 조건 하 신뢰성이 높았고, GPT-5.5 Pro는 불필요한 즉흥적 변경으로 감점
가장 명확한 기술적 우위는 python-log-redactor 과제로, 단일 정규식과 치환 함수로 중첩 패턴을 올바른 우선순위로 처리하며 누락 없는 결과 도출
지시 따르기 과제에서 프롬프트 요구사항만 정확히 수행한 반면, GPT-5.5 Pro는 교대 인수인계·에스컬레이션 같은 비요청 항목을 추가
작은 편차가 실제 실패로 이어지는 정밀 작업에서 더 절제되고 정확하며 의존 가능한 모델로 평가

종합 평가 결과

점수상 DeepSeek V4 Pro가 38.0 대 33.0으로 승리, 격차에 충분한 근거 존재
채점된 과제 전반에서 Model A(DeepSeek)는 더 엄격하고 직역적이며 제약 조건에서 더 안정적
- Model B(GPT-5.5 Pro)는 우수하나 즉흥적 변경에 다소 과도한 경향
최종 결론은 작은 편차가 실제 실패로 직결되는 작업에서 더 절제되고 정확하며 의존 가능한 모델이라는 평가

python-log-redactor (코드 작성 과제)

Python 3로 redact_log(line: str) -> str 함수 구현 과제로, 이메일은 [EMAIL], IPv4는 [IP], INC- + 숫자 6자리 형태의 티켓 ID는 [TICKET]으로 마스킹
- 나머지 텍스트는 그대로 보존, 999.1.2.3 같은 잘못된 IP는 마스킹 제외, 멀티라인 입력 없음 가정
승자: DeepSeek V4 Pro — 단일 정규식과 치환 함수로 중첩 패턴을 처리해 올바른 치환 우선순위 보장 및 누락 없음
- GPT-5.5 Pro는 정규식을 분리해 순서 오류 위험 발생, 이메일 정규식에 단어 경계 누락·과잉 매칭 같은 결함 존재

vendor-delay-update (업무 메시지 작성 과제)

운영 담당 VP가 지역 창고 관리자에게 보낼 상태 업데이트 작성 과제로, 바코드 스캐너 공급사 North Quay Devices의 배터리 인증 실패로 교체 유닛 420대 배송이 5월 12일에서 19일로 지연된 상황 전달
- 여유 스캐너는 Memphis·Reno만 충당 가능, Tulsa·Allentown은 1주간 기기 공유 필요
- 비필수 재고 재점검 중단, 출고 피킹 우선, 매일 현지 시각 오후 4시까지 부족분 집계 보고 요청, 어조는 차분·책임감·실용적, 분량 140~180단어
승자: DeepSeek V4 Pro — 프롬프트 요구대로 "매일 현지 시각 오후 4시까지 부족분 집계 보고"를 VP에게 직접 명시, 차분·책임감·실용적 어조 유지
- GPT-5.5 Pro는 교대 인수인계·에스컬레이션 같은 비요청 세부사항을 추가하고 수신자를 "Operations Planning"으로 전환해 지시에서 다소 이탈, 단 양측 모두 고품질·단어 제한 내 유지

meeting-notes-summary (요약 및 JSON 생성 과제)

회의록을 읽고 2문장 요약과 함께 launch_date, owner, blocked_by, open_questions(배열), decisions(배열) 키를 가진 JSON 객체 생성 과제
- 회의록은 Cedar Lane 테넌트 포털 개편 프로젝트 관련으로, 법무 승인, 프런트엔드 완료 상태, 2026-03-18 출시 희망, 금융 샌드박스의 ACH 재시도 중복 영수증 ID 차단 이슈, 다크 모드 제거 결정 등 포함
승자: DeepSeek V4 Pro — 요청된 스키마를 정확히 준수하고 2문장 요약과 올바른 타입의 JSON 필드 제공
- GPT-5.5 Pro는 요약은 양호했으나 launch_date에 조건부 텍스트를 포함하고 단일 값이 필요한 blocked_by를 배열로 처리해 구조 위반

messy-orders-to-json (데이터 정규화 과제)

지저분한 주문 라인을 지정된 스키마의 객체 배열 유효 JSON으로 변환하는 과제로, 입력 순서 보존 필수
- priority를 true/false로 정규화, none·tbd·- 같은 누락 배송일은 null로 변환, 값 앞뒤 공백 제거, 항목은 ;로 구분되고 각 항목은 SKU xQTY 형식
결과: 무승부 — 양측 모두 유효 JSON, 입력 순서 보존, 스키마 정확 일치, priority·ship_by 값 정규화를 올바르게 수행
- 품질·정확성에서 실질적 차이 없음, 다만 쉬운 정리 과제의 무승부가 정밀 작업의 실수를 상쇄하지는 못함

테스트 방식

어느 모델도 사전 준비할 수 없도록 매치업용으로 즉석 생성된 4개 텍스트 과제 사용
채점은 grok-4-1-fast-non-reasoning이 각 과제별로 수행
최종 점수는 DeepSeek V4 Pro 38.0, GPT-5.5 Pro 33.0

모델 사양

OpenAI: GPT-5.5 Pro
- 깊은 추론과 정확성에 최적화된 고성능 모델로 복잡하고 고위험 워크로드 대상
- 1M+ 토큰 컨텍스트(입력 922K, 출력 128K), 텍스트·이미지 입력 지원, 장기 호흡 문제 해결·에이전트 코딩·다단계 워크플로의 정밀 실행 설계
- 가격 입력 $30.00 / 출력 $180.00 (백만 토큰당), 컨텍스트 1.1M, 컷오프 2025-12-01
DeepSeek: DeepSeek V4 Pro
- 총 1.6T 파라미터·활성 49B 파라미터의 대규모 Mixture-of-Experts 모델로 1M 토큰 컨텍스트 지원
- 고급 추론·코딩·장기 호흡 에이전트 워크플로 대상이며 지식·수학·소프트웨어 엔지니어링 벤치마크에서 강력한 성능
- DeepSeek V4 Flash와 동일 아키텍처 기반으로, 효율적 장문 처리를 위한 하이브리드 어텐션 시스템 도입
- 추론 강도 high·xhigh 지원, xhigh는 최대 추론에 매핑, 전체 코드베이스 분석·다단계 자동화·대규모 정보 종합 같은 복잡 워크로드에 적합
- 가격 입력 $0.435 / 출력 $0.870 (백만 토큰당), 컨텍스트 1M

emptybynature 1달전 [-]

deepseek v4 pro를 여러용도로 오래 써봤는데 결국은 deepseek을 구현 에이전트로 두고 gpt 5.5를 플래닝과 오케스트레이터 역할로 두는게 제일 효율이 좋더군요. deepseek 토큰이 압도적으로 저렴해서 flash 모델로 문서 정리나 audit 역할에 써도 상당히 효율과 성능이 좋습니다

답변달기

shakespeares 1달전 [-]

안믿기네 참..

답변달기

GN⁺ 1달전 [-]

Hacker News 의견들

임의로 짠 실험 4개로는 어느 모델의 역량도 거의 말해주지 못함
글도 모델 홍보나 논쟁 유도를 노린 얄팍한 AI 생성 클릭베이트처럼 읽힘
리드 문단의 “where it matters”, “cleanly”, “is still strong” 같은 표현은 모호하고, 실제로는 4개 중 3개 테스트에서 DeepSeek가 더 간결한 결과를 냈다는 식의 구체적 설명이 부족함. 별 1개짜리임
- lede의 목적을 오해한 듯함
  Merriam-Webster에 따르면 lede는 “독자가 전체 기사를 읽도록 유도하려는 뉴스 글의 도입부”임
  더 건조한 문체를 선호할 수는 있지만, 도입부가 자기 목적을 달성하려 한다고 비판하는 건 정당하지 않음
  https://www.merriam-webster.com/dictionary/lede
- AI에 관한 AI 생성 글은 정말 잘 쓴 경우가 아니면 HN에서 보고 싶지 않음
- 4개 실험 중 3개라면 확실히 일화적이지만, 결과 자체는 더 정립된 지시 이행 벤치마크와도 어느 정도 맞아떨어짐. 다만 DeepSeek V4 Pro가 그 벤치마크에서 1위는 아님
  https://artificialanalysis.ai/evaluations/ifbench
  글은 명확하고 꽤 균형 잡혀 보였음. 리드가 약간 영업 문구 같긴 하지만 보통 리드는 그런 편이고, “LLM이 쓴 것 같은 느낌”만으로 즉각 배척하는 건 꽤 성의 없는 반응임
- 자동차 시장에서도 이상적인 최고 선택지는 한두 모델뿐이지만, 그보다 못한 회사와 모델들도 여러 이유로 계속 팔림
  이 글은 DeepSeek가 GPT 5.5와 경쟁 가능하고 때로는 더 나을 수도 있음을 보여줌. 또한 방어 가능한 해자(moat)가 없다는 신호라서 꽤 의미가 큼
- “펠리컨이 자전거를 타는” 지표에 대해서는 아무도 이런 식으로 부실한 임의 실험이라고 하지 않음
이런 테스트들은 점점 시간 낭비처럼 보임
이제 지능 자체는 분명히 있음. 그걸 측정하려 드는 게 무의미해 보임. 철물점에서 망치를 살 때 “이 망치로 만들 완제품의 품질” 기준으로 정렬할 수는 없는데, 지금 모델 평가가 대략 그런 요구를 하고 있음
다음 마법은 도메인 특화 하니스와 환경에서 나옴. 일부러 약간 덜 강한 모델을 써서 도메인을 모델에 노출한 방식의 약점을 드러내게 함. 여유 성능이 남아 있으면 프로젝트 신뢰도가 크게 올라감. 고객이 특정 엣지 케이스를 불평하면 그 시나리오만 gpt5.5로 올리면 되지만, 이미 5.5를 쓰고 있다면 더 갈 곳이 없음
- “지능이 분명히 있다”는 말이 와닿지 않음
  다른 사람들이 쓰는 모델과 같은 걸 쓰는지 의문임. 내 기준으로 LLM은 80%는 좋은 답을 주지만, 20%는 너무 처참하게 실패해서 지능이 없다는 게 명확해짐
- 동의함. sonnet 4.6이면 거의 모든 일에 충분하다고 느낌. 그 수준을 넘어서면 모델 자체보다 오케스트레이션이 더 중요해 보임
  그래도 모델들은 매일 다양한 환각, 인식론 부족, 상식 부족, 지시 불이행으로 놀라게 함
  오늘은 opus 4.8에게 Rails 앱 컨트롤러의 단순한 아키텍처 패턴을 따르게 하려 했는데, 상어 이빨을 뽑는 느낌이었음
- “분명히 있다”고 해도 이미 “어디에 있느냐”를 물어야 한다는 사실, 그리고 명백히 지능적이지 않은 봇을 봤다는 사실 때문에 지능의 위치와 원인을 정의하고 조사할 필요가 생김
  그래야 지능이 우연히, 겉보기로만 나타나는 게 아니라 일관적이고 구조적으로 나타난다는 보증을 얻을 수 있음. 가벼운 용도에는 가벼운 도구, 미션 크리티컬 용도에는 인증된 도구가 필요함
- 왜 시간 낭비인지 모르겠음
  이제 막 LLM 벤치마킹의 세부로 들어가는 중이고, 아직 갈 길은 멀다고 봄. 그래도 로컬 실행 LLM이 최신 최고 수준 모델과 비슷한 결과를 낼 수 있다는 건 굉장히 흥미로움
- 도메인 특화 하니스와 환경에서 마법이 일어나는 건 아님. 핵심은 학습과 강화학습에서 일어남. 하니스가 모델이 학습받은 행동을 덮어쓰지는 못함
  모델이 CRUD 웹사이트를 찍어내도록 학습되어 있고, CRUD 웹사이트를 만들려는 경우라면 하니스가 유용할 수는 있음. 하지만 그건 이미 있는 것을 더 잘 섞는 시간 낭비에 가까움
Claude를 쓰다가 Opencode가 막힌 뒤 직장에서는 GPT를 쓰고 있음. 개인적으로는 Opencode Go에서 월 $10 요금제로 Deepseek를 쓰는데, 솔직히 차이를 별로 못 느끼겠음
비슷하게 유능하고, 3월 이후 다른 둘이 계속 저지르던 멍청한 실수도 같은 종류로 함. 가격을 생각하면 충분히 만족함
- 95%의 시간에는 프런티어 모델이 10~100배 저렴한 중국 모델보다 제공하는 추가 5%의 엄밀함이 필요 없음
  나머지 5%의 시간에는 고난도 추론 문제에서 큰 도움을 받고 많은 고통을 피할 수 있음. 이제 그 추가 5%가 언제 필요한지 정확히 예측할 수만 있으면 좋겠음
- 두 구독을 모두 쓰고 있는데, gpt가 더 좋고 일관적이라고 확실히 느낌. 다만 한도에 걸리면 크게 그립지는 않음
- 내가 뭘 잘못하는지 모르겠음. 지난 7개월 동안 Claude를 쓰면서 가끔 deepseek, kimi 같은 모델을 시도했지만, 아무것도 Claude에 근접하지 못했음. Claude는 거의 항상 한 번에 해결함
직접 만든 취약점 스캐닝 벤치마크에 GPT 5.5 Pro를 추가해 봤는데(https://swelljoe.com/post/will-it-mythos/), 중간에 $100 예산 한도를 다 써버림. DeepSeek V4 Pro는 전체 벤치마크에 약 1달러가 들었고, GPT Pro는 케이스당 평균 $22가 들었음
GPT 5.5 Pro는 예산이 바닥나기 전 처리한 4개 중 2개를 찾았음. 무제한 예산이면 최고였을 수도 있지만, Opus 4.8, DeepSeek V4 Pro, MiMo 2.5 Pro는 9개 버그 중 4개를 찾았음. Opus는 GPT 5.5 Pro보다 한 자릿수 규모로 저렴했고 GPT 5.5보다도 약 30% 저렴했으며, DeepSeek와 MiMo는 케이스당 약 10센트로 두 자릿수 규모로 저렴했음
GPT Pro는 상대적으로 오래, 많이 “씹어댐”
Opus 비용의 약 31배를 들여 GPT 5.5 Pro를 쓸 만한 합리적 용례를 떠올릴 수 없고, 더 이상 이걸로 벤치마크하지 않을 예정임
토큰 비용이 점점 중요한 이슈가 되는 상황에서, 미국 대형 제공사보다 극적으로 저렴한 모델들이 있다는 사실은 Anthropic과 OpenAI에 문제가 될 것임. 대화형 코딩에서 최고 모델에 합리적 프리미엄을 내는 건 괜찮지만, API 사용에서는 모델 반복, 모델 간 비교, 모델 심사 등을 사람이 오래 붙잡을 필요 없이 하니스와 정답 검증 프레임워크로 처리할 수 있어서 DeepSeek보다 10배에서 200배를 더 낼 이유를 찾기 어려움
- 이 내용도 흥미로울 수 있음
  “$3.88, 690,003,591 토큰, 5시간으로 Deepseek Pro와 Flash를 함께 써서 Teamspeak 3.13.8의 라이선스 시스템을 역공학했다”
  https://www.reddit.com/r/DeepSeek/comments/1txcfrh/with_388_...
- 비교에 GPT 5.5 non-pro도 넣어줄 수 있는지 궁금함. GPT Pro는 “가끔 조금 더 나은 결과를 위해 돈을 태워도 됨” 옵션이지, 사람들이 일상적으로 쓰라고 기대되는 옵션은 아님. Codex에 들어가지 않은 이유도 아마 그중 하나일 듯함
- 좋은 글임. 다만 Sonnet이 Haiku보다 못한 이유가 헷갈림. 찾으려던 버그는 아니지만 다른 버그는 많이 찾았다고 했던 것 같음
  9개 버그는 순위를 매기기에는 표본이 조금 적어 보임
  그래도 순위는 대체로 예상과 비슷하게 나옴
  Deepseek는 Pro 맞는지, Flash는 아닌지 궁금함. Flash를 작은 작업에 많이 쓰고 있는데 꽤 괜찮음. “대화형” 사용에 좋고 매우 빠르며 작은 작업은 거의 즉시 끝냄
  큰 코드베이스 조사에도 쓸 만함. 보안 작업도 가능할지 궁금함
- 좋은 작업임. 직관이 맞는 것 같음. Mythos moment의 상당 부분은 적절한 하니스와, 어리석은 가드레일이 많지 않은 탄탄한 모델로 재현할 수 있을 듯함
  저렴한 모델들이 잘하는 것도 보기 좋음
- DeepSeek는 어디서 실행함?
Claude Code를 DeepSeek API 가격으로 바꾸면 지금 쓰는 $100 Max 플랜보다 돈값을 더 할지 궁금함
5시간 한도는 며칠에 한 번 정도만 치고, 주간 한도도 가장 공격적으로 써야 리셋 하루이틀 전에 닿는 정도임. 한도에 막히지 않는 것 말고 사용량이 크게 늘 것 같지는 않음
미국에 적대적인 정부 아래 있는 연구소로 내 작업물을 보내는 것도 아직 꺼림칙해서 순수 비용만 보는 건 아니지만, 지금 질문은 비용 관점임
- ‘돈값’을 무엇으로 보느냐에 따라 다름. 오픈 가중치 모델이 openai/claude보다 낫지는 않음. 하지만 훨씬 싸고 한도도 훨씬 높아서 더 적은 돈으로 더 많은 일을 시킬 수 있음
  모든 구독 제공사가 Anthropic보다 돈 대비 한도 가치가 더 좋음. GitHub만 예외인데, 이쪽은 압도적으로 민망할 만큼 비싸고 제한적임
  (https://codeberg.org/mutablecc/calculate-ai-cost/src/branch/...)
  미국이 아닌 연구소가 만든 모델을 쓰기 싫다는 뜻이라면 미국 모델에 묶이게 되지만, 미국에도 큰 연구소가 여러 곳 있음. 추론이 어디서 수행되는지가 걱정이라면 OpenRouter를 통해 미국을 포함한 12개국 제공사를 쓸 수 있고, 여러 구독 제공사도 여러 국가에서 호스팅함. 선택지는 많음
- 일단 해보는 걸 추천함. deepseek.com에 $5 넣고, 이 설정을 셸 스크립트에 넣은 뒤 . ./deepseek-claude.sh를 실행하고 평소처럼 claude를 쓰면 됨
  export ANTHROPIC_BASE_URL=https://api.deepseek.com/anthropic
  export ANTHROPIC_AUTH_TOKEN= *** PUT YOUR DEEPSEEK KEY HERE***
  export ANTHROPIC_MODEL=deepseek-v4-pro
  export ANTHROPIC_DEFAULT_OPUS_MODEL=deepseek-v4-pro
  export ANTHROPIC_DEFAULT_SONNET_MODEL=deepseek-v4-pro
  export ANTHROPIC_DEFAULT_HAIKU_MODEL=deepseek-v4-flash
  export CLAUDE_CODE_SUBAGENT_MODEL=deepseek-v4-flash
  export CLAUDE_CODE_EFFORT_LEVEL=max
  처음에는 한도에 가까울 때 큰 읽기 작업에 써봤음. 솔직히 Claude만큼 좋지는 않지만 훨씬 싸고 계속 일할 수 있게 해줌. 가끔은 claude와 deepseek 둘 다에게 코드를 보고 다듬는 방법을 묻고, 둘의 답을 비교하는 것도 좋음
- 월 $100 구독으로 Claude를 쓰고 있음. Opus를 설계자, Sonnet을 구현자/엔지니어, deepseek-pro를 깊은 리뷰어와 테스터로 쓰는 구성을 실험 중인데 예상대로 꽤 좋음
  사용 패턴이 유지되면 구독을 월 $20로 낮추고 Deepseek에 더 돈을 넣을 생각임
  참고 저장소: https://github.com/aravindhsampath/agentic-template
- 달러당 성과는 훨씬 좋고, 시간당 성과는 조금 떨어짐
  늘 그렇듯 모델마다 막히는 지점이 다름. Cursor 실험, 탐색, 개념 증명 대부분에는 DeepSeek v4 API를 쓰지만, 프로덕션 코드 작성은 OpenAI/Claude보다 덜 신뢰함. DeepSeek가 디버깅이나 계획에 아주 좋을 때도 있고, 막히거나 낮은 품질을 낼 때도 있음. OpenAI와 Anthropic 모델도 마찬가지긴 함
  전체적으로 DeepSeek는 쓸 만하지만 Opus 4.8과 GPT 5.5보다는 한 단계 아래로 보임. 모두 최대 사고 설정으로 돌림
- 추론을 위해 데이터를 외부로 보내는 게 걱정이라면, Fireworks는 오픈 모델을 좋은 성능으로 제공하면서 컴플라이언스와 무데이터 보존을 잘 정리한 회사 중 하나임. OpenCode도 Fireworks와 여러 제공사를 지원하고, Cursor도 Fireworks를 씀
  DeepSeek 자체 엔드포인트처럼 초저가 캐시 읽기 혜택은 없지만 Anthropic API 요금보다는 여전히 훨씬 낮음. 다만 지금은 API 요금을 내고 있는 게 아니라는 점이 중요함
  DeepSeek와 Xiaomi의 캐시 읽기 할인은 최신 세대 모델이 KV 저장 공간을 덜 써서 캐싱이 더 싸진 것과 관련 있음. 어떤 오픈 모델 추론 제공사도 그 가격을 맞추기로 하지는 않았는데, 추론 가격 구조에 대해 뭔가 말해주긴 하지만 정확히 무엇인지는 모르겠음
  최고 오픈 모델들이 프런티어 수준은 아니라는 데 동의함. 큰 그림 계획이나, 큰 틀만 주고 많은 추측을 기대하는 상황에서는 차이가 날 것임. 하지만 구체적 계획에서 코딩하는 데는 충분히 괜찮아 보임. 회사 밖에서만 써서 거대한 코드베이스 경험은 없지만, 뛰어들기 전에 필요한 정보를 모으는 능력이 괜찮아서 필요하면 grep으로 찾아다닐 것 같음
  귀찮은 단서가 하나 있는데, 개인 구독 플랜을 많이 쓰면 API보다 훨씬 싸다는 점임. https://she-llac.com/claude-limits를 보면 비용 논의가 복잡해짐. 그래도 오픈 모델을 가지고 놀아볼 가치는 있다고 봄. 소수 회사의 제품 묶음이 아니라 하나의 기술로 다룰 수 있게 해주는 요소 중 하나임
이런 식의 큰 뉴스에 지침. 작은 테스트 묶음으로 한 모델이 다른 모델보다 낫다고 선언하는데, 그 결과를 정말 일관되게 재현할 수 있는지 의문임
공개도 거의 없어서 다른 사람이 테스트나 판단을 직접 검증할 만한 자료가 사실상 없음
DeepSeek V4 Pro의 가장 큰 가치는 낮은 가격임. GPT-5.5보다 훨씬 나은 성능은 기대하지 않고, gpt-5.4 정도 성능만 되어도 여전히 좋은 모델임
- 기대가 항상 현실은 아님. 모델을 직접 써보는 게 좋음. 솔직히 나는 Pro도 안 쓰고 Flash만 써봤는데, PHP 웹 개발을 함
DSv4 Flash보다 나은 모델이 필요한 일을 거의 하지 않음. Pro는 더더욱 필요 없음
문제와 해법을 충분히 잘 설명할 수 있으면 Flash가 그냥 해냄
문제를 충분히 설명하지 못하거나 귀찮아서 원하는 결과만 설명할 수 있을 때는 GPT 5.5 같은 모델이 스스로 탄탄한 해법을 찾아내는 데 확실히 더 낫다고 느낌
모델 역량 차이는 분명 있지만, 더 작은 오픈 가중치 모델도 대부분의 작업에서 큰 도움이 될 만큼 충분히 좋다는 점도 분명함
비용 대비 성능 때문에 deepseek v4를 쓰고 있음. 전반적으로 다른 몇몇 모델보다 못하다고 느끼지만, 결국 올바른 수용 기준을 주면 어떤 모델이든 작동하게 만들 수 있음
상세한 명세와 테스트를 주고, 제대로 될 때까지 반복할 권한을 주면 됨. 원샷은 성능을 재는 나쁜 지표임
- 모든 모델이 수용 기준으로 수렴한다고 보지는 않음. 에이전트 기반 모델링과 그 영역의 과학 모델링을 꽤 다양하게 해봤는데, 검증할 기준이 있고 수렴점에 도달할 방법에 대한 아이디어가 있어도 실제로 수렴한다는 뜻은 아님
  정보 공간에서 계속 반복하다가 원하는 해법을 찾지 못한 채 갇힐 수 있음
  도움이 되긴 하지만 실패 케이스에서는 사람이 개입해 안내하거나 특정 경로를 강제로 고쳐야 해법에 도달하는 경우가 많음
reasonix와 함께 쓰는 DeepSeek V4 Pro는 놀라울 정도로 싸고 대부분의 코딩 작업에 충분히 좋음. GPT 5.5와 Opus 4.8과도 꽤 달라서, 다른 둘이 못 찾는 문제를 가끔 찾아냄
도구함에 넣어둘 가치가 있다고 봄
DeepSeek V4 Pro는 훌륭하고 말도 안 되게 싸지만, MiMo V2.5 Pro를 과소평가하고 있음. 가격은 같고 캐시 가격은 더 낮으며, 멀티모달이고 대부분의 벤치마크에서 더 높은 위치에 있음
MiMo V2.5와 DeepSeek V4 Flash 비교도 마찬가지임
- 글을 쓰던 시점의 https://news.ycombinator.com/item?id=48343690 기준으로는 MiMo V2.5 Pro의 캐시 적중 가격이 더 낮았음. 원문 내용은 이렇음
  OSS 모델은 어느 제공사에서 쓰느냐에 따라 큰 차이가 나며, 주된 이유는 캐시 적중률임
  Model Cheapest effectiveInputPrice (Provider)
  MiMo-V2.5-Pro 0.3720 (Xiaomi)
  DeepSeek V4 Pro (Max) 0.0560 (DeepSeek)

답변달기

DeepSeek V4 Pro, 정밀도에서 GPT-5.5 Pro를 앞서다

종합 평가 결과

python-log-redactor (코드 작성 과제)

vendor-delay-update (업무 메시지 작성 과제)

meeting-notes-summary (요약 및 JSON 생성 과제)

messy-orders-to-json (데이터 정규화 과제)

테스트 방식

모델 사양

OpenAI: GPT-5.5 Pro

DeepSeek: DeepSeek V4 Pro

함께 보면 좋은 글 β

댓글과 토론

Hacker News 의견들