외주 인력 + LocalAI 조합이 곧 프론티어 랩보다 경제적이 될 것

(signalbloom.ai)

14P by GN⁺ 1달전 | ★ favorite | 댓글 2개

미국 프론티어 랩들의 API 가격이 지속 인상되는 가운데, 저비용 국가 엔지니어와 DeepSeek 같은 오픈소스 모델 조합이 경제적 대안으로 부상 중
GPT-5.5, Gemini 3.5 Flash, Opus-4.7 등 최신 프론티어 모델들이 2~3배 가격 인상 또는 토큰 소비량 증가를 단행
블렌드 토큰 기준 비교 시 Anthropic·OpenAI가 약 $2.80/M, DeepSeek은 $0.094/M로 약 30배 가격 차이 존재
프론티어 모델이 더 강력하지만, 코딩 용도에서는 OSS 모델이 충분히 좋은 수준이며 유능한 엔지니어와 결합 시 격차 보완 가능
가격 인상이 무한정 지속될 수 없는 이유로 외주+LocalAI 조합이 가격 상한선 역할을 수행함

프론티어 랩의 추론 비용 상승 추세

추론 비용이 하락 중이라는 통념과 달리, 미국 프론티어 랩들의 가격은 명확한 상승 추세
GPT-5.5 ($5/$30) 출시는 GPT-5.4 출시 후 2개월 만에 이뤄졌으며, API 가격 전반이 2배 인상
- 8개월 전 GPT-5 ($1.25/$10) 대비 3배 이상 비싸짐
Gemini 3.5 Flash ($1.50/$9.00)는 직전 모델 Gemini-3-flash-preview ($0.50/$3.00) 대비 3배 인상
- Gemini-3-flash-preview 역시 2.5 Flash ($0.30/$2.50) 대비 이미 인상된 상태
Anthropic Opus-4.7은 새 토크나이저 도입으로 토큰 소비량이 32~47% 증가, 직전 Opus-4.6 대비 실질 비용 상승

프론티어 폐쇄형 모델 vs 오픈소스 모델 비교

블렌드 토큰 소비 비율 기준 비교: 입력(+캐시) 1M 토큰당 출력 50k 토큰(약 5% 미만) 가정
- 대규모 에이전트 루프는 턴 수가 많아 읽기 비중이 크므로 보수적 추정
각 제공자별 캐싱 반영 후 평균 블렌드 가격 비교 (출처: openrouter.ai)
제공자별 가격 비교
- Anthropic: 입력 $1.57 / 출력 $25.00 / 캐시 적중률 79.6% → 블렌드 $2.82
- OpenAI: 입력 $1.30 / 출력 $30.22 / 캐시 적중률 84.8% → 블렌드 $2.80
- DeepSeek: 입력 $0.055 / 출력 $0.870 / 캐시 적중률 88.1% → 블렌드 $0.094
현재 폐쇄형 프론티어 모델이 DeepSeek 최신 모델보다 더 강력하나, 30배 가격 차이를 정당화할 만큼의 격차인지는 의문
OSS LLM은 프론티어 수준일 필요 없이 코딩 용도에서 충분한 성능만 갖추면 되며, 이미 그 수준 도달

토큰 소비량 증가 추세

토큰맥싱(tokenmaxxing) 트렌드가 최근 수개월·수년간 가속화 (Pragmatic Engineer 블로그 참조)
토큰맥싱을 목표로 삼는 것은 어리석다는 데 유능한 엔지니어들 사이 공감대 존재, 단 별도 주제
토큰 소비량의 대폭 증가는 GPU 지속 부족 현상으로도 확인 가능
토큰 소비 증가와 토큰당 가격 인상이 동시에 진행 중, 미국 프론티어 랩의 가치 포착 전략과 연동

(인간 + 준프론티어 LLM) vs 프론티어 LLM

인간 엔지니어와 AI 에이전트를 12개 축으로 비교한 별도 분석 존재 (signalbloom.ai)
결론: AI 에이전트가 코딩에서 이미 인간을 추월, 범위 한정된 디버깅에서도 곧 추월 전망
단, 좋은 엔지니어링에 필요한 다른 핵심 역량은 AI가 여전히 뒤처짐
- 장기 기억(long-term memory)
- 메타 기억(Meta memory): 자신이 아는 것과 모르는 것을 확실히 구분하는 능력
- 증거 충분성 평가(Evidential Sufficiency Assessment): 행동에 충분한 증거가 있는지 판단
현재 통계적 아키텍처는 보강 또는 다른 돌파구로의 대체 필요
태스크 처리 능력과 AI 자율성은 동일하지 않음

비용 교차점 시나리오

핵심 비교
- 저비용 국가 엔지니어 + 충분히 유능한 모델 조합이 최상위 프론티어 모델 대비 가격 대비 가치 우위를 가지는 시점 분석
- 변수: 엔지니어 급여, 급여 성장률, 시작 토큰량, 토큰 증가율, 프론티어 가격, 프론티어 가격 변동률, DeepSeek 가격, 기간
결과
- 11개월 시점에 교차 발생, 프론티어 추론 비용이 엔지니어+DeepSeek 조합($1,116.61/월) 비용을 초과

의견 및 한계

차트에는 단순화 가정 존재
- 미래 추론 가격, 토큰 소비 트렌드 등 변수
- 재귀성(reflexivity): 시장 참여자들이 관찰 결과에 따라 행동을 바꿈
다음 요소들은 미반영되어 있으며, 반영 시 로컬 모델에 더 유리해질 항목
- 로컬 모델의 빠른 성능 향상 속도
- 향후 수개월·수년간 추가 투입될 추론 하드웨어
핵심 논지: AI 비용 상승은 일정 수준 이상에서 기업에 우려스러운 현금 소진과 전체 지출의 큰 비중이 됨
이로 인해 프론티어 랩의 가격 인상 폭과 속도에 상한선 형성

GeekNews Weekly에 포함된 글입니다. 에디터 코멘트 보기

hmmhmmhm 1달전 [-]

코딩에는 Qwen 3.6 35B A3B 를 쓰고 리서치에는 Gemma 26B A4B 를 쓰면 어느정도 나오는 것 같은데, 뭔가 값 싼 온디바이스 장비가 더 나와줬으면 합니다. 애플 M4 Pro 이상이거나 RTX 5070 Ti 16GB 이상은 되야 돌릴락 말락해서....

답변달기

GN⁺ 1달전 [-]

Hacker News 의견들

LLM 가격을 논할 때 핵심을 놓치고 있음. 구독형 토큰 가격은 API 가격보다 10~40배 저렴해서, 월 $90짜리 Claude 구독은 API 토큰 가격으로 환산하면 거의 $1000~$4000에 해당함
두 번째로, 모델을 다루는 “운영자”의 실력이 결과에 엄청난 차이를 만듦. 프롬프트를 잘 쓰고 주도성이 높은 숙련된 시니어 개발자는 동기와 기초 역량이 부족한 팀원보다 훨씬 좋은 결과를 냄
마지막으로 Opus 같은 5T급 최첨단 모델과, 벤치마크에서만 잘 보이는 DeepSeek의 작은 증류 모델 사이에는 능력, 결정성, 오류 처리에서 큰 차이가 있음
- 오늘 알게 됐는데, 대기업이 거버넌스 기능과 감사 로그 때문에 쓰는 Anthropic Enterprise 플랜은 API 토큰 요율에 좌석당 월 $20를 더해 과금됨
  그래서 대기업은 할인된 구독 플랜보다 훨씬 더 많이 내는 구조임
- Opus가 5T 모델이라는 근거가 뭔지 궁금함
  그리고 로컬 모델이 “DeepSeek에서 증류된 것”이라는 말은 잘못 알고 있는 것 같음. 로컬 모델들이 벤치마크에서만 잘하는 것도 아니고, Qwen 3.6은 꽤 괜찮은 모델임. 물론 Opus는 아니지만 훨씬 빠르고, 속도 자체도 하나의 품질임
- 비최첨단 모델들도 계속 개선되고 있음. 누군가 DeepSeek로 작업의 90%를 $100에 끝내고, 나머지를 Anthropic이나 OpenAI에 $100 내고 마무리할 수 있다면, Anthropic이나 OpenAI에 $1000을 내기보다 그쪽을 택할 가능성이 큼
- 구독형 토큰 가격이 API보다 10~40배 싼 건 일시적 현상임. 앞으로 몇 달 안에 큰 폭의 가격 인상이나 강한 사용 제한, 혹은 둘 다를 예상해야 함
  이 회사들은 막대한 적자를 내고 있고 수천억 달러 규모의 부채와 약정이 있음. 조만간 수익화 수도꼭지를 열어야 함
- 월 $90 Claude 구독이 API 기준 $1000~$4000어치라는 걸 알고도, 이 구조가 지속 불가능하다고 보는 게 비합리적이라고 생각하나?
이건 나무만 보고 숲을 못 보는 것 같음. ChatGPT와 일하는 건 예전에 엔터프라이즈 시절 인도 오프쇼어 개발자들과 일하던 느낌과 섬뜩하게 비슷함. 명시적으로 안내하면 생산적이지만, 마음대로 두면 WTF 순간이 많이 생김
LLM은 아웃소싱 개발자를 대체할 가능성이 큼. 맥락을 아는 내부 직원들이 LLM을 써서 예전 오프쇼어 개발자가 하던 일을 할 수 있기 때문임
- 그 WTF 순간 중 얼마나 많은 게 단순히 “그 일이 결정된 방 안에 없었기 때문”일까? 대부분의 엔터프라이즈 소프트웨어에는 이런저런 타협으로 요구된 WTF 순간이 가득함
- 당신 나라 밖에도 재능 있고, 언어도 충분히 구사하며, 더 낮은 보수를 받아들일 개발자들이 있음. 그런 개발자가 늘어날 이유는 충분함
- LinkedIn에서 일감을 구걸하는 아웃소싱 팀 수를 보면 확실히 맞아떨어짐
- “인도 오프쇼어 개발자”들도 만만한 사람들이 아님. 그들도 같은 GPT 모델에 접근할 수 있고, 비용은 미국 중위 연봉의 10분의 1일 가능성이 큼
  기업은 항상 한계비용을 낮추려 함. 미국에서 소프트웨어 아키텍트 1명을 고용해 명세를 쓰게 하고, 인도 개발자 10명을 고용해 에이전트 100개를 돌보게 할 것임
원격 개발자와 달리 아웃소싱의 문제는, 제대로 굴리려면 정말 뛰어난 관리자와 기술 리더가 필요하다는 점임
경험상 효과적인 결과를 얻으려면 매우 상세한 설계 문서와 작업 명세를 써야 함. 보통 효과적인 프롬프트만큼 자세해야 함
그 정도로 상세한 명세를 이미 썼다면, 왜 아웃소싱 개발자와 최첨단 모델이 필요한가?
- 재미있는 건 아웃소싱의 문제가 AI의 문제와 같고, 전부 2000년대 초반을 떠올리게 한다는 점임. 회사들은 제품에 가해지는 손상을 깨닫지 못한 채 얼마나 돈을 아낄 수 있는지에 놀람
  강한 제품/프로젝트 리더가 매우 꼼꼼하게 감독하는 회사들은 새로운 세대의 개발자를 만들 수 있겠지만, 어떤 회사들은 영업 문구를 믿고 소프트웨어가 유지보수 불가능해지면서 실패할 것임
  10년 뒤에도 개발자 수는 지금과 비슷하고, 더 많은 제품을 만들고 있을 것이라 봄. AI는 의미 있는 고립된 영역의 자동화에 쓰이겠지만, 대부분의 소프트웨어 개발은 같은 개념을 더 적은 텍스트 쓰레기로 표현하는 더 높은 추상화 수준에서 이뤄질 것임
  코드의 핵심은 이상한 경계 사례의 복잡함을 구체적으로 인코딩하고 드러내는 데 더 집중될 것임
  소프트웨어 개발을 처음 시작했을 때, 여러 사람 손을 거쳐 내려온 아주 지저분한 MUD를 작업했음. AI가 엄격한 감독과 수정 없이 만든 진흙덩어리와 스파게티 코드를 누가 기꺼이 파헤치려 할지 상상하기 어려움
  소프트웨어 개발의 핵심은 늘 문제 해결, 더 정확히는 문제 식별이었음. 시간이 지나며 우리는 그 지점에 집중하기 위해 잡다한 것들을 점점 제거해 왔음. 이 흐름은 계속될 것이고, 문제를 명시하는 더 간결하고 추상적인 언어로 진화하며, 까다로운 논리 흐름, 드라이버 부분, 수학은 라이브러리와 도구로 더 많이 격리될 것 같음
- “아웃소싱” 개발자나 업체의 전체 사업 모델은 사람들에게 과다 청구하는 것임. “엔지니어 4명이 프로젝트에 투입됐다”고 하지만, 그 4명은 다른 프로젝트 5개도 같이 하고 있음
  엔지니어들이 협조적이어도, 관리자나 사업주는 긴밀한 협업을 꺼리고 거리를 둔 작업 방식을 강제함. 예를 들면 주 1회 통화 같은 식임
  직접 겪어 봤음. 한 번은 아웃소싱 개발팀에 £300k를 썼는데, 다행히 내 돈은 아니었고, 끝에 아무것도 납품받지 못함. 대부분의 시간은 단순히 작업 방향을 맞추는 데 쓰였음
  나와 파트너는 원하는 게 뭔지 어느 정도 알고 있었고 동기화를 더 자주 해서 노력을 맞추려 했지만, 그쪽 관리자들이 계속 막았음. 이게 컨설팅 사업 모델임
  원격 정규직은 인센티브가 반대임. 말 그대로 풀타임 직원이고, 소통을 방해하는 관리 계층이 없으며, 게으르거나 사기꾼이 아니라면 흥미로운 문제를 풀고 싶지 지루하게 있고 싶지는 않을 것임
- 아웃소싱은 대체로 낸 만큼 정확히 돌려줌. 어떤 면에서는 다른 방식보다 더 투명함. 다만 그 투명성, 즉 품질의 가격이 결정을 내린 경영진이나 구매 조직에서 실제로 분산 작업을 해야 하는 팀까지 전달되지 않는 경우가 있음
  원문의 가정이 빗나간 지점도 거기라고 봄. DeepSeek와 최첨단 모델의 차이는 보통 저품질 아웃소싱으로 메울 수 있는 범위가 아님. 결국 매우 숙련된 아웃소싱 엔지니어에게 돈을 내게 되고, 그들은 크게 싸지 않을 수 있음. 애초에 아웃소싱은 비용뿐 아니라 역량과 수용력 때문에도 이뤄짐
- 내 생각도 정확히 이쪽임
  모든 것을 적절한 세부 수준까지 명세해야 하고, 그 시점이면 LLM도 꽤 잘 해낼 가능성이 큼. 게다가 많은 아웃소싱 팀은 내부 팀과 전혀 다른 방식으로 만들며, 납품 수준과 속도의 차이가 절대적임
  모든 것이 이렇게 빠르게 변하는데, 왜 남의 직원을 최신 흐름에 맞게 훈련시키는 데 내 시간과 돈을 써야 하는지도 의문임
- 내 문제는 그냥 오너십 부족이었음. 작고 집중된 아웃소싱 회사가 아니라면, 품질이나 유지보수성을 떠나 그냥 내보내는 편이 회사 입장에서는 더 쉬움. 물론 내 표본은 개인적으로 작긴 함
미국 소프트웨어 회사 임원인 친구가 있는데, 동유럽 지사의 프로그래머 몇 팀을 해고하고 소수의 미국 프로그래머와 AI로 대체할 준비를 하고 있음. 그쪽이 훨씬 생산적이고 새 기능을 훨씬 빠르게 만든다고 함
- 이쪽이 더 그럴듯하게 들림. 내 병목은 “코드 이해”보다 사용자 이해 쪽으로 옮겨가고 있음. 후자를 검증하는 일은 프로그래머가 아니어도 할 수 있음
- 흥미로운 역전 구도임
  제조업에 적용하면, 로봇 우선 전략은 단순히 제조업을 국내로 되돌리는 데 그치면 안 되고 더 높게 잡아야 함. 새로운 아웃소싱 제조 목적지가 되는 것임
- 그 사람이 현실로 돌아와 에이전트들을 대량 해고하기까지 얼마나 걸릴까 :-)
- 글은 아웃소싱에 관해서는 맞지만, 값싼 오프쇼어 계약자 때문은 아니라고 봄. 좋은 전문가들은 더 독립적으로 일하게 되고, AI 덕분에 더 많은 고객을 지원할 수 있게 됨
  그래서 중소기업은 내부 엔지니어, 재무, 마케팅 인력을 지금만큼 많이 둘 필요가 없어질 수 있음
미국 최첨단 AI의 미래는 API 호출이 아니라, OAI/Anthropic에 컨설턴트나 외부 업체처럼 작업을 가져가고, 중간 작업물을 대량으로 보지 않은 채 제품 같은 결과물을 받는 형태임
이는 증류 위협과 최첨단 성능을 밀어붙이는 데 필요한 독점 실행 환경 개발 노력이 결합되어 필연적임
OAI/Anthropic은 100% 모두의 일자리를 빼앗고 “노동”을 소유하려 할 것임. 여기서는 중국 쪽이 선역임
- 아님. 프로젝트를 벽 너머로 던져 넘기는 방식은 거의 항상 재앙으로 끝남. 요구사항은 절대 충분히 명확하지 않음
- 그런 방식이 잘되길 빌겠음. 이건 Prolog 같은 선언형 프로그래밍 언어의 영감을 떠올리게 함. 기계가 풀 수 있도록 문제를 선언하라는 것이고, 기계에게 무엇을 하라고 지시하는 명령형 방식과 대비됨
  그런데 그들이 깨닫지 못한 건, 정의하는 일이 해법 자체보다 더 어렵다는 점임
로컬 모델을 어떻게든 써보려고 정말 많이 시도했음. 여러 실행 환경, 도구, 스킬, 프롬프트 등을 다 써봤음
하지만 Claude Code와 Anthropic 모델, 또는 Codex와 GPT 5.5를 Qwen, GLM, Gemma와 같은 실행 환경에서 비교하면, 최첨단 모델이 압도적으로 앞섬. 이제는 비최첨단 모델의 의미를 모르겠음. 아끼는 시간보다 낭비하는 시간이 더 큼
- 에이전트형 코딩에서는 100% 동의함. 큰 규모 코딩에서는 로컬 모델이 더 나쁘고, 더 느리며, 더 비쌈
  좁은 범위의 코딩, 예를 들어 특정 함수 작성은 느리지만 가능함. 다만 고급 소비자용 하드웨어에서 일반 LLM 채팅 용도로 쓰는 것은 비용을 제외하면 경쟁력 있음
  https://www.williamangel.net/blog/2026/05/17/offline-llm-ene...
- 로컬 모델은 최신 최첨단 모델보다 3~6개월 뒤처져 있지만, 모든 지식재산을 수상한 제3자에게 보내지 않아도 된다는 큰 장점이 있음
  추론 비용이 내려가면, 지난 몇 년간 그래 왔듯이, 올해 말에는 오늘의 최첨단 모델을 노트북에서 돌릴 수 있게 될 것임
- 나도 같음. Codex나 Claude 플랜에 월 $200을 쓰거나 환급받는 걸 두고 트집 잡는 걸 들으면 답답함
  소프트웨어 엔지니어로서 사실상 다 쓰기 어려울 만큼 충분하고, 효율 향상을 생각하면 아주 싼 편임
  게다가 Claude/Codex가 이미 잘하고 매달 나아지고 있는데, 누가 실행 환경을 만지작거리거나 에이전트 오케스트레이션을 정의하고 싶겠음
- 같은 결론에 도달했음. 질의 하나의 비용을 생각하면, 항상 Opus를 쓰는 게 가장 싼 선택임
- 핵심은 자신의 이해관계와 맞지 않는 기업에 스스로를 예속시키지 않는 것임
더 가능성 높은 시나리오는 하단이 사라지고, 상단은 최첨단 모델을 통해 더 생산적으로 되는 것임
개발자가 약할수록 더 높은 능력의 AI가 필요함. 이 글의 전제는 약한 개발자와 약한 AI가, 강한 개발자와 거의 자율적인 AI보다 낫다고 혼동하기 때문에 성립하지 않음
최첨단 AI를 쓰는 약한 개발자가 만드는 제품은 이미, 약한 2년 전 AI를 곁들인 유능한 개발자보다 못함
더 분명히 말하면, 강한 개발자는 2년 전에도 AI를 활용해 고품질 제품을 만들 수 있었음. 최신 AI를 써도 약한 개발자는 여전히 고전하지만, 강한 개발자는 더 강한 AI에 더 많은 일을 위임해 생산성을 더 끌어올릴 수 있음
- 살면서 드물게도 지금은 대체로 유능한 시니어 엔지니어들과 일하는 직장에 있어 정말 다행임
  감독 없는 계약자나 과잉 채용된 신입들이 있는 악몽 같은 조직은 요즘 같은 시기에는 훨씬 더 치명적일 것임
DeepSeek를 오픈소스 LLM의 예로 드는 서사를 계속 보는데, 그들은 엄청난 양의 토큰을 원가로 보조하고 있음. 게으르지 않고 비판적으로 생각하면 왜 그러는지 쉽게 이해할 수 있음
특히 지정학적 위험 때문에 추론 하드웨어가 강하게 제한되는 상황에서는, 최첨단 모델이 제공하는 수준에 맞먹는 로컬 AI를 쓰는 건 아직 너무 비싸고 비효율적임
로컬 LLM이 장기적으로 이 최첨단 회사들을 위협할 수 있다는 주장도 매우 의심스러움
토큰이 비싸지는 이유는 그들이 시장을 장악하기 시작했고, 그 우위를 이용해 국경 안팎의 하드웨어 유통을 제한할 것이기 때문임
일부 워크플로에는 로컬 LLM이 더 많이 쓰일 가능성이 크지만, 최첨단 모델 수준이 필요한 작업은 아니며, 최첨단 모델의 더 가볍고 작은 버전이 롱테일을 잡기 위해 제시하는 가격도 이기기 어려울 것임
- 첫 주장에 대한 출처가 있나?
  내 인상으로는 DeepSeek가 v4를 특히 저렴한 추론을 위해 설계했고, 가격이 75% 낮아도 손해를 보지 않는 것 같음
- DeepSeek 모델을 OpenRouter에서 제공하는 다른 업체들도 매우 낮은 가격을 제시할 수 있으니, 토큰을 원가로 보조한다는 말은 완전히 틀림. 그 업체들은 보조할 돈도 없음
- 아닌 것 같음. 내가 듣기로 DeepSeek는 추론에서 손해를 보지 않음
엔지니어 비용보다 품질 경험과 개인적 가치관이 더 중요하다고 봄. 지난 몇 년간 아웃소싱 작업에서 너무 많은 지름길을 봤고, AI도 지름길을 아주 좋아함. 둘의 조합은 비용 절감만큼의 가치가 없음
높은 품질의 작업과 자기 일에 대한 자부심을 중시한다면, 아웃소싱 인력은 해법이 아님. 대체로 자기 일에 세심한 주의를 기울이지 않기 때문에 비용이 낮은 것임
반대로 그냥 어떻게든 끝내기만 하고 제대로 됐는지는 신경 쓰지 않는다면, 가능한 한 적은 돈을 쓰는 것보다 나은 방법도 없을 것임
글이 다루지 않는 부분이 있음. 좋은 엔지니어는 기존 프로젝트에서 코딩 자체에 쓰는 시간이 다른 작업에 비해 많지 않음. 좋은 엔지니어는 시스템을 끝에서 끝까지 이해함. 오프쇼어 개발자는 Llama3보다 못함