로컬 AI가 표준이 되어야 함

(unix.foo)

17P by GN⁺ 16시간전 | ★ favorite | 댓글 4개

앱 기능에 OpenAI나 Anthropic API를 붙이는 흐름이 흔해졌지만, 클라우드 호스팅 AI 모델 의존은 서버 장애·결제 문제만으로 기능이 멈추고 개인정보 부담까지 커지게 만듦
현대 기기에는 Neural Engine 등 강력한 온디바이스 연산 능력이 있지만, 대부분 유휴 상태로 방치된 채 서버 응답만 기다리고 있음
예를 들어, Apple의 FoundationModels 프레임워크를 활용하면, 서버 없이 기기에서 직접 요약·분류·추출 등의 AI 기능을 구현 가능
The Brutalist Report의 native iOS client는 기사 요약을 Apple 로컬 모델 API로 온디바이스에서 생성해 서버 우회, 프롬프트·사용자 로그, 벤더 계정, 콘텐츠 보관 각주가 필요 없게 함
로컬 모델은 클라우드 모델만큼 똑똑하지 않을 수 있지만, 요약·분류·추출·재작성·정규화 같은 데이터 변환 작업에는 충분할 수 있으며 클라우드 모델은 정말 필요할 때만 써야 함

클라우드 AI 의존의 문제점

개발자들이 앱 기능에 OpenAI나 Anthropic API 호출을 무분별하게 추가하는 트렌드가 확산 중
이런 방식은 소프트웨어를 취약하고, 프라이버시를 침해하며, 근본적으로 불안정하게 만듦
- 서버 장애나 신용카드 만료 시 앱이 작동을 멈추는 구조
사용자 콘텐츠를 서드파티 AI 제공자에게 스트리밍하는 순간, 제품의 성격 자체가 변함
- 데이터 보존, 동의, 감사, 유출, 정부 요청, 학습 데이터 사용 등의 문제가 수반
네트워크 상태, 외부 벤더 가동률, rate limit, 계정 결제, 자체 백엔드 상태에 모두 의존하게 되어 스택이 복잡해짐
결과적으로 UX 기능 하나가 비용이 발생하는 분산 시스템으로 바뀌는 셈임
로컬에서 처리 가능한 기능을 굳이 클라우드로 보내는 것은 자충수

로컬 디바이스 활용의 당위성

현재 주머니 속 기기의 실리콘은 10년 전과 비교할 수 없을 만큼 빠르며, 전용 Neural Engine이 대부분 유휴 상태
- 그 사이 버지니아 서버 팜에서 JSON 응답을 기다리는 구조는 비합리적
"AI everywhere"가 목표가 아니라 유용한 소프트웨어가 목표여야 함
로컬에서 처리 가능한 기능이라면, 외부 의존성을 선택하는 것 자체가 불필요한 피해

The Brutalist Report의 온디바이스 요약

The Brutalist Report는 1990년대 스타일 웹에서 영감을 받은 뉴스 애그리게이터 서비스임
최근 native iOS client를 만들면서 고밀도 뉴스 읽기 경험을 유지하는 것을 설계 목표로 삼음
iOS 클라이언트는 강한 대비의 헤드라인 목록, 웹을 읽기 어렵게 만든 요소를 제거하는 리더 모드, 선택적으로 기사를 요약하는 “intelligence” 뷰를 포함함
핵심은 요약이 Apple의 로컬 모델 API를 통해 온디바이스에서 생성된다는 점임
서버 우회, 프롬프트나 사용자 로그, 벤더 계정, “콘텐츠를 30일 보관한다”는 식의 각주가 필요 없음
모든 AI 사용이 서버 측에서 일어난다고 받아들이는 흐름이 너무 자연스러워졌고, 이를 되돌리려면 업계 차원의 노력이 필요함
일부 사용 사례는 클라우드 호스팅 모델만 제공할 수 있는 지능을 요구하지만, 모든 사용 사례가 그런 것은 아니므로 신중한 판단이 필요함

Apple 생태계의 로컬 AI 도구

Apple 생태계에서는 최근 1년 동안 개발자가 내장 로컬 AI 모델을 쉽게 활용할 수 있도록 투자가 이뤄짐

기본 흐름은 FoundationModels를 가져오고, SystemLanguageModel.default의 사용 가능 여부를 확인한 뒤, LanguageModelSession으로 프롬프트를 구성해 응답을 받는 방식임

import FoundationModels  

let model = SystemLanguageModel.default  
guard model.availability == .available else { return }  

let session = LanguageModelSession {  
  """  
  Provide a brutalist, information-dense summary in Markdown format.  
  - Use **bold** for key concepts.  
  - Use bullet points for facts.  
  - No fluff. Just facts.  
  """  
}  

let response = try await session.respond(options: .init(maximumResponseTokens: 1_000)) {  
  articleText  
}  

let markdown = response.content

긴 콘텐츠는 일반 텍스트를 약 1만 자 단위로 나누고, 각 청크에서 간결한 “facts only” 노트를 만든 뒤, 두 번째 패스로 최종 요약을 결합할 수 있음
이런 작업은 로컬 모델에 잘 맞음
- 입력 데이터는 사용자가 이미 읽고 있는 콘텐츠라서 기기에 있음
- 출력은 가벼움
- 빠르고 비공개로 처리됨
- 사용자가 방금 불러온 페이지를 요약하는 작업이지, 세계 지식을 새로 만들어내는 작업이 아니므로 초인적 수준의 지능이 필요하지 않음
로컬 AI는 모델의 역할이 우주 전체를 검색하는 것이 아니라, 사용자가 소유한 데이터를 변환하는 일일 때 빛남

신뢰를 만드는 방식

이메일 요약, 노트에서 할 일 추출, 문서 분류 같은 AI 기능은 사람들이 원하지만 신뢰하지 못하는 기능에 속함
일반적인 클라우드 방식은 이런 기능을 모두 “데이터를 서버로 보내도 괜찮은지”를 묻는 신뢰 문제로 바꿈
로컬 AI는 이미 기기에 있는 데이터를 그 자리에서 처리하게 해 이 구조를 바꿈
사용자 신뢰는 2,000단어짜리 개인정보 처리방침으로 만들어지지 않음
애초에 그런 개인정보 처리방침이 필요 없도록 만드는 방식이 신뢰를 만듦

구조화된 출력과 타입 기반 AI

Apple이 최근 잘한 선택 중 하나는 “AI output”을 구조 없는 텍스트 덩어리에서 타입이 있는 데이터로 옮긴 점임
“모델에게 JSON을 요청하고 잘 나오길 바라는” 방식 대신, 원하는 결과를 나타내는 Swift struct를 정의하는 방식이 더 새롭고 나은 패턴임

각 필드에 자연어 가이드를 주고, 모델에게 해당 타입의 인스턴스를 생성하게 함

import FoundationModels  

@Generable  
struct ArticleIntel {  
  @Guide(description: "One sentence. No hype.") var tldr: String  
  @Guide(description: "3–7 bullets. Facts only.") var bullets: [String]  
  @Guide(description: "Comma-separated keywords.") var keywords: [String]  
}  

let session = LanguageModelSession()  
let response = try await session.respond(  
  to: "Extract structured notes from the article.",  
  generating: ArticleIntel.self  
) {  
  articleText  
}  

let intel = response.content

이 방식이면 UI가 Markdown의 불릿을 긁어내거나 모델이 JSON 스키마를 기억했기를 기대할 필요가 없음
앱은 실제 필드를 가진 실제 타입을 받아 일관되게 렌더링할 수 있음
앱이 실제로 사용할 수 있는 구조화된 출력을 만들며, 이 과정 전체가 로컬에서 실행됨
단순히 편리한 인터페이스가 아니라 엔지니어링 품질 개선
로컬 퍼스트 앱에서 "AI는 신기한 기능"이 아닌 "신뢰할 수 있는 서브시스템" 으로 기능하게 만드는 차이가 됨

"로컬 모델은 덜 똑똑하다"에 대한 반론

로컬 모델이 클라우드 모델만큼 똑똑하지 않다는 점은 맞지만, 대부분의 앱 기능에는 해당하지 않음
대부분의 기능이 요구하는 것은 셰익스피어를 쓰거나 양자역학을 설명하는 능력이 아니라, 요약, 분류, 추출, 재작성, 정규화 중 하나를 안정적으로 수행하는 능력
이런 작업에 로컬 모델은 충분히 뛰어남
로컬 모델을 인터넷 전체의 대체물로 쓰면 실망하지만, 앱 내부의 "데이터 변환기" 로 사용하면 왜 서버에 보냈는지 의문이 들 정도
클라우드 모델은 진짜 필요할 때만 사용하고, 사용자 데이터는 제자리에 둬야 함
AI를 사용할 때 채팅 박스를 붙이는 것이 아니라, 타입 출력과 예측 가능한 동작을 갖춘 실제 서브시스템으로 활용해야 함

프라이버시와 신뢰 구축

이메일 요약, 노트에서 액션 아이템 추출, 문서 분류 등 사람들이 원하지만 신뢰하지 않는 AI 기능이 다수 존재
클라우드 방식은 이 모든 것을 신뢰 실험으로 전환: "데이터를 서버로 보내주세요, 잘 다루겠습니다"
로컬 AI는 이를 근본적으로 바꿈 — 기기에 이미 데이터가 있고, 기기에서 바로 처리
2,000단어짜리 개인정보 보호정책을 작성해서가 아니라, 애초에 그런 정책이 필요 없는 구조로 신뢰 구축

▲

savvykang 7시간전 [-]

수치계산용 행렬 프로세서 말고 LLM 전용 플레이어에 가중치랑 토큰 카트리지 갈아끼우는 날이 올까요? GPT3 카트리지는 하나쯤 소장하고 싶네요

답변달기

▲

majorika 6시간전 [-]

LLM을 칩 위에 ‘인쇄’하는 Taalas의 방식
그런 시장이 올지는 모르겠지만 도전하는 회사는 있는 것 같습니다.

Taalas가 성공했으면 좋겠습니다

GN⁺ 16시간전 [-]

Hacker News 의견들

주류 사용자들이 지금 로컬 AI를 보는 감정은 몇십 년 전 오픈소스를 보던 감정과 비슷함
일부 제품에서는 유료 솔루션이 훨씬 앞서 있어서 오픈소스가 자주 완전히 무시됐고, “왜 굳이?” 같은 분위기였음
그러다 종속적인 SaaS와 플랫폼들이 등장했고, 지금은 그 판단이 대체로 틀렸다는 게 분명해짐
코딩에서 Anthropic과 OpenAI 의존도는 말도 안 될 정도인데, 많은 사람은 신경 쓰지 않거나 중국이 오픈 가중치를 멈추지 않기만 바람
오픈 가중치의 사업 모델은 매우 새롭고, 국가와 연구소 간 힘겨루기가 섞여 있으며, 대다수의 실질적 감시 없이 터무니없는 돈이 움직임
지금은 엄청난 가치가 거의 모두에게 열려 있지만, 우리가 통제할 수 없는 이유로 아무 경고 없이 멈출 수 있는 위험한 도박임
- 현재 나온 최고 수준의 오픈 가중치 LLM을 소비자용 하드웨어에서 계속 돌리는 걸 막는 게 뭐가 있는지 모르겠음
  95%의 용도에는 충분하고, 유통기한도 없음
  “위험”은 다음 단계 모델을 못 쓰는 정도인데, 그 영향은 매우 낮아 보임
- 오픈 가중치 AI의 사업 모델이 뭔지 모르겠고, 사실상 없다고 봄
  잘해봐야 더 고급 모델을 팔기 위한 광고 역할 정도임
  오픈소스와의 큰 차이는 자유 시간과 의지만으로 LLM을 학습시킬 수 없다는 것임
  많은 데이터와 막대한 연산 자원이 필요함
  이 점에서는 틀렸으면 좋겠고, 미래가 오픈 가중치 쪽으로 가는 편이 훨씬 마음에 듦
- 로컬 AI 대 클라우드 AI 구도가 아니어야 한다고 봄
  로컬 AI는 별도 제품으로 다루고, 정말 클라우드 AI가 필요 없는 일을 로컬에서 처리한 뒤 클라우드 AI를 대체 수단으로 쓰면 비용이 많이 줄어들 것임
- 미국 정부가 자체 로컬 AI를 만들기를 기다리고 있음
  세금으로 만든 것이니 결국 오픈소스로 공개하게 될 가능성이 있고, NSA에는 수십 년치 인터넷 데이터가 있으니 그걸로 학습하면 오픈 가중치도 어떤 회사 모델만큼 좋아질 수 있음
- 비용이 중요한 요소가 되거나 무료지만 더 약한 선택지가 매력적이고 접근 가능해지면, 예를 들어 Apple식 사용자 경험의 온디바이스 에이전트처럼 되면 사용자는 로컬 쪽으로 꽤 움직였음
  사진 배경 제거, PDF OCR 같은 걸 생각해보면 일상적인 용도로 이런 것에 유료 서비스를 쓰는 사람은 거의 없음
그 순간은 올 것이고, 그렇게 멀지도 않음
이미 흐름은 잡혔음. 처음에는 대형 데이터센터에서만 성능 좋은 LLM을 돌릴 수 있었고, 지금은 H100 몇 장이 꽂힌 서버 여러 대 수준에 확실히 와 있으며, 점점 “MacBook Pro나 Strix Halo에서 128GB VRAM” 쪽으로 가고 있음
앞으로 1년 안에 회사에서는 “비싼 원격 LLM으로 계획하고, 로컬의 느리지만 사람보다 빠른 LLM으로 실행”하는 패턴이 표준이 될 것이고, 점차 “전부 로컬 LLM으로 해도 충분하다”로 이동할 것임
결국 기존 클라우드와 같은 균형이 생김. 직접 호스팅하거나, 유연성과 속도에 돈을 내는 방식임
문제는 로컬 호스팅이 현재의 연산 자원 과열을 얼마나 끝장낼지, 그리고 그게 시장에 무엇을 의미할지임
- 그 시점은 이미 지금 와 있음
  3년 된 괜찮은 게임용 PC, 대략 RTX 3080 12GB와 RAM 32GB에서 양자화된 Qwen과 Gemma를 돌리고 있음
  느리고 문맥 창도 작지만, 적절한 실행 환경을 붙이면 여행 사진을 훑고 분류할 수 있음
  영수증 OCR을 하고 지출을 요약할 수 있으며, 간단한 질문에 답하고 코드를 분석하고 문맥이 적게 필요할 때는 코드도 쓸 수 있음
  VS Code 연동을 신경 쓰면 그럭저럭 자동완성도 만들 수 있을 것 같음
  “MacBook Pro나 Strix Halo에서 128GB VRAM”은 에이전트식 코딩을 위한 최소 실행 가능 구성이라고 봄
  다만 현재는 반대로 돌아감. 클라우드 버전이 직접 호스팅보다 몇 자릿수나 저렴한데, 공유를 통해 서버 활용률을 훨씬 높일 수 있기 때문임
  회사가 GLM 5.1을 돌리는 장비에 50만 달러를 쓰면 데이터 보안, 유연성, 검열 없음은 얻지만, Anthropic 좌석제 요금과 비교하면 너무 비쌈
- 로컬 모델의 가장 큰 영향은 단순히 원격 추론이 유일한 선택지가 되는 걸 막는 데 있을 수 있음
바로 몇 줄 아래 글에서는 Chrome이 로컬 추론용으로 몇 GB 공간을 쓰는 로컬 LLM 모델을 넣었다고 난리가 났음
해도 욕먹고 안 해도 욕먹는 셈임
- 묻지도 않고 기가바이트 단위의 대역폭과 저장 공간을 쓰지 않으면 됨
- 모델이 필요하면 직접 가서 내려받을 것임
  얼마 전에도 이미지 생성을 가지고 놀려고 그렇게 했음
- 이건 좀 정직하지 않은 해석임
  사람들이 로컬 모델 설치 자체에 화내는 게 아니라 사용자 자율성 부족에 화내는 것임
  조용히 설치하지 말고 모델을 내려받을지 선택지를 주면 됨
  그렇게 어려운 일이 아니고, 다른 모든 로컬 선택지는 그렇게 동작함
- 이상한 해석임
  옵트인이 아니거나 브라우저에 억지로 끼워 넣는다면 별로임
  로컬 LLM을 실행하는 앱이 필요한 데이터를 내려받는다고 분노하는 사람은 없음
- 사람들이 실제로 무엇을 불평하는지 댓글을 읽어보는 게 좋겠음
  이 댓글은 논의의 성격을 꽤 부정직하게 다루고 있음
프라이빗 AI 논의와 로컬 AI 논의는 분리해야 한다고 봄
큰 LLM을 돌리는 현실적 선택은 온라인의 대형 서버 하나 또는 여러 대지만, 그렇다고 사기업만 그것을 운영해야 한다는 뜻은 아님
좋은 테넌트 격리 보장, 이상적으로는 제로 트러스트를 제공하고 배포와 유지보수가 충분히 쉬운 자체 호스팅 추론 솔루션, 말하자면 AI용 Plex 같은 것이 프라이버시를 위한 선택지가 될 것임
솔직히 이 부분은 전혀 조사하지 않았고 가능성이 어느 정도인지도 모름. 이미 존재하고 내가 들어가야 할 Discord 서버가 있을 수도 있음
덧붙이면 여기서 굳이 말할 필요도 없지만 놀라운 점은 오픈 모델이 최고의 상업 모델에 근접해 있으니, 가장 어려운 부분은 이미 대체로 해결됐다고 볼 수 있다는 것임
- 또 다른 선택지는 클라우드의 보안 엔클레이브 안에서 오픈소스 모델을 돌리는 검증 가능한 비공개 추론임
  NVIDIA 기밀 컴퓨팅을 사용하고, 엔클레이브 코드는 오픈소스이며 연결 시 원격 증명으로 검증되어 추론 제공자가 어떤 데이터도 볼 수 없음을 암호학적으로 증명함
  Tinfoil: https://tinfoil.sh/이 좋은 예시임. 이해관계 공개를 하자면 공동창업자임
  작동 방식은 여기서 더 읽을 수 있음: https://docs.tinfoil.sh/verification/verification-in-tinfoil
  오픈 모델이 최고의 상업 모델에 근접했다는 말은 특정 작업에서는 대체로 맞음
  예를 들어 채팅 인터페이스는 이미 최고의 오픈소스 모델이 제공하는 수준보다 더 높은 모델 지능을 잘 활용하기 어려움
  하지만 코딩 실행 환경은 더 높은 모델 지능에서 여전히 이득을 보고, 특히 claude-code나 codex처럼 제공자의 코딩 실행 환경과 모델의 도구 호출 인터페이스가 강화학습으로 긴밀히 연결된 점도, 모델 지능을 통제해도 효과 차이가 나는 또 다른 이유임
  여러 모델 제공자를 지원하는 오픈소스 코딩 실행 환경인 opencode의 창업자도 최근 제공자별로 실행 환경을 잘 맞추는 어려움을 토로했음: https://x.com/thdxr/status/2053290393727324313
글의 예시는 로컬 모델이 성공하려면 최전선 모델과 경쟁할 만큼 클 필요가 아니라 충분히 좋아야 한다는 내 생각을 확인해줌
작은 작업을 잘해야 하고, 소비자용 기기에서 합리적으로 돌아가야 함
휴대폰에서도 돌아가면 더 좋음
로컬 LLM을 실험해보니 모델 크기를 키우는 것도 좋지만, 거의 쓸모없던 모델을 유용하게 바꾸는 진짜 요소는 도구 사용 능력이었음
웹 검색과 웹페이지 가져오기를 허용했을 때 더 큰 모델을 쓰는 것보다 환각을 줄이는 데 훨씬 도움이 됐고, 학습 마감일 문제도 없음
물론 더 큰 모델이 도구를 더 잘 쓸 가능성은 있지만, 작은 모델도 충분한 경우가 많았음
로컬 모델을 쓰는 Chrome의 새 Prompt API가 무엇을 할 수 있는지 데모를 만들어봤음: https://adsm.dev/posts/prompt-api/#what-could-you-build-with...
원글처럼 사용자가 소유한 데이터를 변환하는 제한된 환경에서 빛남
더 개방적인 작업에는 확실히 덜 유용함
- Chrome의 Prompt API를 로컬 LLM의 좋은 예로 보는 건 추천하지 않음
  괜찮긴 하지만 정말 약함
  1년 전의 8B 모델들이 어떤 면에서는 더 낫고, 최근 나온 모델들은 의미 있게 더 좋아졌음
- “주변 문맥을 사용해 광고 문구를 다시 작성”이라니, 맞음, 그게 계획임
  로컬 모델도 없고 웹페이지도 없으면 안 됨
  나머지 모두가 전기와 하드웨어 열화를 부담하는 동안, 벤더에게는 더 많고 더 좋고 더 싼 광고 기술 착취와 감시가 생김
- 결정적 절차가 훨씬 더 적합한 데이터 변환을 하려고 LLM을 돌리고, 그러려고 1000와트 전원공급장치를 쓰는 셈임
  참 대단함
기존 이해관계자들은 로컬을 막기 위해 모든 걸 하겠지만, 작고 전문화된 모델이 결국 표준이 될 수 있다고 믿을 만한 기술적 이유가 몇 가지 있음
그렇게 되면 로컬도 따라올 것임
원문은 사용자가 원하는 것에 큰 모델이 필요한지에 초점을 맞추고 있음
그런데 큰 모델은 a) 기계론적 해석이 충분히 성숙하거나 b) 다중 에이전트 시스템이 모두 다중 모델이 되지 않는 한 실제로 충분히 신뢰 가능해지지 않을 수 있다는 근거도 있음
a의 경우, 기계론적 해석의 발전이 큰 모델의 문제를 고칠 수도 있지만 동시에 통합 표현을 얻고 거대한 모델에서 유용한 부분만 잘라내 쓰는 것도 가능하게 만들 수 있음
필요한 것만 가져오고 불필요한 것은 버려 비용과 문제 표면을 줄이는 식임
논리만 필요한가? 비전만 필요한가? 거대한 괴물에서 그 부분만 잘라 쓰면 됨
문제를 격리하는 능력은 기능적 하위 시스템을 격리하는 능력 없이는 오기 어려움
b의 경우, evil vector나 도구 사용에 특화된 환각 범주를 보면 됨
도움됨/정직함/무해함 정렬에 대한 완전한 해법이 없다면 창의성과 엄밀함, 그리고 다른 많은 요소들은 근본적으로 충돌할 가능성이 큼
어차피 모든 일에 여러 모델이 필요해진다면, 왜 비싸고 거대한 만능 모델이 필요하겠음
그래서 전문화 역시 모든 것을 최소한의 신뢰 가능한 전문가 모델로 줄이는 압력이 됨
LLM에 대한 내 문제의식은 철학적 측면과 경제적 영향은 별개로, 우리가 로컬에서 기능적인 모델을 학습시키기는 어려워 보인다는 것임
장난감 같은 LLM은 가능하겠지만 정말 유용한 건 어렵다고 봄
엄청난 연산 능력이 필요할 뿐 아니라, 대부분 불법적으로 얻어진 데이터셋도 필요함
- 너무 비관적으로 보임
  내가 개인적으로 그리 뛰어난 지능은 아닐 수 있지만, 지금 가진 지능을 얻기 위해 지금까지 쓰인 모든 책, 모든 Wikipedia 문서, 모든 블로그 글, 모든 참조 매뉴얼, 모든 코드 줄을 학습할 필요는 없었음
  사실 그런 자료의 1%는커녕 0.00000000001%도 학습하지 않았음
  텍스트 자체가 지능의 전제조건이 아님은 분명함
  최소한 내가 주변을 20년 정도 느슨하게 관찰하는 것만으로 지능에 근접했다면, 필요한 “데이터셋”은 센서들과 주변 세계뿐이라는 강한 증거가 됨
  물론 인간 뇌는 0에서 시작하지 않고, 지능이 뿌리내릴 토양을 만들기까지 수백만 년의 진화가 있었음
  하지만 그 기본 구조는 꽤 일반적이고, 특정 학습 세트에 의존하는 것처럼 보이지 않음
  인공적으로 진화시키는 것도 가능할 수 있음
- 현재 기술로는 전체 모델은 아니지만, LoRA는 미세 조정에 정말 좋고 고급 게임용 컴퓨터에서 몇 시간 안에 만들 수 있음
  기반 모델이 내 언어를 지원하기만 하면, 가지고 있는 전자기기의 여유 연산력으로 한 달에 LoRA 몇 개를 학습시킬 수 있을 가능성이 큼
  미래에 일반 가정용 컴퓨터가 현재 서버급 능력을 갖게 되면 집에서 전체 LLM도 학습시킬 수 있을 것임
- 이게 중요한 이유는 모델을 로컬에서 돌려도 여전히 독점 모델일 수 있기 때문임
  무엇으로 학습됐는지, 학습 데이터가 어떻게 라벨링됐는지, 어떤 가드레일이 있는지, 어떤 편향이 있을지 어느 것도 내가 관여할 수 없음
- 로컬에서 재현할 수 없는 기술은 너무 많고, LLM이 특별히 다르다고 생각하지 않음
  다른 모든 것처럼 대형 LLM 제조사, 소형 LLM 제조사, 장인형 LLM 제작자, LLM 애호가, 그리고 LLM 소비자가 생길 것임
- 분야에 따라 다름
  개인 또는 비상업적 사용에 필요한 학습 데이터를 구할 수 있는 활용 사례는 꽤 많음
  그 시점부터는 학습에 필요한 연산량과 시간의 문제인데, 기다릴 의향이 있다면 소비자용 하드웨어로도 유용한 모델을 만들 수 있음
“클라우드 모델은 정말 필요할 때만 쓰라”는 말은 맞지만, 문제는 로컬 모델의 설정을 맞추느라 시간을 쓰는 것보다 보조금이 붙은 최첨단 모델을 쓰는 편이 훨씬 쉽다는 것임
코딩 에이전트에서 이걸 막 깨달았음
항상 최신 버전을 xhigh로 쓸 필요는 없겠지만, 결국 그렇게 하게 됨
더 짧은 시간, 더 적은 노력, 사실상 같은 가격으로 일을 끝낼 수 있기 때문임
주요 벤더들이 실제 토큰 사용량 기준으로 과금하기 시작할 때야 로컬 AI에 대한 진지한 노력이 보일 것 같음
- 최첨단 모델을 쓰는 게 더 쉽다는 건 문제가 아니라 기능임
  무료 등급 제공자 탭을 8개쯤 열어두고 있고, ChatGPT, Claude, Gemini가 최첨단 쪽임
  하나를 한도까지 쓰고 다음으로 넘어가는 데 아무 문제가 없음
  하루 종일 이렇게 하면서 내 코드의 특정 함수나 클래스를 구현하게 만들 수 있음
  실제로 소프트웨어를 작성하고 설계할 줄 알기 때문에, 하루 만에 전부 만들려고 에이전트를 반복 실행할 필요가 없음
  웹 챗봇과 복사/붙여넣기만으로도 시간당 수천 줄의 코드를 생성하면서, 코드에 대한 강한 mental model을 유지하고 필요한 부분을 직접 바꿀 수 있음
  오늘 아침에도 Python 프로젝트에서 그렇게 했음
  필요한 것을 내가 설계했기 때문에 각 생성은 단일 함수를 요청하는 방식이었고, 아침에 뭔가를 추가해야 했을 때는 챗봇에 묻지도 않고 바로 올바른 위치로 가서 직접 고쳤음
  명세에서 전체를 생성하면 그렇게 할 수 없음
- 저항이 가장 적은 길이 보통 이김
  특히 가격이 실제 비용을 숨길 때 더 그렇음
- 로컬 모델에서 좋은 성능을 보고 있지 못함
  LLM 글이 올라올 때마다 댓글에는 최신 DeepSeek/Qwen 등으로 Opus만큼 좋은 결과를 얻는다고 강하게 말하는 사람이 많지만, 내 경험은 전혀 그렇지 않음
  오픈소스 모델은 조금이라도 복잡한 일을 시키면 Claude와 비교해 완전히 무너짐
  90년대 Linux와 비슷한 상황이 아닌가 하는 의심이 듦
  어느 정도는 동작했지만 가정용 사용자에게는 정말 준비가 안 됐는데, 주로 이념적 이유로 모든 게 괜찮다고 면전에서 우기는 사람이 많았던 것과 비슷함
사람들은 실제로 “최고의 소프트웨어”를 만들려고 하고 있음
AI의 돈키호테식 가속주의자들은 소프트웨어를 만드는 사람들 중 목소리 큰 소수에 가깝고, 온라인 API를 로컬 시스템보다 선택하는 건 대체로 개발자의 게으름이 아니라 사용자를 위한 선택임
지금은 로컬 모델보다 비공개 AI로 더 많은 일을 더 잘할 수 있음
이건 피할 수 없음
로컬 AI가 좋아지더라도 LLM 성능의 최전선에 있는 것은 종종 충분히 가치 있는 투자임
대부분의 사람은 제품이 최고 수준이 아니고 엄청나게 편리하지 않으면 받아들이지 않음
그 기준은 높고, 로컬 AI는 그 기준을 자주 충족하지 못함
모든 사용자를 오픈소스, 프라이버시 우선, 자체 호스팅 Linux 광신자로 취급하려는 HN의 고집은 보기 민망할 정도로 촌스러움

답변달기

로컬 AI가 표준이 되어야 함

클라우드 AI 의존의 문제점

로컬 디바이스 활용의 당위성

The Brutalist Report의 온디바이스 요약

Apple 생태계의 로컬 AI 도구

신뢰를 만드는 방식

구조화된 출력과 타입 기반 AI

"로컬 모델은 덜 똑똑하다"에 대한 반론

프라이버시와 신뢰 구축

함께 보면 좋은 글 β

Hacker News 의견들