Microsoft가 실제로는 1.58비트가 아닌 2비트를 사용하고 있음
이 경우 -1, 0, 1, 2 네 가지 값을 표현할 수 있음
억제성 시냅스가 20~30%를 차지한다는 점에서, 이런 구조가 생물학적 뇌의 구조와 잘 맞는다고 생각함
세 번째 문장, 즉 “억제성 시냅스가 20~30%를 차지한다”는 부분을 좀 더 설명해줄 수 있는지 궁금함
나는 종종 “최소 기능 LLM”이 어떤 형태일지 궁금해함
즉, 최소한의 정보만 가지고 나머지는 구글링으로 보완해도 충분히 합리적인 답을 낼 수 있는 모델 말임
Encyclopedia Britannica 같은 곳이 데이터를 LLM에 판매하고 결과 검증 서비스를 제공하면 큰 차이를 만들 수 있을 것 같음
Wikipedia도 좋지만 인간의 오류와 편향이 많다는 점이 아쉬움
Andrej Karpathy의 짧은 영상을 보면 이 주제에 대해 이야기함
작은 LLM들은 이미 이런 방향으로 발전 중이며, 일반 지식은 부족하지만 도구 활용 능력(예: 구글링) 은 점점 좋아지고 있음
다만 자신이 아는 것과 모르는 것을 명확히 구분하는 건 여전히 어려운 문제임
내가 생각하는 건 “최소 기능 LLM”이라기보다 언어만 잘 알고 지식은 거의 없는 LLM임
마치 특정 기기를 모르는 엔지니어처럼, 문제 해결 능력은 있지만 세부 지식은 없음
이런 모델이 단순히 구글링이나 위키 검색으로 해결할 수 있을지는 의문이지만, 엣지 LLM 구조는 앞으로 표준이 될 것 같음
추론 능력은 결국 학습 중 정보량에 의존함
훈련 데이터에 포함된 정보일수록 검색과 해석이 쉬워짐
따라서 내부 암기보다는 외부 메모리(검색 등) 의존형 훈련이 실용적일 수 있음
위키피디아의 오류와 편향을 걱정하면서, 동시에 웹 접근이 가능한 LLM이 더 나을 거라 보는 건 모순처럼 느껴짐
나는 오히려 그 반대라고 생각함
“합리적인 답변”이란 표현이 구체적으로 어떤 수준을 의미하는지에 따라 결과가 달라질 것 같음
원 논문(pdf)에 따르면 fp16 모델 대비 약 4~5배의 파라미터가 필요함
직접 빌드해볼 수는 있지만, 처음부터 학습해야 하므로 선택지는 제한적임
그래도 최신 4비트·8비트 양자화 모델보다 추론 속도는 빠를 것으로 예상함
진짜 핵심은 에너지 절감 효과임
CPU 추론에서 70~82% 절감이 가능하다고 함
만약 1비트 모델이 충분히 좋아진다면, GPU 없이도 일반 하드웨어에서 LLM을 돌릴 수 있게 되어 접근성의 판도가 바뀔 것임
bitnet.cpp가 1비트 LLM(BitNet b1.58 등)을 위한 공식 추론 프레임워크라고 하지만,
“1비트냐 1트릿(trit)이냐”는 혼동이 있음
“1비트 LLM”은 마케팅 용어에 가깝고, 실제로는 3가지 상태(-1, 0, 1) 를 쓰므로 1.58비트에 해당함
log₂(3)≈1.58이므로, 이는 2상태(1비트)가 아니라 3상태(1.58비트) 모델임
두 개념을 섞어 쓰는 건 혼란스러움
이 프로젝트가 계속 개발되는 걸 보니 반가움
작년에 관련 글을 보고 가능성을 느꼈지만, 새 모델이 안 나와서 아쉬웠음
하지만 이 접근은 결국 정밀 모델의 양자화일 뿐이라, 추론은 빨라지지만 학습은 빨라지지 않음
진짜 흥미로운 건 부동소수점 연산 없이 이진 모델을 직접 학습하는 방향임
관련 논문은 NeurIPS 2024에 있음
“100B BitNet을 실행할 수 있다”는 건 모델이 존재한다는 뜻이 아니라 추론 프레임워크가 가능하다는 의미임
실제로는 더미 모델을 쓴 것 같음
“1-bit 100b model”을 검색해도 다운로드 가능한 모델은 없음
모델 출력 품질은 GPT-2 수준의 중얼거림에 가깝고, 문단을 그대로 반복함
심지어 (Jenkins, 2010) 같은 가짜 인용문을 계속 재사용함
다만 이건 2년 된 3B 파라미터 베이스 모델이며, 100B 토큰만으로 학습된 연구용 버전임
제목이 오해를 부름
실제로는 학습된 100B 모델이 아니라, 그걸 처리할 수 있는 추론 프레임워크임
나는 M2 Max 96GB에서 llama.cpp + LiteLLM으로 70B 양자화 모델을 돌리고 있는데, 메모리 대역폭이 병목임
1.58비트 접근은 행렬곱을 덧셈으로 바꾸는 구조라 CPU에서 근본적으로 다른 계산 패턴을 가짐
만약 CPU 단일 코어에서 100B급 모델을 초당 5~7토큰으로 돌릴 수 있다면, 온디바이스 추론의 전환점이 될 것임
프레임워크는 준비됐고, 이제 누군가 실제로 모델을 학습해야 함
Microsoft가 2년 동안 직접 모델을 학습하지 않았다면, 그들의 주장을 그대로 믿기 어렵다고 생각함
“새 모델”이라지만 Hugging Face에 올라온 가중치는 11개월 전 것이고, 2B 파라미터 수준임 홍보 대비 실질 성과가 빈약함
2비트 연산은 하드웨어 구현이 매우 저렴하므로, 전용 칩을 만들면 GPU 없이도 강력한 추론이 가능할 것임
학습에는 여전히 GPU가 필요하겠지만, 추론용 하드웨어는 훨씬 단순해질 수 있음
초당 5~7토큰 속도는 실제 읽기 속도보다 느림
나는 7토큰/초로 출력되는 모델을 써봤는데, 느린 사람 뒤를 걷는 듯한 답답함이 있었음
로컬 환경에서는 최소 10토큰/초 이상을 목표로 해야 함
“CPU에서의 계산 프로파일이 근본적으로 다르다”는 주장에는 의문이 있음
현대 CPU의 FMA(Fused Multiply-Add) 명령은 단순 덧셈과 거의 동일한 처리량을 가짐
앞으로 NPU 탑재 PC들이 본격적으로 성과를 낼 시점이 궁금함
AMD는 NPU/iGPU 하이브리드 추론 커널에서 좋은 결과를 내고 있음
이런 대형 모델이 NPU에서 돌아가면 CPU 대비 전력 효율이 훨씬 좋아질 것임
나는 최근 OpenAI의 Whisper를 CPU로 돌렸다가, Intel NPU 최적화 버전을 써봤는데 6배 빠르고 훨씬 조용했음
이후로 NPU의 팬이 되었음. 물론 RTX 5090급은 아니지만, CPU보다는 훨씬 효율적임
Rockchip RK3588 SBC의 NPU에서도 이미 작은 LLM을 돌릴 수 있음
소프트웨어 생태계가 불안정하긴 하지만, CPU/GPU 사용률 거의 0으로 작동함
다만 NPU가 정말 그렇게 강력한지 의문임
나는 그것들이 저전력 중심 설계라고 알고 있었음
Hacker News 의견들
Microsoft가 실제로는 1.58비트가 아닌 2비트를 사용하고 있음
이 경우 -1, 0, 1, 2 네 가지 값을 표현할 수 있음
억제성 시냅스가 20~30%를 차지한다는 점에서, 이런 구조가 생물학적 뇌의 구조와 잘 맞는다고 생각함
나는 종종 “최소 기능 LLM”이 어떤 형태일지 궁금해함
즉, 최소한의 정보만 가지고 나머지는 구글링으로 보완해도 충분히 합리적인 답을 낼 수 있는 모델 말임
Encyclopedia Britannica 같은 곳이 데이터를 LLM에 판매하고 결과 검증 서비스를 제공하면 큰 차이를 만들 수 있을 것 같음
Wikipedia도 좋지만 인간의 오류와 편향이 많다는 점이 아쉬움
작은 LLM들은 이미 이런 방향으로 발전 중이며, 일반 지식은 부족하지만 도구 활용 능력(예: 구글링) 은 점점 좋아지고 있음
다만 자신이 아는 것과 모르는 것을 명확히 구분하는 건 여전히 어려운 문제임
마치 특정 기기를 모르는 엔지니어처럼, 문제 해결 능력은 있지만 세부 지식은 없음
이런 모델이 단순히 구글링이나 위키 검색으로 해결할 수 있을지는 의문이지만, 엣지 LLM 구조는 앞으로 표준이 될 것 같음
훈련 데이터에 포함된 정보일수록 검색과 해석이 쉬워짐
따라서 내부 암기보다는 외부 메모리(검색 등) 의존형 훈련이 실용적일 수 있음
나는 오히려 그 반대라고 생각함
원 논문(pdf)에 따르면 fp16 모델 대비 약 4~5배의 파라미터가 필요함
직접 빌드해볼 수는 있지만, 처음부터 학습해야 하므로 선택지는 제한적임
그래도 최신 4비트·8비트 양자화 모델보다 추론 속도는 빠를 것으로 예상함
진짜 핵심은 에너지 절감 효과임
CPU 추론에서 70~82% 절감이 가능하다고 함
만약 1비트 모델이 충분히 좋아진다면, GPU 없이도 일반 하드웨어에서 LLM을 돌릴 수 있게 되어 접근성의 판도가 바뀔 것임
bitnet.cpp가 1비트 LLM(BitNet b1.58 등)을 위한 공식 추론 프레임워크라고 하지만,
“1비트냐 1트릿(trit)이냐”는 혼동이 있음
두 개념을 섞어 쓰는 건 혼란스러움
이 프로젝트가 계속 개발되는 걸 보니 반가움
작년에 관련 글을 보고 가능성을 느꼈지만, 새 모델이 안 나와서 아쉬웠음
진짜 흥미로운 건 부동소수점 연산 없이 이진 모델을 직접 학습하는 방향임
관련 논문은 NeurIPS 2024에 있음
“100B BitNet을 실행할 수 있다”는 건 모델이 존재한다는 뜻이 아니라 추론 프레임워크가 가능하다는 의미임
“1-bit 100b model”을 검색해도 다운로드 가능한 모델은 없음
모델 출력 품질은 GPT-2 수준의 중얼거림에 가깝고, 문단을 그대로 반복함
심지어
(Jenkins, 2010)같은 가짜 인용문을 계속 재사용함제목이 오해를 부름
실제로는 학습된 100B 모델이 아니라, 그걸 처리할 수 있는 추론 프레임워크임
나는 M2 Max 96GB에서 llama.cpp + LiteLLM으로 70B 양자화 모델을 돌리고 있는데, 메모리 대역폭이 병목임
1.58비트 접근은 행렬곱을 덧셈으로 바꾸는 구조라 CPU에서 근본적으로 다른 계산 패턴을 가짐
만약 CPU 단일 코어에서 100B급 모델을 초당 5~7토큰으로 돌릴 수 있다면, 온디바이스 추론의 전환점이 될 것임
프레임워크는 준비됐고, 이제 누군가 실제로 모델을 학습해야 함
홍보 대비 실질 성과가 빈약함
학습에는 여전히 GPU가 필요하겠지만, 추론용 하드웨어는 훨씬 단순해질 수 있음
나는 7토큰/초로 출력되는 모델을 써봤는데, 느린 사람 뒤를 걷는 듯한 답답함이 있었음
로컬 환경에서는 최소 10토큰/초 이상을 목표로 해야 함
현대 CPU의 FMA(Fused Multiply-Add) 명령은 단순 덧셈과 거의 동일한 처리량을 가짐
앞으로 NPU 탑재 PC들이 본격적으로 성과를 낼 시점이 궁금함
AMD는 NPU/iGPU 하이브리드 추론 커널에서 좋은 결과를 내고 있음
이런 대형 모델이 NPU에서 돌아가면 CPU 대비 전력 효율이 훨씬 좋아질 것임
이후로 NPU의 팬이 되었음. 물론 RTX 5090급은 아니지만, CPU보다는 훨씬 효율적임
소프트웨어 생태계가 불안정하긴 하지만, CPU/GPU 사용률 거의 0으로 작동함
나는 그것들이 저전력 중심 설계라고 알고 있었음