GN⁺: S1 : $6 짜리 R1 경쟁자?
(timkellogg.me)- 2월 3일에 공개된 새 논문 "s1: Simple test-time scaling" 이 AI 분야에서 화제가 되고 있음
- 모델 자체보다는 AI 분야에서 큰 진전이 일어날 수 있음을 시사한다는 점이 중요한 포인트
- 이 모델은 최신 기술 수준(SOTA)엔 미치지 못하지만, 노트북에서도 구동 가능한 소형 모델임
- 중요한 점은 복잡한 내용 없이 이 기술이 어떻게 작동하는지를 이해하는 데 도움을 준다는 것
추론 확장: "기다려" 나를 위해!
- OpenAI는 “추론 시간이 길어질수록 LLM 성능이 좋아진다”를 주장하며 그래프를 제시
- 기본적으로, LLM은 더 오래 "생각"할 수 있다면 더 높은 성능을 발휘할 수 있음
- 문제는 모델이 응답 전 ‘생각’을 길게 할 수 있도록 어떻게 제어하느냐이고, 어떻게 그렇게 할 수 있는지에 대한 설명은 부족했음
- s1 논문은 이 부분을 자세히 설명하고 있고, 재미있음
LLM이 추론 시에 "생각"할 때,
<think>
와</think>
태그 안에 모델의 내부 사고 과정을 담아두고,</think>
가 나타나면 최종 답변을 위해 자신감 있고 권위 있는 어조로 음성을 변경하도록 학습
- s1 논문에서는
"</think>"
를"Wait"
로 강제로 치환하여 모델이 더 길게 ‘고민’하도록 하는 단순한 기법을 설명함-
"</think>"
를 없애거나 대체함으로써 모델이 계속 생각을 이어가도록 유도함 - 갑자기
"</think>"
를 삽입하는 식으로 추론을 짧게 끊는 것도 가능함
-
- 이런 방식을 통해 o3-mini-low와 o3-mini-high 같은 모델들은 서로 다른 평균 추론 시간을 적용받도록 훈련되었을 것으로 추정됨
- 그들은 아마도 3개의 모델을 훈련시켰고, 각각 다른 평균 사고 시간(훈련 중에 측정)을 가졌을 것
- 결국 훈련 과정은 그 행동을 모델 가중치로 인코딩하기 시작
엔트로픽스(Entropix)와의 연관성
- s1 논문에서 제시된 "Wait" 기법은 엔트로픽스(Entropix)가 추구했던 방식과 크게 다르지 않음
-
Entropix는 로짓과 어텐션의 엔트로피, 분산 엔트로피(varentropy)를 살펴보면서 토큰 선택 방식을 바꾸는 기술임
- "Wait" 같은 토큰을 통해 모델이 자신의 답변을 재고하게 만드는 시도를 한 것으로 보임
- 이 같은 방식은 추론 시점(inference time) 혹은 훈련 시점 모두에서 적용 가능할 것으로 예상됨
극단적인 데이터 절약(Extreme Data Frugality)
- s1 모델이 단 6달러로 개발되었다고 주장하는 이유는, 소형 모델과 적은 양의 데이터로 훈련했기 때문임
- 56K 예시 데이터 중에서 가장 가치 있는 1K만 추려 쓰는 식으로 진행함
- 추가 데이터가 모델 성능을 전혀 향상시키지 않았다는 결론임
- 32B 규모의 모델이므로 노트북에서도 구동이 가능함
- 16개의 NVIDIA H100을 26분가량 사용했는데, 그 비용이 약 6달러로 추정됨
- 비용이 낮으니 많은 실험(ablations)을 시도할 수 있었고, 실제로 다양한 변수를 조금씩 바꿔가며 전수 재훈련을 반복함
- 예: "Wait"와 "Hmm" 중 어느 토큰이 더 효과적인지 직접 측정
- 핵심 예시 데이터 중 어떤 부분이 가장 유의미한 신호를 제공하는지도 실험
지정학적 함의(Geopolitics)
- AI가 국가 안보와 긴밀히 맞물려 있다는 시각이 있음
- OpenAI나 Anthropic 같은 업체들이 막대한 예산을 투입하는 이유가 여기에서 비롯됨
- s1처럼 비용을 줄이는 혁신이 나왔지만, 거대 자본을 활용하면 그만큼 훨씬 많은 시도를 동시에 진행할 수 있다는 점도 중요함
- AI 발전 속도를 더욱 높이기 위해 더 큰 투자가 필요하다는 주장도 나오고 있음
Distealing (모델 무단 증류)
- s1 데이터셋은 기본적으로 다른 모델(Qwen2.5)의 thought trace를 이용한 증류(distillation) 결과물임
- OpenAI는 DeepSeek이 자사 모델 o1을 무단 증류하여 V3 모델을 만들었다고 의심 중임
- 그러나 실제로 증류 행위를 막기가 점점 어려워지고 있음
- 1,000개 정도의 예시는 개인이 충분히 수집 가능한 수준임
- OpenAI가 최근 o3 모델을 직접 배포하기보다 에이전트 형태로 공개한 이유도 이런 무단 증류를 막기 위한 시도로 보임
결론
- s1의 등장은 공개된 영역에서 AI가 얼마나 빠르게 진화하고 있는지를 잘 보여주는 사례임
- OpenAI와 Anthropic 같은 기업들은 훨씬 많은 컴퓨팅 자원을 활용해 더 빠른 진전을 이룰 가능성이 큼
- s1은 R1이나 o1을 그대로 복제한 것이 아니라, RL이 아닌 SFT(Supervised Fine Tuning)만으로도 비슷한 가능성을 열 수 있음을 시사함
- 2025년에는 더 큰 혁신이 기대된다는 관측임
Hacker News 의견
-
'Wait' 해킹을 통한 추론 확장이 흥미로움. 간단한 방법이 성능에 영향을 미칠 수 있다는 점에서 컴퓨터 과학의 발전이 마치 주문을 외우는 것처럼 느껴짐. 이런 사고방식을 어떻게 시작할 수 있을지 궁금함
-
생각의 흐름이 모델에 임시 '레이어'를 제공하여 텍스트를 처리하는 버퍼 역할을 한다면, 이 버퍼를 별도의 FNN과 주의 메커니즘을 가진 별도의 컨텍스트로 만드는 것이 의미가 있을지 궁금함. 이는 자연어로 설명하는 마이크로프로세스와 결합하여 더 밀도 있는 '생각'의 표현을 제공할 수 있을 것임
-
CoT는 널리 알려진 기술이지만, DeepSeek는 컴퓨팅 제한으로 인해 메모리, 대역폭, 병렬성 최적화를 찾는 데 집중했음. 그들의 인프라 및 소프트웨어 수준의 최적화가 주목할 만함
-
현재 벤치마크가 충분히 강력하지 않다고 생각하며, 미국 LLM 연구소들이 인프라 및 하드웨어 최적화의 부족을 인식하고 있을 것임. RL 수준과 부모 훈련이 더욱 중요해질 것임
-
AI 해킹을 통해 실험한 방법이 연구소에서도 사용되고 있다는 점이 흥미로움. R1을 계속 생각하게 하기 위해 'Okay'로 대체하는 방법을 사용했음
-
Tim의 블로그를 북마크했음. AI와 신경망 분야에서의 발전이 놀라움. 개인적으로 약한 온디바이스 모델로 LLM 기반 에이전트를 만드는 데 어려움을 겪고 있음
-
10,000개의 H100을 보유하는 것은 S1보다 625배 더 많은 실험을 할 수 있다는 것을 의미함. 대기업에서는 컴퓨팅 자원을 낭비하는 경향이 있음
-
추론 모델의 출력 길이를 제어하는 방법이 흥미로움. 'Wait'로 대체하여 CoT를 주입하고 탈옥하기 쉽게 만드는 방법을 발견했음
-
S1에 대한 원본 논문 링크를 제공함
-
대규모 조직에서는 실험을 많이 할 수 없으며, 직원들은 빠르게 결과를 내는 데 집중함. 임시적인 이익을 위해 급하게 작업을 진행함
-
LLM의 출력을 조각하는 것은 조각품을 만드는 것과 같음. 모델을 게임 루프에 넣고 각 틱마다 상호작용하여 원하는 결과를 얻어야 함. 컴퓨팅 자원에 대한 갈증은 계속될 것임