# S1 : $6 짜리 R1 경쟁자?

> Clean Markdown view of GeekNews topic #19083. Use the original source for factual precision when an external source URL is present.

## Metadata

- GeekNews HTML: [https://news.hada.io/topic?id=19083](https://news.hada.io/topic?id=19083)
- GeekNews Markdown: [https://news.hada.io/topic/19083.md](https://news.hada.io/topic/19083.md)
- Type: GN+
- Author: [neo](https://news.hada.io/@neo)
- Published: 2025-02-06T09:51:02+09:00
- Updated: 2025-02-06T09:51:02+09:00
- Original source: [timkellogg.me](https://timkellogg.me/blog/2025/02/03/s1)
- Points: 14
- Comments: 2

## Summary

새로운 논문 "s1: Simple test-time scaling"은 AI 분야에서 큰 진전을 시사하며, 복잡한 내용 없이 기술의 작동 방식을 이해하는 데 도움을 줍니다. 이 모델은 최신 기술 수준에는 미치지 못하지만, 노트북에서도 구동 가능한 소형 모델로, 적은 양의 데이터와 낮은 비용으로 개발되었습니다. "추론 시간이 길어질수록 LLM 성능이 좋아진다"는 주장을 그대로 받아 들여, 추론시에 "Wait"를 추가하는 기법을 통해 모델의 추론 시간을 조절하는 방법을 제시합니다. 이를 통해 s1은 단 6달러로 개발되었다고 주장합니다.

## Topic Body

- 2월 3일에 공개된 새 논문 "s1: Simple test-time scaling" 이 AI 분야에서 화제가 되고 있음  
- 모델 자체보다는 AI 분야에서 큰 진전이 일어날 수 있음을 시사한다는 점이 중요한 포인트  
- 이 모델은 최신 기술 수준(SOTA)엔 미치지 못하지만, 노트북에서도 구동 가능한 소형 모델임  
- 중요한 점은 복잡한 내용 없이 이 기술이 어떻게 작동하는지를 이해하는 데 도움을 준다는 것  
  
### 추론 확장: "기다려" 나를 위해!  
  
- OpenAI는 “추론 시간이 길어질수록 LLM 성능이 좋아진다”를 주장하며 그래프를 제시  
- 기본적으로, LLM은 더 오래 "생각"할 수 있다면 더 높은 성능을 발휘할 수 있음  
- 문제는 모델이 응답 전 ‘생각’을 길게 할 수 있도록 어떻게 제어하느냐이고, 어떻게 그렇게 할 수 있는지에 대한 설명은 부족했음  
- s1 논문은 이 부분을 자세히 설명하고 있고, 재미있음  
> LLM이 추론 시에 "생각"할 때, `&lt;think&gt;`와 `&lt;/think&gt;` 태그 안에 모델의 내부 사고 과정을 담아두고, `&lt;/think&gt;`가 나타나면 최종 답변을 위해 자신감 있고 권위 있는 어조로 음성을 변경하도록 학습  
- s1 논문에서는 `"&lt;/think&gt;"`를 `"Wait"`로 강제로 치환하여 모델이 더 길게 ‘고민’하도록 하는 단순한 기법을 설명함  
  - `"&lt;/think&gt;"`를 없애거나 대체함으로써 모델이 계속 생각을 이어가도록 유도함  
  - 갑자기 `"&lt;/think&gt;"`를 삽입하는 식으로 추론을 짧게 끊는 것도 가능함  
- 이런 방식을 통해 o3-mini-low와 o3-mini-high 같은 모델들은 서로 다른 평균 추론 시간을 적용받도록 훈련되었을 것으로 추정됨  
  - 그들은 아마도 3개의 모델을 훈련시켰고, 각각 다른 평균 사고 시간(훈련 중에 측정)을 가졌을 것  
  - 결국 훈련 과정은 그 행동을 모델 가중치로 인코딩하기 시작  
  
### 엔트로픽스(Entropix)와의 연관성  
  
- s1 논문에서 제시된 "Wait" 기법은 엔트로픽스(Entropix)가 추구했던 방식과 크게 다르지 않음  
- [Entropix](https://github.com/xjdr-alt/entropix)는 로짓과 어텐션의 엔트로피, 분산 엔트로피(varentropy)를 살펴보면서 토큰 선택 방식을 바꾸는 기술임  
  - "Wait" 같은 토큰을 통해 모델이 자신의 답변을 재고하게 만드는 시도를 한 것으로 보임  
- 이 같은 방식은 추론 시점(inference time) 혹은 훈련 시점 모두에서 적용 가능할 것으로 예상됨  
  
### 극단적인 데이터 절약(Extreme Data Frugality)  
  
- s1 모델이 단 6달러로 개발되었다고 주장하는 이유는, **소형 모델**과 적은 양의 데이터로 훈련했기 때문임  
- 56K 예시 데이터 중에서 가장 가치 있는 1K만 추려 쓰는 식으로 진행함  
  - 추가 데이터가 모델 성능을 전혀 향상시키지 않았다는 결론임  
- 32B 규모의 모델이므로 노트북에서도 구동이 가능함  
- 16개의 NVIDIA H100을 26분가량 사용했는데, 그 비용이 약 6달러로 추정됨  
- 비용이 낮으니 많은 실험(ablations)을 시도할 수 있었고, 실제로 다양한 변수를 조금씩 바꿔가며 전수 재훈련을 반복함  
  - 예: "Wait"와 "Hmm" 중 어느 토큰이 더 효과적인지 직접 측정  
  - 핵심 예시 데이터 중 어떤 부분이 가장 유의미한 신호를 제공하는지도 실험  
  
### 지정학적 함의(Geopolitics)  
  
- AI가 국가 안보와 긴밀히 맞물려 있다는 시각이 있음  
- OpenAI나 Anthropic 같은 업체들이 막대한 예산을 투입하는 이유가 여기에서 비롯됨  
- s1처럼 비용을 줄이는 혁신이 나왔지만, 거대 자본을 활용하면 그만큼 훨씬 많은 시도를 동시에 진행할 수 있다는 점도 중요함  
- AI 발전 속도를 더욱 높이기 위해 더 큰 투자가 필요하다는 주장도 나오고 있음  
  
### Distealing (모델 무단 증류)  
  
- s1 데이터셋은 기본적으로 다른 모델(Qwen2.5)의 thought trace를 이용한 증류(distillation) 결과물임  
- OpenAI는 DeepSeek이 자사 모델 o1을 무단 증류하여 V3 모델을 만들었다고 의심 중임  
- 그러나 실제로 증류 행위를 막기가 점점 어려워지고 있음  
  - 1,000개 정도의 예시는 개인이 충분히 수집 가능한 수준임  
- OpenAI가 최근 o3 모델을 직접 배포하기보다 에이전트 형태로 공개한 이유도 이런 무단 증류를 막기 위한 시도로 보임  
  
### 결론  
  
- s1의 등장은 공개된 영역에서 AI가 얼마나 빠르게 진화하고 있는지를 잘 보여주는 사례임  
- OpenAI와 Anthropic 같은 기업들은 훨씬 많은 컴퓨팅 자원을 활용해 더 빠른 진전을 이룰 가능성이 큼  
- s1은 R1이나 o1을 그대로 복제한 것이 아니라, RL이 아닌 SFT(Supervised Fine Tuning)만으로도 비슷한 가능성을 열 수 있음을 시사함  
- 2025년에는 더 큰 혁신이 기대된다는 관측임

## Comments



### Comment 34258

- Author: hoonix
- Created: 2025-02-06T18:12:25+09:00
- Points: 1

Distillation을 Distealing이라고 비튼 표현이 재밌네요!

### Comment 34221

- Author: neo
- Created: 2025-02-06T09:51:02+09:00
- Points: 1

###### [Hacker News 의견](https://news.ycombinator.com/item?id=42946854) 
- 'Wait' 해킹을 통한 추론 확장이 흥미로움. 간단한 방법이 성능에 영향을 미칠 수 있다는 점에서 컴퓨터 과학의 발전이 마치 주문을 외우는 것처럼 느껴짐. 이런 사고방식을 어떻게 시작할 수 있을지 궁금함

- 생각의 흐름이 모델에 임시 '레이어'를 제공하여 텍스트를 처리하는 버퍼 역할을 한다면, 이 버퍼를 별도의 FNN과 주의 메커니즘을 가진 별도의 컨텍스트로 만드는 것이 의미가 있을지 궁금함. 이는 자연어로 설명하는 마이크로프로세스와 결합하여 더 밀도 있는 '생각'의 표현을 제공할 수 있을 것임

- CoT는 널리 알려진 기술이지만, DeepSeek는 컴퓨팅 제한으로 인해 메모리, 대역폭, 병렬성 최적화를 찾는 데 집중했음. 그들의 인프라 및 소프트웨어 수준의 최적화가 주목할 만함

- 현재 벤치마크가 충분히 강력하지 않다고 생각하며, 미국 LLM 연구소들이 인프라 및 하드웨어 최적화의 부족을 인식하고 있을 것임. RL 수준과 부모 훈련이 더욱 중요해질 것임

- AI 해킹을 통해 실험한 방법이 연구소에서도 사용되고 있다는 점이 흥미로움. R1을 계속 생각하게 하기 위해 'Okay'로 대체하는 방법을 사용했음

- Tim의 블로그를 북마크했음. AI와 신경망 분야에서의 발전이 놀라움. 개인적으로 약한 온디바이스 모델로 LLM 기반 에이전트를 만드는 데 어려움을 겪고 있음

- 10,000개의 H100을 보유하는 것은 S1보다 625배 더 많은 실험을 할 수 있다는 것을 의미함. 대기업에서는 컴퓨팅 자원을 낭비하는 경향이 있음

- 추론 모델의 출력 길이를 제어하는 방법이 흥미로움. 'Wait'로 대체하여 CoT를 주입하고 탈옥하기 쉽게 만드는 방법을 발견했음

- S1에 대한 원본 논문 링크를 제공함

- 대규모 조직에서는 실험을 많이 할 수 없으며, 직원들은 빠르게 결과를 내는 데 집중함. 임시적인 이익을 위해 급하게 작업을 진행함

- LLM의 출력을 조각하는 것은 조각품을 만드는 것과 같음. 모델을 게임 루프에 넣고 각 틱마다 상호작용하여 원하는 결과를 얻어야 함. 컴퓨팅 자원에 대한 갈증은 계속될 것임
