S1 : $6 짜리 R1 경쟁자?

▲

GN⁺ 2025-02-06 | parent | ★ favorite | on: S1 : $6 짜리 R1 경쟁자?(timkellogg.me)

Hacker News 의견

'Wait' 해킹을 통한 추론 확장이 흥미로움. 간단한 방법이 성능에 영향을 미칠 수 있다는 점에서 컴퓨터 과학의 발전이 마치 주문을 외우는 것처럼 느껴짐. 이런 사고방식을 어떻게 시작할 수 있을지 궁금함
생각의 흐름이 모델에 임시 '레이어'를 제공하여 텍스트를 처리하는 버퍼 역할을 한다면, 이 버퍼를 별도의 FNN과 주의 메커니즘을 가진 별도의 컨텍스트로 만드는 것이 의미가 있을지 궁금함. 이는 자연어로 설명하는 마이크로프로세스와 결합하여 더 밀도 있는 '생각'의 표현을 제공할 수 있을 것임
CoT는 널리 알려진 기술이지만, DeepSeek는 컴퓨팅 제한으로 인해 메모리, 대역폭, 병렬성 최적화를 찾는 데 집중했음. 그들의 인프라 및 소프트웨어 수준의 최적화가 주목할 만함
현재 벤치마크가 충분히 강력하지 않다고 생각하며, 미국 LLM 연구소들이 인프라 및 하드웨어 최적화의 부족을 인식하고 있을 것임. RL 수준과 부모 훈련이 더욱 중요해질 것임
AI 해킹을 통해 실험한 방법이 연구소에서도 사용되고 있다는 점이 흥미로움. R1을 계속 생각하게 하기 위해 'Okay'로 대체하는 방법을 사용했음
Tim의 블로그를 북마크했음. AI와 신경망 분야에서의 발전이 놀라움. 개인적으로 약한 온디바이스 모델로 LLM 기반 에이전트를 만드는 데 어려움을 겪고 있음
10,000개의 H100을 보유하는 것은 S1보다 625배 더 많은 실험을 할 수 있다는 것을 의미함. 대기업에서는 컴퓨팅 자원을 낭비하는 경향이 있음
추론 모델의 출력 길이를 제어하는 방법이 흥미로움. 'Wait'로 대체하여 CoT를 주입하고 탈옥하기 쉽게 만드는 방법을 발견했음
S1에 대한 원본 논문 링크를 제공함
대규모 조직에서는 실험을 많이 할 수 없으며, 직원들은 빠르게 결과를 내는 데 집중함. 임시적인 이익을 위해 급하게 작업을 진행함
LLM의 출력을 조각하는 것은 조각품을 만드는 것과 같음. 모델을 게임 루프에 넣고 각 틱마다 상호작용하여 원하는 결과를 얻어야 함. 컴퓨팅 자원에 대한 갈증은 계속될 것임