GN⁺ 2025-02-06 | parent | ★ favorite | on: S1 : $6 짜리 R1 경쟁자?(timkellogg.me)
Hacker News 의견
  • 'Wait' 해킹을 통한 추론 확장이 흥미로움. 간단한 방법이 성능에 영향을 미칠 수 있다는 점에서 컴퓨터 과학의 발전이 마치 주문을 외우는 것처럼 느껴짐. 이런 사고방식을 어떻게 시작할 수 있을지 궁금함

  • 생각의 흐름이 모델에 임시 '레이어'를 제공하여 텍스트를 처리하는 버퍼 역할을 한다면, 이 버퍼를 별도의 FNN과 주의 메커니즘을 가진 별도의 컨텍스트로 만드는 것이 의미가 있을지 궁금함. 이는 자연어로 설명하는 마이크로프로세스와 결합하여 더 밀도 있는 '생각'의 표현을 제공할 수 있을 것임

  • CoT는 널리 알려진 기술이지만, DeepSeek는 컴퓨팅 제한으로 인해 메모리, 대역폭, 병렬성 최적화를 찾는 데 집중했음. 그들의 인프라 및 소프트웨어 수준의 최적화가 주목할 만함

  • 현재 벤치마크가 충분히 강력하지 않다고 생각하며, 미국 LLM 연구소들이 인프라 및 하드웨어 최적화의 부족을 인식하고 있을 것임. RL 수준과 부모 훈련이 더욱 중요해질 것임

  • AI 해킹을 통해 실험한 방법이 연구소에서도 사용되고 있다는 점이 흥미로움. R1을 계속 생각하게 하기 위해 'Okay'로 대체하는 방법을 사용했음

  • Tim의 블로그를 북마크했음. AI와 신경망 분야에서의 발전이 놀라움. 개인적으로 약한 온디바이스 모델로 LLM 기반 에이전트를 만드는 데 어려움을 겪고 있음

  • 10,000개의 H100을 보유하는 것은 S1보다 625배 더 많은 실험을 할 수 있다는 것을 의미함. 대기업에서는 컴퓨팅 자원을 낭비하는 경향이 있음

  • 추론 모델의 출력 길이를 제어하는 방법이 흥미로움. 'Wait'로 대체하여 CoT를 주입하고 탈옥하기 쉽게 만드는 방법을 발견했음

  • S1에 대한 원본 논문 링크를 제공함

  • 대규모 조직에서는 실험을 많이 할 수 없으며, 직원들은 빠르게 결과를 내는 데 집중함. 임시적인 이익을 위해 급하게 작업을 진행함

  • LLM의 출력을 조각하는 것은 조각품을 만드는 것과 같음. 모델을 게임 루프에 넣고 각 틱마다 상호작용하여 원하는 결과를 얻어야 함. 컴퓨팅 자원에 대한 갈증은 계속될 것임