DeepSeek의 R1-Zero 및 R1 분석

▲

GN⁺ 2025-01-30 | parent | ★ favorite | on: DeepSeek의 R1-Zero 및 R1 분석(arcprize.org)

Hacker News 의견

AI 시스템 개발자들이 새로운 데이터 생성으로 경제적 변화가 일어날 가능성이 있음. 고객들이 데이터 생성 비용을 부담하여 모델의 품질을 향상시킬 수 있음
- 그러나, 이러한 데이터가 정말로 고품질인지에 대한 회의적인 시각이 존재함
- 현재 SOTA 모델은 GPT4 수준에 머물러 있으며, 향후 2-3년 내에 더 발전할 가능성이 있음
- 추론 모델을 사용하여 데이터를 생성하고, 이를 비추론 모델에 훈련시키는 것이 유망한 아이디어임
- 그러나, 추론을 모델 가중치에 얼마나 잘 담을 수 있을지는 미지수임
- OpenAI가 이미 o3 훈련 데이터를 사용하여 새로운 모델을 훈련했어야 한다는 의견이 있음
기본 모델의 개선이 필요하지 않을 수도 있으며, 일반적인 모델로 충분할 수 있음
- 추론 모델의 가격을 낮추고 품질을 향상시키는 것이 중요함
o3 시스템은 새로운 문제에 적응하는 컴퓨터의 첫 번째 실용적 구현을 보여줌
- 그러나, OpenAI가 o3를 75%의 공공 훈련 세트로 훈련했다고 발표했으며, ARC-AGI 데이터의 성능 기여도는 아직 테스트되지 않음
인간의 병목 현상을 제거하는 주장이 있으나, 수학과 컴퓨터 과학을 제외한 대부분의 분야에서는 검증 가능한 보상을 정의하기 어려움
AI 경제에서 두 가지 주요 변화가 발생하고 있음
- 더 많은 비용을 지불하여 높은 정확도와 신뢰성을 얻을 수 있음
- 훈련 비용이 추론 비용으로 이동하고 있음
- 이는 추론에 대한 수요를 증가시키고, 컴퓨팅 수요를 증가시킬 것임
o3가 AGI-1에서 75%를 기록했으며, R1과 o1은 25%에 그쳤음
많은 컴퓨팅이 추론으로 이동하는 것은 현재 AI 투자에 큰 영향을 미침
- NVDA에게는 나쁜 소식이며, 추론 중심 솔루션이 더 나은 경제성을 가짐
Baseten의 Mike는 이 작업을 지원하게 되어 자랑스럽다고 밝힘
R1-Zero는 인간의 병목 현상이 없는 잠재적 확장 체제를 보여줌
- 그러나, RL 방식이 여전히 많은 인간 데이터를 필요로 한다는 의문이 있음
R1은 비용 대비 성능 면에서 뛰어난 성과를 보임
- 복잡한 문제의 데이터 생성기로 R1을 사용하는 것이 유망하다고 생각됨
LLM의 미래는 맞춤형 개별 앱에 있을 것으로 예측됨
- AI 에이전트에게 원하는 앱과 요구사항을 말하면, 백엔드부터 프론트엔드까지 모든 것을 구축함
- 소프트웨어를 테스트하고 오류를 수정하며, 프로덕션에 배포함
- 현재 LLM이 완벽하지는 않지만, 자동으로 코드를 실행하고 컴파일하며, 오류를 LLM에 피드백하는 시스템과 워크플로우가 이미 존재함