OpenAI, DeepSeek가 자사 모델을 훈련에 사

▲

GN⁺ 2025-01-30 | parent | ★ favorite | on: OpenAI, DeepSeek가 자사 모델을 훈련에 사용했다는 증거를 확보했다고 밝혀(ft.com)

Hacker News 의견

DeepSeek가 OpenAI의 데이터를 사용하여 훈련한 것은 불공정하다는 주장과, OpenAI도 인터넷에서 데이터를 수집하여 훈련했다는 점에서 이 주장은 부적절함
- DeepSeek가 o1 수준의 성능을 처음부터 재현했다고 주장하는 것은 사실이 아닐 수 있으며, 이는 훈련 효율성에 대한 의문을 제기함
- DeepSeek의 R1 논문은 증류가 매우 강력하다는 것을 보여주며, 만약 DeepSeek가 o1 출력을 사용하여 모델을 훈련했다면 이는 훈련 효율성에 대한 의문을 제기할 수 있음
DeepSeek의 오픈 소스 및 MIT 라이선스 공개는 큰 인재를 모을 수 있는 계기가 될 것이라는 의견
- 새로운 기술의 오픈 소스화는 과거에도 항상 발전을 이끌어왔음
- OpenAI는 IP 보호를 위해 미국 정부와 협력하고 있으며, DeepSeek가 TikTok처럼 금지될 가능성도 있음
r1이 o1 이후의 세상에서 만들어졌으며, 다른 모델들이 r1을 증류할 수 있는 상황임
- o1에서 증류하는 것이 DeepSeek의 비용 주장을 약화시키지 않는다는 의견
- OpenAI가 도덕적 또는 윤리적 우위를 가지고 있는지에 대한 의문
DeepSeek가 OpenAI로부터 훈련을 받았다면, 이는 "pennies on the dollar"로 처음부터 훈련된 것이 아니며, 기술적 돌파구가 아닐 수 있음
- 이는 아직 사실인지 확인되지 않았음
OpenAI는 현재 약한 위치에 있으며, 구글이나 마이크로소프트처럼 법적 자원을 활용할 수 없음
- OpenAI가 법적 문제로 경쟁사를 억누르는 전략은 효과적이지 않을 것이라는 의견
철도 산업과 유사하게 AI도 경쟁이 비용을 낮추고, 대부분의 투자들이 큰 부를 창출하지 못할 가능성이 있음
- Nvidia, OpenAI, DeepSeek 등의 대기업들이 AI에 투자하지만, 실질적인 수익을 창출하지 못할 수도 있음
OpenAI가 콘텐츠를 무단으로 사용하고, AI 중독 스크립트를 우회하기 위해 많은 비용을 지출하는 것에 대한 비판
- DeepSeek가 OpenAI 데이터를 재활용한 것이라면, 이는 공학적 돌파구가 아니라는 의견
OpenAI의 모델은 개인 전자책 토렌트 트래커에서 대량으로 수집된 전자책을 기반으로 훈련되었음
- 전자책은 epub 형식으로 변환 및 정리되어 공공 데이터 저장소에 호스팅되었음