▲GN⁺ 2025-01-30 | parent | ★ favorite | on: OpenAI, DeepSeek가 자사 모델을 훈련에 사용했다는 증거를 확보했다고 밝혀(ft.com)Hacker News 의견 DeepSeek가 OpenAI의 데이터를 사용하여 훈련한 것은 불공정하다는 주장과, OpenAI도 인터넷에서 데이터를 수집하여 훈련했다는 점에서 이 주장은 부적절함 DeepSeek가 o1 수준의 성능을 처음부터 재현했다고 주장하는 것은 사실이 아닐 수 있으며, 이는 훈련 효율성에 대한 의문을 제기함 DeepSeek의 R1 논문은 증류가 매우 강력하다는 것을 보여주며, 만약 DeepSeek가 o1 출력을 사용하여 모델을 훈련했다면 이는 훈련 효율성에 대한 의문을 제기할 수 있음 DeepSeek의 오픈 소스 및 MIT 라이선스 공개는 큰 인재를 모을 수 있는 계기가 될 것이라는 의견 새로운 기술의 오픈 소스화는 과거에도 항상 발전을 이끌어왔음 OpenAI는 IP 보호를 위해 미국 정부와 협력하고 있으며, DeepSeek가 TikTok처럼 금지될 가능성도 있음 r1이 o1 이후의 세상에서 만들어졌으며, 다른 모델들이 r1을 증류할 수 있는 상황임 o1에서 증류하는 것이 DeepSeek의 비용 주장을 약화시키지 않는다는 의견 OpenAI가 도덕적 또는 윤리적 우위를 가지고 있는지에 대한 의문 DeepSeek가 OpenAI로부터 훈련을 받았다면, 이는 "pennies on the dollar"로 처음부터 훈련된 것이 아니며, 기술적 돌파구가 아닐 수 있음 이는 아직 사실인지 확인되지 않았음 OpenAI는 현재 약한 위치에 있으며, 구글이나 마이크로소프트처럼 법적 자원을 활용할 수 없음 OpenAI가 법적 문제로 경쟁사를 억누르는 전략은 효과적이지 않을 것이라는 의견 철도 산업과 유사하게 AI도 경쟁이 비용을 낮추고, 대부분의 투자들이 큰 부를 창출하지 못할 가능성이 있음 Nvidia, OpenAI, DeepSeek 등의 대기업들이 AI에 투자하지만, 실질적인 수익을 창출하지 못할 수도 있음 OpenAI가 콘텐츠를 무단으로 사용하고, AI 중독 스크립트를 우회하기 위해 많은 비용을 지출하는 것에 대한 비판 DeepSeek가 OpenAI 데이터를 재활용한 것이라면, 이는 공학적 돌파구가 아니라는 의견 OpenAI의 모델은 개인 전자책 토렌트 트래커에서 대량으로 수집된 전자책을 기반으로 훈련되었음 전자책은 epub 형식으로 변환 및 정리되어 공공 데이터 저장소에 호스팅되었음
Hacker News 의견
DeepSeek가 OpenAI의 데이터를 사용하여 훈련한 것은 불공정하다는 주장과, OpenAI도 인터넷에서 데이터를 수집하여 훈련했다는 점에서 이 주장은 부적절함
DeepSeek의 오픈 소스 및 MIT 라이선스 공개는 큰 인재를 모을 수 있는 계기가 될 것이라는 의견
r1이 o1 이후의 세상에서 만들어졌으며, 다른 모델들이 r1을 증류할 수 있는 상황임
DeepSeek가 OpenAI로부터 훈련을 받았다면, 이는 "pennies on the dollar"로 처음부터 훈련된 것이 아니며, 기술적 돌파구가 아닐 수 있음
OpenAI는 현재 약한 위치에 있으며, 구글이나 마이크로소프트처럼 법적 자원을 활용할 수 없음
철도 산업과 유사하게 AI도 경쟁이 비용을 낮추고, 대부분의 투자들이 큰 부를 창출하지 못할 가능성이 있음
OpenAI가 콘텐츠를 무단으로 사용하고, AI 중독 스크립트를 우회하기 위해 많은 비용을 지출하는 것에 대한 비판
OpenAI의 모델은 개인 전자책 토렌트 트래커에서 대량으로 수집된 전자책을 기반으로 훈련되었음