- OpenAI는 중국 AI 스타트업 DeepSeek이 자사의 독점 모델을 사용해 오픈소스 경쟁 모델을 훈련했다는 증거를 발견했다고 Financial Times에 밝힘
- DeepSeek이 대형 모델의 출력을 활용해 작은 모델을 효과적으로 훈련하는 "지식 증류(distillation)" 기법을 사용한 것으로 의심됨
- 증류는 AI 업계에서 일반적인 방식이지만, OpenAI는 DeepSeek이 이를 이용해 독자적인 모델을 개발하는 것이 자사 서비스 약관을 위반한 행위라고 주장
- OpenAI 약관에 따르면 사용자는 OpenAI의 출력을 복사하거나 이를 이용해 경쟁 모델을 개발할 수 없음
DeepSeek의 모델 성능 및 시장 반응
- DeepSeek의 R1 추론 모델 출시가 기술 업계와 투자자들을 놀라게 함
- DeepSeek은 비교적 적은 비용으로 높은 성능을 내는 모델을 구축해 업계의 관심을 끌고 있음
- Nvidia의 주가는 월요일 17% 하락하며 5,890억 달러의 시가총액이 증발했으나, 화요일 9% 반등
- Nvidia 하락의 원인은 AI 하드웨어에 대한 수요 감소 우려 때문
OpenAI와 Microsoft의 대응
- OpenAI와 Microsoft는 작년에 DeepSeek이 OpenAI의 API를 사용해 증류를 시도한 것으로 의심되는 계정을 조사하고 차단함
- 이와 관련한 최초 보도는 Bloomberg에서 나옴
- Microsoft는 이에 대해 언급을 피했고, OpenAI도 추가적인 논평을 거부
전문가들의 의견
- 전 트럼프 행정부의 AI 및 암호화폐 담당자 David Sacks는 "IP 도용이 있었을 가능성이 있다"고 주장
- 일부 AI 연구자들은 DeepSeek의 모델이 GPT-4의 출력을 학습한 흔적이 보인다고 분석
- UC Berkeley의 AI 박사 과정 연구원 Ritwik Gupta는 AI 업계에서 상업용 LLM의 출력을 활용해 모델을 학습하는 것이 일반적인 관행이라고 설명
OpenAI의 대응 및 향후 전망
- OpenAI는 중국을 비롯한 여러 기업이 미국 AI 기업의 모델을 증류하려고 시도하고 있다고 경고
- IP 보호를 위해 모델의 최첨단 기능 공개를 신중히 결정하고 있으며, 미국 정부와 협력해 기술 유출을 방지하는 것이 중요하다고 강조
- 하지만 OpenAI 역시 뉴욕 타임스를 비롯한 언론사 및 저작권 소유자들로부터 무단 데이터 사용 혐의로 소송을 당하는 등 자체적인 저작권 논란에 직면
Hacker News 의견
-
DeepSeek가 OpenAI의 데이터를 사용하여 훈련한 것은 불공정하다는 주장과, OpenAI도 인터넷에서 데이터를 수집하여 훈련했다는 점에서 이 주장은 부적절함
- DeepSeek가 o1 수준의 성능을 처음부터 재현했다고 주장하는 것은 사실이 아닐 수 있으며, 이는 훈련 효율성에 대한 의문을 제기함
- DeepSeek의 R1 논문은 증류가 매우 강력하다는 것을 보여주며, 만약 DeepSeek가 o1 출력을 사용하여 모델을 훈련했다면 이는 훈련 효율성에 대한 의문을 제기할 수 있음
-
DeepSeek의 오픈 소스 및 MIT 라이선스 공개는 큰 인재를 모을 수 있는 계기가 될 것이라는 의견
- 새로운 기술의 오픈 소스화는 과거에도 항상 발전을 이끌어왔음
- OpenAI는 IP 보호를 위해 미국 정부와 협력하고 있으며, DeepSeek가 TikTok처럼 금지될 가능성도 있음
-
r1이 o1 이후의 세상에서 만들어졌으며, 다른 모델들이 r1을 증류할 수 있는 상황임
- o1에서 증류하는 것이 DeepSeek의 비용 주장을 약화시키지 않는다는 의견
- OpenAI가 도덕적 또는 윤리적 우위를 가지고 있는지에 대한 의문
-
DeepSeek가 OpenAI로부터 훈련을 받았다면, 이는 "pennies on the dollar"로 처음부터 훈련된 것이 아니며, 기술적 돌파구가 아닐 수 있음
- 이는 아직 사실인지 확인되지 않았음
-
OpenAI는 현재 약한 위치에 있으며, 구글이나 마이크로소프트처럼 법적 자원을 활용할 수 없음
- OpenAI가 법적 문제로 경쟁사를 억누르는 전략은 효과적이지 않을 것이라는 의견
-
철도 산업과 유사하게 AI도 경쟁이 비용을 낮추고, 대부분의 투자들이 큰 부를 창출하지 못할 가능성이 있음
- Nvidia, OpenAI, DeepSeek 등의 대기업들이 AI에 투자하지만, 실질적인 수익을 창출하지 못할 수도 있음
-
OpenAI가 콘텐츠를 무단으로 사용하고, AI 중독 스크립트를 우회하기 위해 많은 비용을 지출하는 것에 대한 비판
- DeepSeek가 OpenAI 데이터를 재활용한 것이라면, 이는 공학적 돌파구가 아니라는 의견
-
OpenAI의 모델은 개인 전자책 토렌트 트래커에서 대량으로 수집된 전자책을 기반으로 훈련되었음
- 전자책은 epub 형식으로 변환 및 정리되어 공공 데이터 저장소에 호스팅되었음