OpenAI, DeepSeek가 자사 모델을 훈련에 사용했다는 증거를 확보했다고 밝혀

(ft.com)

5P by GN⁺ 2025-01-30 | ★ favorite | 댓글 2개

OpenAI는 중국 AI 스타트업 DeepSeek이 자사의 독점 모델을 사용해 오픈소스 경쟁 모델을 훈련했다는 증거를 발견했다고 Financial Times에 밝힘
DeepSeek이 대형 모델의 출력을 활용해 작은 모델을 효과적으로 훈련하는 "지식 증류(distillation)" 기법을 사용한 것으로 의심됨
증류는 AI 업계에서 일반적인 방식이지만, OpenAI는 DeepSeek이 이를 이용해 독자적인 모델을 개발하는 것이 자사 서비스 약관을 위반한 행위라고 주장
OpenAI 약관에 따르면 사용자는 OpenAI의 출력을 복사하거나 이를 이용해 경쟁 모델을 개발할 수 없음

DeepSeek의 모델 성능 및 시장 반응

DeepSeek의 R1 추론 모델 출시가 기술 업계와 투자자들을 놀라게 함
DeepSeek은 비교적 적은 비용으로 높은 성능을 내는 모델을 구축해 업계의 관심을 끌고 있음
Nvidia의 주가는 월요일 17% 하락하며 5,890억 달러의 시가총액이 증발했으나, 화요일 9% 반등
Nvidia 하락의 원인은 AI 하드웨어에 대한 수요 감소 우려 때문

OpenAI와 Microsoft의 대응

OpenAI와 Microsoft는 작년에 DeepSeek이 OpenAI의 API를 사용해 증류를 시도한 것으로 의심되는 계정을 조사하고 차단함
이와 관련한 최초 보도는 Bloomberg에서 나옴
Microsoft는 이에 대해 언급을 피했고, OpenAI도 추가적인 논평을 거부

전문가들의 의견

전 트럼프 행정부의 AI 및 암호화폐 담당자 David Sacks는 "IP 도용이 있었을 가능성이 있다"고 주장
일부 AI 연구자들은 DeepSeek의 모델이 GPT-4의 출력을 학습한 흔적이 보인다고 분석
UC Berkeley의 AI 박사 과정 연구원 Ritwik Gupta는 AI 업계에서 상업용 LLM의 출력을 활용해 모델을 학습하는 것이 일반적인 관행이라고 설명

OpenAI의 대응 및 향후 전망

OpenAI는 중국을 비롯한 여러 기업이 미국 AI 기업의 모델을 증류하려고 시도하고 있다고 경고
IP 보호를 위해 모델의 최첨단 기능 공개를 신중히 결정하고 있으며, 미국 정부와 협력해 기술 유출을 방지하는 것이 중요하다고 강조
하지만 OpenAI 역시 뉴욕 타임스를 비롯한 언론사 및 저작권 소유자들로부터 무단 데이터 사용 혐의로 소송을 당하는 등 자체적인 저작권 논란에 직면

GeekNews Weekly에 포함된 글입니다. 에디터 코멘트 보기

botplaysdice 2025-02-01 [-]

OpenAI는 뉴욕타임스와 소송중인데, DeepSeek는 이렇게 되면 그 소송에서 자유로운건가요? :)

답변달기

GN⁺ 2025-01-30 [-]

Hacker News 의견

DeepSeek가 OpenAI의 데이터를 사용하여 훈련한 것은 불공정하다는 주장과, OpenAI도 인터넷에서 데이터를 수집하여 훈련했다는 점에서 이 주장은 부적절함
- DeepSeek가 o1 수준의 성능을 처음부터 재현했다고 주장하는 것은 사실이 아닐 수 있으며, 이는 훈련 효율성에 대한 의문을 제기함
- DeepSeek의 R1 논문은 증류가 매우 강력하다는 것을 보여주며, 만약 DeepSeek가 o1 출력을 사용하여 모델을 훈련했다면 이는 훈련 효율성에 대한 의문을 제기할 수 있음
DeepSeek의 오픈 소스 및 MIT 라이선스 공개는 큰 인재를 모을 수 있는 계기가 될 것이라는 의견
- 새로운 기술의 오픈 소스화는 과거에도 항상 발전을 이끌어왔음
- OpenAI는 IP 보호를 위해 미국 정부와 협력하고 있으며, DeepSeek가 TikTok처럼 금지될 가능성도 있음
r1이 o1 이후의 세상에서 만들어졌으며, 다른 모델들이 r1을 증류할 수 있는 상황임
- o1에서 증류하는 것이 DeepSeek의 비용 주장을 약화시키지 않는다는 의견
- OpenAI가 도덕적 또는 윤리적 우위를 가지고 있는지에 대한 의문
DeepSeek가 OpenAI로부터 훈련을 받았다면, 이는 "pennies on the dollar"로 처음부터 훈련된 것이 아니며, 기술적 돌파구가 아닐 수 있음
- 이는 아직 사실인지 확인되지 않았음
OpenAI는 현재 약한 위치에 있으며, 구글이나 마이크로소프트처럼 법적 자원을 활용할 수 없음
- OpenAI가 법적 문제로 경쟁사를 억누르는 전략은 효과적이지 않을 것이라는 의견
철도 산업과 유사하게 AI도 경쟁이 비용을 낮추고, 대부분의 투자들이 큰 부를 창출하지 못할 가능성이 있음
- Nvidia, OpenAI, DeepSeek 등의 대기업들이 AI에 투자하지만, 실질적인 수익을 창출하지 못할 수도 있음
OpenAI가 콘텐츠를 무단으로 사용하고, AI 중독 스크립트를 우회하기 위해 많은 비용을 지출하는 것에 대한 비판
- DeepSeek가 OpenAI 데이터를 재활용한 것이라면, 이는 공학적 돌파구가 아니라는 의견
OpenAI의 모델은 개인 전자책 토렌트 트래커에서 대량으로 수집된 전자책을 기반으로 훈련되었음
- 전자책은 epub 형식으로 변환 및 정리되어 공공 데이터 저장소에 호스팅되었음

답변달기

OpenAI, DeepSeek가 자사 모델을 훈련에 사용했다는 증거를 확보했다고 밝혀

DeepSeek의 모델 성능 및 시장 반응

OpenAI와 Microsoft의 대응

전문가들의 의견

OpenAI의 대응 및 향후 전망

함께 보면 좋은 글 β

댓글과 토론

Hacker News 의견