GN⁺: Deepseek - 중국 AI 경쟁을 선도하는 조용한 거인
(chinatalk.media)- 딥시크(DeepSeek)는 중국의 AI 스타트업으로, 최근 발표한 R1 모델이 여러 추론 벤치마크에서 OpenAI의 o1모델을 능가함
- 인지도는 낮지만, 주목할 만한 AI 연구소로 자리 잡음
딥시크의 배경과 전략
- CEO Liang Wenfeng는 과거 중국 내 4대 헤지 펀드 중 하나인 High-Flyer의 설립자로, 딥시크는 이 회사의 전폭적인 지원을 받고 있음
- 상업적 응용보다는 기초 기술 개발에 초점을 맞추며 모든 모델을 오픈 소스로 공개하겠다는 전략을 채택
- High-Flyer의 컴퓨팅 클러스터에 접근 가능하며, 약 5만 개 이상의 Hopper GPU를 보유중
- AGI(인공지능 일반)의 개발에 초점을 맞추고 있음. 연구는 잠재적으로 게임 체인저가 될 수 있는 구조적 및 알고리듬 혁신에 집중되어 있음
주요 기술적 혁신
-
모델 아키텍처 개선
- MLA (Multi-head Latent Attention): 메모리 사용량을 기존 대비 5~13% 수준으로 줄임
- DeepSeekMoE (Sparse Mixture of Experts): 계산 비용을 크게 절감
-
가격 전쟁 촉발
- DeepSeek V2 모델은 1백만 토큰당 1 RMB의 추론 비용을 제시하며, 중국 내 대형 기술 기업들을 중심으로 대규모 가격 전쟁을 유발
-
국제적 평가
- 딥시크의 논문은 "올해 최고의 논문 중 하나"로 평가받으며, 실리콘밸리와 국제 AI 커뮤니티에서도 찬사를 받음
딥시크의 연구 철학과 조직 문화
- 기술적 이상주의: Deepseek는 기술적 이상주의를 추구하며, "옳고 그름"을 "이익과 손실"보다 우선시함. 이는 중국의 기술 세계에서 드문 목소리임
- 혁신의 중요성: Deepseek는 중국이 단순히 따라가는 위치에 머물지 않고, 글로벌 기술 혁신의 흐름에 참여해야 한다고 믿음
- 자율적 조직 문화 :하향식 관리가 아닌 자율적이고 창의적인 분위기를 지향. 연구자들은 자신의 아이디어에 따라 자유롭게 협업하며 리소스를 활용할 수 있음
- 인재 채용 : 전통적인 기준보다는 호기심과 열정을 중시하며, 대부분의 팀원은 현지 대학 졸업생과 젊은 연구자들로 구성됨
AGI에 대한 비전
- 연구 초점 : 딥시크는 수학, 코드 생성, 멀티모달리티, 자연어 이해를 중심으로 AGI 실현 가능성을 탐구 중.
-
미래 전망 :
- AGI 실현은 2년에서 10년 내에 가능할 것으로 예상되며, 수학 및 코드는 AGI 테스트의 이상적인 장으로 평가됨
- 대규모 모델의 최종 게임은 기초 모델과 서비스를 제공하는 전문화된 회사들이 공급망의 각 노드에서 광범위한 전문화를 이루는 것임
오픈 소스와 혁신에 대한 견해
- 오픈 소스의 가치 : 딥시크는 기술적 우위를 닫힌 소스에서 찾기보다, 기술 생태계를 구축하고 발전시키는 데 가치를 두고 있음
- 중국 AI 생태계에 대한 비전 : 중국이 응용 혁신을 넘어 0에서 1로의 기술적 혁신을 이루는 데 기여하고자 함
결론
- 딥시크는 전통적인 중국 AI 스타트업과는 다른 길을 걷고 있음
- 상업적 응용보다 기술적 혁신과 AGI 실현에 집중하며, 글로벌 기술 혁신의 흐름에 동참하고자 함
- 이러한 접근법은 향후 중국 AI의 발전 방향에 중요한 영향을 미칠 것으로 보임
Hacker News 의견
-
GPU 제한이 중국 개발자들에게 더 혁신적이고 적은 자원으로 더 많은 것을 하도록 만든 환경을 조성함
- Deepseek 팀에 찬사를 보냄
-
Deepseek에 대한 찬사가 흥미로움
- Deepseek가 다른 모델을 크게 능가할 수 없는 구조적이고 근본적인 이유가 있음
- 미국과 중국의 무역 전쟁이 Deepseek의 컴퓨팅 가용성을 불리하게 만들 가능성이 있음
- 중국의 검열이 Deepseek의 데이터 수집과 출력에 어느 정도 제한을 가함
- Deepseek가 오픈 소스이기 때문에 다른 모델들이 쉽게 복제할 수 있음
- Gemini, ChatGPT, Deepseek, Claudie를 정기적으로 사용 중이며, Deepseek는 다른 모델보다 특별히 뛰어나거나 열등하지 않음
- Deepseek가 LLM 분야를 완전히 장악한다고 생각하는 이유를 알고 싶음
- Deepseek가 다른 모델을 크게 능가할 수 없는 구조적이고 근본적인 이유가 있음
-
중국이 경제 발전과 함께 기여자가 되어야 한다고 믿음
- 과거 30년 동안 IT 혁신에 실질적으로 참여하지 않았음
- 무어의 법칙에 의존하여 더 나은 하드웨어와 소프트웨어를 기다리는 방식으로 확장 법칙을 대함
-
Deepseek는 작년부터 오픈 소스 LLM 커뮤니티에서 두드러진 이름이었음
- 다른 중국 LLM 플레이어에 비해 마케팅 비용이 적음
-
구식 상징적 AI와 현대 ML 버전을 결합하는 것에 대한 언급이 없는 것이 놀라움
-
중국은 GPU 의존성을 깨기 위한 순수 연구를 할 강력한 인센티브가 있음
- 과학을 위해 서로의 수학자를 공격하는 일이 없기를 바람
-
API가 저렴한 이유 중 하나는 API 데이터를 학습에 사용한다고 명시했기 때문임
- OpenAI와 Claude는 API를 사용할 경우 데이터를 학습에 사용하지 않겠다고 함
-
AI 회사 간의 경쟁이 건강하게 지속되기를 바람
- 기술과 논문을 계속 공유하여 전체적으로 더 나아지기를 희망함
-
DeepSeek가 10배 적은 자원으로 o1과 Claude와 동등한 성과를 이룬 것이 인상적임
- 더 나은 알고리즘과 접근 방식이 ML의 다음 단계에 필요함
-
"catfish"라는 단어의 흥미로운 (오용) 사용
- 일반적으로 이해하는 방식과 다름