GN⁺ 2025-01-21 | parent | ★ favorite | on: DeepSeek-R1 모델 공개(github.com/deepseek-ai)
Hacker News 의견
  • Llama 3의 양자화된 버전을 사용해 실험을 진행 중임. Ollama와 llm-ollama 플러그인을 사용해 모델을 실행하고 로그를 기록함. 모델을 로드한 후 uvx를 사용해 다양한 프롬프트를 테스트할 수 있음. 실험 결과를 블로그에 작성함.

  • DeepSeek-R1-Zero는 반복, 가독성 문제, 언어 혼합 등의 문제를 겪음. 이를 해결하기 위해 DeepSeek-R1을 도입함. OpenAI o1과 QwQ-32B-Preview를 사용한 실험에서 QwQ는 반복 루프에 빠지는 경향이 있었음. DeepSeek-R1은 이러한 문제를 해결함. MIT 라이선스로 제공되어 더 많은 사람들이 평가할 수 있게 됨.

  • "strawberry"의 'r' 개수를 묻는 질문에서 모델이 스스로와 논쟁하며 정답을 찾는 과정을 보여줌. 이 과정이 재미있다고 언급함.

  • ChatGPT o1, DeepSeek의 DeepThink, Gemini 2.0 Flash Thinking Experimental을 비교한 결과, ChatGPT o1이 가장 우수했으며 DeepSeek이 가장 약했음. DeepSeek-R1을 테스트한 결과, 이전보다 개선된 성능을 보였음. 개인적인 사용 사례에서는 LLM이 더 유용하다고 느꼈음.

  • Llama 8B 모델이 Claude 3.5 Sonnet보다 강력하다는 벤치마크 결과가 나옴. 작은 모델이 강력한 성능을 보이는 것에 대해 놀라움을 표함.

  • 1년 전에 설립된 작은 회사가 OpenAI와 경쟁할 수 있는 점이 놀랍다고 언급함. 중국이 AI 분야에서 미국을 앞서고 있으며, 모델을 오픈 소스로 제공하는 점에서 진정한 "Open AI" 회사라고 평가함.

  • DS3에 대한 초기 기대가 있었으나, 기능 호출 문제, 응답 품질 저하, 지원 부족 등의 문제를 발견함. 그러나 이로 인해 다른 API의 트래픽이 줄어들어 지연 시간이 개선됨.

  • 7b와 8b 버전의 차이에 대해 혼란스러움을 표함. Ollama에 Qwen 7B 버전을 업로드했음을 알림.