1P by GN⁺ 7일전 | ★ favorite | 댓글 1개
  • Deepseek R1-0528은 최신 LLM으로 공개됨
  • 이 모델은 오픈소스로 제공되어 접근성과 활용성 증대임
  • 다양한 자연어 처리 및 생성 작업에서 강력한 성능을 보임
  • 더 빠르고 효율적인 아키텍처를 통해 연구 및 실무 활용에 이점 제공임
  • AI 분야에서 경쟁력 있는 추가 선택지로 부상함

Deepseek R1-0528 모델 소개

  • Deepseek R1-0528은 최신 대형 언어 모델(LLM)로, 자연어 이해 및 생성 영역에서 사용 가능함
  • 이 모델은 Hugging Face를 통해 오픈소스로 공개되어, 연구자 및 개발자 누구나 자유롭게 활용 가능함
  • DeepSeek-AI에서 개발한 R1-0528 모델은 대규모 데이터셋으로 학습되어, 텍스트 요약, 번역, 질문 응답, 코드 생성 등 다양한 자연어 처리 및 생성 태스크에 적용할 수 있음
  • 기존 공개된 오픈소스 모델들과 비교해 더 뛰어난 추론 속도와 최적화된 네트워크 구조를 특징으로 함
  • 이러한 강점 덕분에 연구 및 실제 산업 환경에서 빠르고 정확한 결과를 원하는 개발자들이 선호할 수 있는 선택지로 각광받는 중임

모델의 특이점 및 장점

  • Deepseek R1-0528은 확장성, 효율성, 신속성 측면에서 기존 LLM 모델들과 차별점을 가짐
  • 개발자가 모델을 쉽게 커스터마이즈하고, 다양한 언어 또는 도메인에 특화하여 적용할 수 있는 모듈형 구조를 채택함
  • 향상된 알고리듬 덕분에 교육 및 추론 단계의 처리 속도가 개선됨
  • 모든 사용자는 Hugging Face 라이브러리를 통해 간편하게 모델을 로드하고 사용할 수 있음

활용 및 기대 효과

  • AI 연구, 챗봇, 문서 자동 생성, 코드 도우미 등 다양한 실무 시나리오에 활용 가능함
  • 오픈소스 공개로 인해 실제 데이터셋 적용 및 모델 성능 검증이 자유로워질 수 있음
  • DeepSeek R1-0528의 출시는 글로벌 AI 커뮤니티 내에서 건전한 경쟁 환경과 기술적 진보를 촉진함
Hacker News 의견
  • 처음에 7개 제공업체에서 openrouter를 통해 DeepSeek R1을 사용할 수 있게 된 사실을 알게 됐음
    링크
    5월 28일 원본 DeepSeek R1 업데이트로, 성능은 OpenAI o1과 비슷한 수준임
    오픈소스로서 reasoning tokens도 공개되어 있음
    전체 파라미터는 671B이고, 추론 시 37B만 활성화됨
    완전 오픈소스 모델임

    • 다운로드 가능한 모델이 있는지 궁금함
      openrouter가 익숙하지 않고 ollama에서는 모델을 찾을 수 없어서 더 알아보고 싶음

    • 모델이 어떤 데이터로 학습되었는지는 전혀 밝혀진 바 없음
      다운로드 가능한 가중치는 공개됐지만, 근본적으로 재현 가능한 오픈소스는 아님
      훈련 데이터까지 직접 공개하는 프로젝트로 "Open R1"이 있었는데,
      현재 진행 상황이 어떻게 됐는지 궁금함
      링크

    • DeepSeek R1이 오픈소스라는 주장에 동의하지 않음
      다운로드할 수 있다고 오픈소스는 아니라는 점 강조
      링크

  • DeepSeek R1 관련 정보가 전혀 없어 아쉬움
    벤치마크 정보도 없고, 예전 Mistral이 토렌트 마그넷 링크를 트윗으로 떨궜던 때가 생각남

    • 요즘 벤치마크는 별 의미가 없는 것 같음
      이미 공개된 테스트에 모델을 맞추는 데에만 집중할 뿐,
      범용성을 키우려는 본질적인 발전에는 소홀함
      Huggingface의 리더보드를 보면 다양한 오픈소스 모델의 파인튜닝들이 상위권인데, 실제로 널리 쓰이지는 않음
      링크

    • 벤치마크 표에서 "Overall"과 "Median" 점수는 보이는데,
      정확히 어떤 부분을 테스트한 건지 정보가 없음
      최신 모델들과 대체로 비슷해 보이지만, 비용 측면에서는 약간의 장점이 있음
      단점은 이전 r1과 비슷하게 느린 추론 속도임(토큰을 많이 소모함)
      표 링크

    • DeepSeek의 공개 방식이 예전 Mistral과 비슷한데, 의도적인 오마주가 아닌지 궁금함

    • DeepSeek는 모델을 공개한 바로 다음날 논문을 올리는 편임
      이런 일정을 조금만 더 조율하면 더 깔끔할 것 같은데, 지금은 뉴싸에 소식이 좀 중구난방으로 흘러감

  • DeepSeek가 오래된 ios 버전이 설치된 iPod Touch에서 구동되는 몇 안 되는 LLM이라는 점이 독특함

  • DeepSeek가 새로운 업데이트를 아무렇지 않게 툭툭 공개하는 모습이 좋음
    큰 개선이 있음에도 별도의 홍보 없이 조용히 풀리는 분위기를 선호함

    • 정말 개선이 큰 건지 궁금함
      벤치마크 같은 공식적인 비교 자료가 있는지 알고 싶음

    • OpenAI는 물론이고 Anthropic도 최근에는 신형 모델을 과장하면서
      '이 모델이 얼마나 위험한지, 어떻게 탈출하고, 사람을 속이고, 핵심 서버를 해킹했는지' 같은 서사를 붙여
      나이트메어 느낌을 내는 반면, DeepSeek는 과장 없이 담백하게 릴리즈하는 스타일임

    • 실제로는 WeChat에서 정식으로 발표를 한 듯함

    • 이런 조용한 릴리즈 방식도 좋지만, 그래도 벤치마크처럼 수치적인 자료도 제공되면 더 좋을 것 같음

    • Nvidia 실적발표 당일에 맞춰 공개된 타이밍도 재밌는 우연이라 생각함

  • 이런 대형 LLM을 보통 사람이 느리더라도 사용하려면 구체적으로 어떤 하드웨어가 필요한지 궁금함
    일반인이 설정을 쉽게 줄여 쓰거나, 모델 사이즈를 줄여 사용할 방법이 있는지도 알고 싶음

    • DeepSeek R1을 오프로드 및 1.58bit 양자화(quantization)로 로컬 기기에서 구동에 성공했음
      관련 정보: 링크
      새로운 버전 작업도 진행 중

    • 4bit quantized 버전은 M3 Ultra 512GB에서 구동 가능함
      가격은 상당히 비쌈
      다른 방법으론 고성능 CPU에 500GB DDR5 램을 갖춘 시스템을 사용할 수 있음
      이 역시 저렴하지 않고, M3 Ultra보단 느림
      또 다른 옵션은 Nvidia GPU 여러 대로 VRAM 합산 500GB를 만드는 것인데
      이게 가장 비싸지만 속도는 빠름

    • 듀얼 소켓 서버보드에 DDR5 램 768GB와 프롬프트 처리를 위한 16GB 이상 GPU를 추가해야 함
      8~10 토큰/초 속도로 구동하는 데 수백만 원이 필요함

    • 2천 달러 중고 듀얼소켓 Xeon에 DDR4 768GB를 장착하여
      4bit quantized 버전을 초당 약 1.5토큰 속도로 구동함

    • Amazon에서 1만 토큰당 약 1센트 수준으로 사용 가능함
      EC2 인스턴스 수동설정 가이드도 있음
      예시로 g6e.48xlarge 인스턴스(192 vCPU, 1536GB RAM, L40S Tensor Core GPU 8개, 각 48GB VRAM)
      월 사용 가격은 약 2만2천 달러 수준
      Bedrock DeepSeek 안내
      수동 배포 가이드

  • 최신 R1 릴리즈에 대한 기대감이 큼
    685B 파라미터 규모, 모델 카드와 릴리즈 노트, 변화 내용, 컨텍스트 윈도우 정보가 없음
    원본 R1의 출력 품질은 인상적인데, 토큰 소모가 크다는 아쉬움이 있었음
    더 많은 정보가 공개되길 기다리는 중

  • o4 mini high에 비해 약 절반 가격에서 큰 성능 차이 없는 것도 흥미로움
    대부분의 제공업체가 양자화 버전을 올리고 있다는 내용도 확인함

  • DeepSeek와 비슷한 성능을 내려면 최소 8개의 h100 80GB GPU가 필요함

    • 시간당 약 16~24달러 수준 비용 예상
      토큰을 많이 사용한다면 OpenAI에 비해 훨씬 저렴하게 쓸 수 있음
  • Groq에서 DeepSeek를 빨리 써보고 싶음

    • Groq는 진짜 DeepSeek 모델 지원이 없음
      현재 DeepSeek-r1-distill-llama-70b만 지원하고 있고, 이건 llama 70b에 distilled 된 모델임
      Groq 모델 안내