4P by neo with xguru 7일전 | ★ favorite | 댓글 3개
  • DeepSeek의 첫 번째 세대 추론 모델 R1은 OpenAI-o1과 비교할 만한 성능을 보유하고 있음
    • 수학, 코드, 추론 작업에서 뛰어난 성능을 발휘함
  • 다양한 크기의 모델 제공: 1.5B, 7B, 8B, 14B, 32B, 70B, 671B
    • 각 모델은 특정 작업에 최적화되어 있음
  • 라이선스
    • MIT 라이선스 하에 제공됨
    • 무료로 사용 가능하며, 상업적 용도로도 사용 가능함

R1 에게 정체성에 대해 질의하면, 절대로 자신은 딥시크와 관련없으며 OpenAI GPT 라고 답변합니다

Hacker News 의견
  • DeepSeek V3는 정치적 민감성을 인식하는 것으로 보임. "천안문 광장이 무엇으로 유명한가?"라는 질문에 "죄송합니다, 현재 범위를 벗어납니다"라고 응답함

    • 정치적 현실을 관리하기 위해 변경을 해야 한다는 점은 이해하지만, 이러한 주제에 대해 LLM이 거짓말을 하는 것에 대해 불편함을 느낌
    • 정치적 이유로 모델에 도입된 변경 사항 목록을 오픈 소스로 공개할 계획이 있는지 궁금함
    • 모델을 정치적으로 올바르게 만드는 것과 학살을 묻어두는 것은 다른 문제임. 이는 매우 위험한 길이며, 여기서 끝나지 않을 것임
  • R1 논문을 보면, 벤치마크가 정확하다면 1.5b와 7b 모델조차 Claude 3.5 Sonnet보다 뛰어남. 이 모델들을 8-16GB 맥북에서 실행할 수 있다는 것은 놀라운 일임

  • 제목이 잘못되었음. llama, qwen의 증류 모델만 ollama에 있으며, deepseekv3의 공식 MoE r1 모델은 아님

  • 1.5b 모델에서 "파이썬에서 리스트를 어떻게 뒤집나요"라는 질문을 해보면, 멈추지 않고 계속 생각을 뱉어냄. 반복되지도 않음. 흥미로움

  • 문서화가 필요함. 전체 프로젝트 설명이 "대형 언어 모델로 시작하기"로 보임

    • 설치하기 전에 여러 질문이 있음. 클라이언트 인터페이스에 묶여 있는지, 시스템 요구 사항은 무엇인지 등
  • 3년 된 노트북에서 이 모델을 실행할 수 있다는 점이 놀라움

    • Rust에서 두 숫자를 더하는 함수를 작성하는 예시를 제공함
    • Rust에서는 fn 키워드를 사용하여 함수를 정의함. 숫자 유형을 명시하지 않았으므로 제네릭으로 만듦
    • Add 트레이트를 사용하여 덧셈을 수행함. 표준 라이브러리에서 가져와야 함
    • 함수 시그니처는 fn add_numbers<T: Add<Output = T>>(a: T, b: T) -> T로 구성됨
    • Rust에서는 다른 숫자 유형을 혼합할 수 없으므로 명시적 변환이 필요함
  • Rust에서 두 숫자를 더하는 간단한 함수 예시를 제공함

    • i32 타입의 두 정수를 더하는 함수임
    • 제네릭과 트레이트 바운드를 사용하여 다른 숫자 유형도 처리할 수 있음
  • DeepSeek R1 모델의 가장 큰 모델로 추론하려면 어떤 유료 API 옵션이 있는지 궁금함

    • 가장 큰 DeepSeek R1 모델을 미세 조정하거나 강화 학습하려면 어떻게 해야 하는지 궁금함
  • RTX 4090과 192GB RAM을 보유하고 있을 때, 어떤 크기의 DeepSeek R1 모델을 로컬에서 실행할 수 있는지 궁금함

  • Nvidia 4070에 적합한 모델 크기가 무엇인지 궁금함

  • Ollama는 거의 완벽에 가까움. 그러나 Vulkan을 지원하지 않는 것이 큰 문제임