Ollama에 공식 DeepSeek R1 등록

(ollama.com)

5P by GN⁺ 11달전 | ★ favorite | 댓글 4개

DeepSeek의 첫 번째 세대 추론 모델 R1은 OpenAI-o1과 비교할 만한 성능을 보유하고 있음
- 수학, 코드, 추론 작업에서 뛰어난 성능을 발휘함
다양한 크기의 모델 제공: 1.5B, 7B, 8B, 14B, 32B, 70B, 671B
- 각 모델은 특정 작업에 최적화되어 있음
라이선스
- MIT 라이선스 하에 제공됨
- 무료로 사용 가능하며, 상업적 용도로도 사용 가능함

▲

gadget5 11달전 [-]

R1 에게 정체성에 대해 질의하면, 절대로 자신은 딥시크와 관련없으며 OpenAI GPT 라고 답변합니다

답변달기

▲

mse9000 11달전 [-]

2023년 10월까지 트레이닝 데이터라고 답하는게 뭔가뭔가에요 ..

xguru 11달전 [-]

GN⁺ 11달전 [-]

Hacker News 의견

DeepSeek V3는 정치적 민감성을 인식하는 것으로 보임. "천안문 광장이 무엇으로 유명한가?"라는 질문에 "죄송합니다, 현재 범위를 벗어납니다"라고 응답함
- 정치적 현실을 관리하기 위해 변경을 해야 한다는 점은 이해하지만, 이러한 주제에 대해 LLM이 거짓말을 하는 것에 대해 불편함을 느낌
- 정치적 이유로 모델에 도입된 변경 사항 목록을 오픈 소스로 공개할 계획이 있는지 궁금함
- 모델을 정치적으로 올바르게 만드는 것과 학살을 묻어두는 것은 다른 문제임. 이는 매우 위험한 길이며, 여기서 끝나지 않을 것임
R1 논문을 보면, 벤치마크가 정확하다면 1.5b와 7b 모델조차 Claude 3.5 Sonnet보다 뛰어남. 이 모델들을 8-16GB 맥북에서 실행할 수 있다는 것은 놀라운 일임
제목이 잘못되었음. llama, qwen의 증류 모델만 ollama에 있으며, deepseekv3의 공식 MoE r1 모델은 아님
1.5b 모델에서 "파이썬에서 리스트를 어떻게 뒤집나요"라는 질문을 해보면, 멈추지 않고 계속 생각을 뱉어냄. 반복되지도 않음. 흥미로움
문서화가 필요함. 전체 프로젝트 설명이 "대형 언어 모델로 시작하기"로 보임
- 설치하기 전에 여러 질문이 있음. 클라이언트 인터페이스에 묶여 있는지, 시스템 요구 사항은 무엇인지 등
3년 된 노트북에서 이 모델을 실행할 수 있다는 점이 놀라움
- Rust에서 두 숫자를 더하는 함수를 작성하는 예시를 제공함
- Rust에서는 fn 키워드를 사용하여 함수를 정의함. 숫자 유형을 명시하지 않았으므로 제네릭으로 만듦
- Add 트레이트를 사용하여 덧셈을 수행함. 표준 라이브러리에서 가져와야 함
- 함수 시그니처는 fn add_numbers<T: Add<Output = T>>(a: T, b: T) -> T로 구성됨
- Rust에서는 다른 숫자 유형을 혼합할 수 없으므로 명시적 변환이 필요함
Rust에서 두 숫자를 더하는 간단한 함수 예시를 제공함
- i32 타입의 두 정수를 더하는 함수임
- 제네릭과 트레이트 바운드를 사용하여 다른 숫자 유형도 처리할 수 있음
DeepSeek R1 모델의 가장 큰 모델로 추론하려면 어떤 유료 API 옵션이 있는지 궁금함
- 가장 큰 DeepSeek R1 모델을 미세 조정하거나 강화 학습하려면 어떻게 해야 하는지 궁금함
RTX 4090과 192GB RAM을 보유하고 있을 때, 어떤 크기의 DeepSeek R1 모델을 로컬에서 실행할 수 있는지 궁금함
Nvidia 4070에 적합한 모델 크기가 무엇인지 궁금함
Ollama는 거의 완벽에 가까움. 그러나 Vulkan을 지원하지 않는 것이 큰 문제임

답변달기