Llama 3의 양자화된 버전을 사용해 실험을 진행 중임. Ollama와 llm-ollama 플러그인을 사용해 모델을 실행하고 로그를 기록함. 모델을 로드한 후 uvx를 사용해 다양한 프롬프트를 테스트할 수 있음. 실험 결과를 블로그에 작성함.
DeepSeek-R1-Zero는 반복, 가독성 문제, 언어 혼합 등의 문제를 겪음. 이를 해결하기 위해 DeepSeek-R1을 도입함. OpenAI o1과 QwQ-32B-Preview를 사용한 실험에서 QwQ는 반복 루프에 빠지는 경향이 있었음. DeepSeek-R1은 이러한 문제를 해결함. MIT 라이선스로 제공되어 더 많은 사람들이 평가할 수 있게 됨.
"strawberry"의 'r' 개수를 묻는 질문에서 모델이 스스로와 논쟁하며 정답을 찾는 과정을 보여줌. 이 과정이 재미있다고 언급함.
ChatGPT o1, DeepSeek의 DeepThink, Gemini 2.0 Flash Thinking Experimental을 비교한 결과, ChatGPT o1이 가장 우수했으며 DeepSeek이 가장 약했음. DeepSeek-R1을 테스트한 결과, 이전보다 개선된 성능을 보였음. 개인적인 사용 사례에서는 LLM이 더 유용하다고 느꼈음.
Llama 8B 모델이 Claude 3.5 Sonnet보다 강력하다는 벤치마크 결과가 나옴. 작은 모델이 강력한 성능을 보이는 것에 대해 놀라움을 표함.
1년 전에 설립된 작은 회사가 OpenAI와 경쟁할 수 있는 점이 놀랍다고 언급함. 중국이 AI 분야에서 미국을 앞서고 있으며, 모델을 오픈 소스로 제공하는 점에서 진정한 "Open AI" 회사라고 평가함.
DS3에 대한 초기 기대가 있었으나, 기능 호출 문제, 응답 품질 저하, 지원 부족 등의 문제를 발견함. 그러나 이로 인해 다른 API의 트래픽이 줄어들어 지연 시간이 개선됨.
7b와 8b 버전의 차이에 대해 혼란스러움을 표함. Ollama에 Qwen 7B 버전을 업로드했음을 알림.
Hacker News 의견
Llama 3의 양자화된 버전을 사용해 실험을 진행 중임. Ollama와 llm-ollama 플러그인을 사용해 모델을 실행하고 로그를 기록함. 모델을 로드한 후 uvx를 사용해 다양한 프롬프트를 테스트할 수 있음. 실험 결과를 블로그에 작성함.
DeepSeek-R1-Zero는 반복, 가독성 문제, 언어 혼합 등의 문제를 겪음. 이를 해결하기 위해 DeepSeek-R1을 도입함. OpenAI o1과 QwQ-32B-Preview를 사용한 실험에서 QwQ는 반복 루프에 빠지는 경향이 있었음. DeepSeek-R1은 이러한 문제를 해결함. MIT 라이선스로 제공되어 더 많은 사람들이 평가할 수 있게 됨.
"strawberry"의 'r' 개수를 묻는 질문에서 모델이 스스로와 논쟁하며 정답을 찾는 과정을 보여줌. 이 과정이 재미있다고 언급함.
ChatGPT o1, DeepSeek의 DeepThink, Gemini 2.0 Flash Thinking Experimental을 비교한 결과, ChatGPT o1이 가장 우수했으며 DeepSeek이 가장 약했음. DeepSeek-R1을 테스트한 결과, 이전보다 개선된 성능을 보였음. 개인적인 사용 사례에서는 LLM이 더 유용하다고 느꼈음.
Llama 8B 모델이 Claude 3.5 Sonnet보다 강력하다는 벤치마크 결과가 나옴. 작은 모델이 강력한 성능을 보이는 것에 대해 놀라움을 표함.
1년 전에 설립된 작은 회사가 OpenAI와 경쟁할 수 있는 점이 놀랍다고 언급함. 중국이 AI 분야에서 미국을 앞서고 있으며, 모델을 오픈 소스로 제공하는 점에서 진정한 "Open AI" 회사라고 평가함.
DS3에 대한 초기 기대가 있었으나, 기능 호출 문제, 응답 품질 저하, 지원 부족 등의 문제를 발견함. 그러나 이로 인해 다른 API의 트래픽이 줄어들어 지연 시간이 개선됨.
7b와 8b 버전의 차이에 대해 혼란스러움을 표함. Ollama에 Qwen 7B 버전을 업로드했음을 알림.