Hacker News 의견
- 모델 실행을 위해서는 Ollama, Llama.cpp, 또는 Python 라이브러리 등의 도구를 사용할 수 있음. RAM에 절반 정도의 모델을 로드하는 것도 가능함.
- 모델 성능 비교를 위한 벤치마킹은 Hugging Face에서 제공하는 비공식 벤치마크를 활용할 수 있음. 단, 이는 base 모델에 대한 것이며, 실제 챗에 활용되는 instruct fine-tuned 모델과는 차이가 있음에 유의해야 함.
- Mixtral-8x22B-v0.1 모델은 이전의 Mixtral 8x7b 모델만큼 좋은 성능을 보인다면 매우 기대되는 모델임.
- ChatGPT 4가 초기에 "마법처럼 작동한다"고 평가받았던 수준의 성능으로 돌아갈 수 있을지에 대한 관심이 있음. 정치적 올바름을 위해 성능을 떨어뜨린 것에 대한 아쉬움이 있음.
- Llama3 출시 전에 모두가 최고의 작은 모델을 내놓기 위해 경쟁하는 상황으로 보임.
- 4-bit 양자화를 통해 85GB VRAM이 필요하므로, 4개의 24G 소비자용 GPU로 충분히 구동 가능함. KV 캐시 최적화를 위한 여유 공간도 있음.
- 모델 가중치가 공개된 지 하루 넘게 지났음에도 Mistral에서 공식 발표나 모델 카드를 제공하지 않고, Mistral 자체 플랫폼에서도 사용할 수 없는 점이 이상함.