Hacker News 의견
  • 현재 주목할 만한 모델들:

    • Miqu 70B: 일반 대화용
    • Deepseed 33B: 코딩용
    • Yi 34B: 32K 컨텍스트 이상의 대화용
    • 이들 모델의 파인튜닝 버전들도 존재
    • 34B-70B 범위의 다른 모델들도 있으나, Qwen 모델은 인상적이지 않음
    • Llama 70B, Mixtral, Grok 모델은 차트에서 보이지만 최신 기술(SOTA)로 보기 어려움, 단 Mixtral은 배치 사이즈 1의 속도에서 뛰어남
  • 모델 카드 및 리소스 요구 사항:

    • 모델은 약 264GB의 RAM 필요
    • 매개변수 수 대신 (GPU RAM + CPU RAM) 총량과 평가 메트릭을 추적하는 전환 시점에 대한 궁금증
    • 예를 들어, float32를 사용하는 7B 매개변수 모델이 float4를 사용하는 동일 매개변수 모델보다 성능이 우수할 가능성이 높음
    • 한 GPU에 맞도록 최근 출시된 우수 모델을 양자화하는 사례들이 있으나, 양자화된 모델은 원본과 다른 모델이므로 메트릭을 다시 실행해야 함
  • 대규모 언어 모델(LLM)의 수렴성:

    • 모든 LLM 모델이 동일한 데이터로 훈련될 때 특정 지점으로 수렴한다는 증거
    • 작업 성능에 대한 주장은 그저 주장일 뿐, 다음 Llama나 Mixtral 반복은 수렴할 것
    • LLM은 리눅스/윈도우 또는 iOS/안드로이드처럼 기초 모델에서 큰 차이가 없이 진화하는 것으로 보임
  • 혼합 양자화 및 MoE 오프로딩 기대:

    • Mixed Quantization with MQQ와 MoE Offloading을 통해 10GB VRAM의 rtx3080에서 Mistral 8x7B를 실행할 수 있었음
    • 이 방법은 DBRX에도 적용 가능하며 VRAM 요구량을 크게 줄일 수 있음
  • Databricks의 비즈니스 이익:

    • Databricks가 오픈 LLM에 수백만 달러를 투자함으로써 얻을 비즈니스 이점에 대한 호기심
  • 차트 비교 및 평가:

    • LLaMa2의 Human Eval 점수를 차트에 넣고 Code Llama Instruct 70b와 비교하지 않는 것은 차트 범죄
    • DBRX는 Code Llama Instruct의 67.8을 크게 앞서지는 않지만 여전히 뛰어남
  • 새 GPU 구매 계획 및 VRAM 요구 사항:

    • 16GB VRAM GPU가 70GB 모델을 잘 실행할 수 있는지, 12GB VRAM GPU보다 눈에 띄게 더 잘 실행하는지에 대한 질문
    • Ollama는 로컬에서 잘 실행되며, mixtral(7B, 3.4GB)은 1080ti에서 잘 작동하지만, 24.6GB 버전은 약간 느리고 시작 시간이 눈에 띄게 걸림
  • 베이스 모델 승인에 대한 불만:

    • 베이스 모델에 대한 승인이 매우 개방적이지 않은 느낌
    • 많은 사람들이 다운로드 기회를 기다리고 있는 반면, instruct 모델은 즉시 승인됨
    • 베이스 모델은 파인튜닝에 더 흥미로움
  • 훈련 효율성 개선:

    • LLM 사전 훈련 파이프라인이 지난 10개월 동안 거의 4배 더 계산 효율적이 되었다는 내용
    • 훈련 비용이 매우 높기 때문에 이러한 개선은 환영할 만하며, 무어의 법칙을 따를 것으로 기대됨
  • 코딩 평가의 오염 가능성:

    • 훈련 데이터에 의해 코딩 평가가 오염될 수 있음
    • 이러한 점수 인플레이션을 피하기 위한 표준 방법에 대한 질문