10P by xguru 4달전 | favorite | 댓글 3개
  • 128K 컨텍스트 길이, 8개 언어를 지원하며, 405B 모델을 추가(8B, 70B, 405B)
    • 누구나 파인튜닝, 정제하고 어디에나 배포할 수 있는 오픈소스 인스트럭션-튠드 AI 모델
  • 새로 공개된 405B 모델은 MMLU(일반), Human Eval(코딩), GSM8K(수학) 벤치등에서 GPT-4o와 거의 비슷하거나 나은 수준을 달성
    • 유연성과 제어력에서 최고 수준의 AI 모델
    • 커뮤니티가 합성 데이터 생성 및 모델 증류와 같은 새로운 워크플로우를 활용할 수 있게 해줌
    • 15조 개 이상의 토큰을 사용하여 훈련되었으며, 16000개 이상의 H100 GPU 사용
  • 업그레이드 된 70B 모델은 대부분의 벤치에서 GPT-3.5 Turbo를 훨씬 뛰어넘음

와 405B는 올리려면 GPU를 어떻게 구성해야 하나 싶네요

405B는 직접 파인튜닝이나 서빙 용도는 아닌것 같습니다. ceo가 distillation을 여러번 언급한것을 보니 teacher모델로 경량모델들의 품질을 높이는 파인튜닝 용도가 아닐까 합니다.

Hacker News 의견

  • Llama 3.1 모델들이 성능을 개선했음

    • 8B와 70B 모델이 Llama 3보다 성능이 향상됨
    • 405B 모델은 GPT-4o, GPT-4 turbo, Claude 3.5 Sonnet, Claude 3 Opus와 경쟁할 수 있는 수준임
  • GPT-4o와 Llama 3.1 405B 모델 비교

    • MMLU: GPT-4o 88.7, Llama 3.1 405B 88.6
    • GPQA: GPT-4o 53.6, Llama 3.1 405B 51.1
    • MATH: GPT-4o 76.6, Llama 3.1 405B 73.8
    • HumanEval: GPT-4o 90.2, Llama 3.1 405B 89.0
    • MGSM: GPT-4o 90.5, Llama 3.1 405B 91.6
  • Groq.com에서 초저지연으로 새로운 모델들과 대화 가능함

    • 8B와 70B API 접근 가능
    • 405B API는 선택된 고객만 접근 가능
  • 적절한 하드웨어를 사용하면 집에서도 GPT-4o와 경쟁할 수 있는 LLM을 실행할 수 있음

  • Ollama, Huggingface, Groq 등에서 로컬로 모델 실행 가능함

    • LLMStack을 사용하여 로컬에서 모델을 테스트하거나 애플리케이션을 빠르게 구축할 수 있음
  • Ollama에서 70B 버전을 실행해본 결과 매우 좋았음

    • 가이드라인과 디스클레이머를 끄는 명령어를 실행할 수 있었음
    • 엔지니어의 잠재적 편향을 줄이는 명령어 목록을 제공받음
  • Claude 3.5 Sonnet이 코딩 작업에 매우 좋음

    • 아티팩트 기능과 함께 코딩 벤치마크에서 여전히 최고임
  • 오픈 소스 모델의 가격 정보 문의

    • 자체 호스팅에 매우 흥미롭지만, 토큰당 호스팅 추론 가격이 OpenAI와 Anthropic에 비해 경쟁력이 떨어짐
    • 예: Llama 3 70B는 다양한 플랫폼에서 백만 토큰당 $1에서 $10 사이, Claude Sonnet 3.5는 백만 토큰당 $3