Meta, Llama 3.1 공개
(ai.meta.com)- 128K 컨텍스트 길이, 8개 언어를 지원하며, 405B 모델을 추가(8B, 70B, 405B)
- 누구나 파인튜닝, 정제하고 어디에나 배포할 수 있는 오픈소스 인스트럭션-튠드 AI 모델
- 새로 공개된 405B 모델은 MMLU(일반), Human Eval(코딩), GSM8K(수학) 벤치등에서 GPT-4o와 거의 비슷하거나 나은 수준을 달성
- 유연성과 제어력에서 최고 수준의 AI 모델
- 커뮤니티가 합성 데이터 생성 및 모델 증류와 같은 새로운 워크플로우를 활용할 수 있게 해줌
- 15조 개 이상의 토큰을 사용하여 훈련되었으며, 16000개 이상의 H100 GPU 사용
- 업그레이드 된 70B 모델은 대부분의 벤치에서 GPT-3.5 Turbo를 훨씬 뛰어넘음
GeekNews Weekly에 포함된 글입니다.
에디터 코멘트 보기
댓글과 토론
405B는 직접 파인튜닝이나 서빙 용도는 아닌것 같습니다. ceo가 distillation을 여러번 언급한것을 보니 teacher모델로 경량모델들의 품질을 높이는 파인튜닝 용도가 아닐까 합니다.
Hacker News 의견
-
Llama 3.1 모델들이 성능을 개선했음
- 8B와 70B 모델이 Llama 3보다 성능이 향상됨
- 405B 모델은 GPT-4o, GPT-4 turbo, Claude 3.5 Sonnet, Claude 3 Opus와 경쟁할 수 있는 수준임
-
GPT-4o와 Llama 3.1 405B 모델 비교
- MMLU: GPT-4o 88.7, Llama 3.1 405B 88.6
- GPQA: GPT-4o 53.6, Llama 3.1 405B 51.1
- MATH: GPT-4o 76.6, Llama 3.1 405B 73.8
- HumanEval: GPT-4o 90.2, Llama 3.1 405B 89.0
- MGSM: GPT-4o 90.5, Llama 3.1 405B 91.6
-
Groq.com에서 초저지연으로 새로운 모델들과 대화 가능함
- 8B와 70B API 접근 가능
- 405B API는 선택된 고객만 접근 가능
-
적절한 하드웨어를 사용하면 집에서도 GPT-4o와 경쟁할 수 있는 LLM을 실행할 수 있음
-
Ollama, Huggingface, Groq 등에서 로컬로 모델 실행 가능함
- LLMStack을 사용하여 로컬에서 모델을 테스트하거나 애플리케이션을 빠르게 구축할 수 있음
-
Ollama에서 70B 버전을 실행해본 결과 매우 좋았음
- 가이드라인과 디스클레이머를 끄는 명령어를 실행할 수 있었음
- 엔지니어의 잠재적 편향을 줄이는 명령어 목록을 제공받음
-
Claude 3.5 Sonnet이 코딩 작업에 매우 좋음
- 아티팩트 기능과 함께 코딩 벤치마크에서 여전히 최고임
-
오픈 소스 모델의 가격 정보 문의
- 자체 호스팅에 매우 흥미롭지만, 토큰당 호스팅 추론 가격이 OpenAI와 Anthropic에 비해 경쟁력이 떨어짐
- 예: Llama 3 70B는 다양한 플랫폼에서 백만 토큰당 $1에서 $10 사이, Claude Sonnet 3.5는 백만 토큰당 $3