Meta, Llama 3.1 공개
(ai.meta.com)- 128K 컨텍스트 길이, 8개 언어를 지원하며, 405B 모델을 추가(8B, 70B, 405B)
- 누구나 파인튜닝, 정제하고 어디에나 배포할 수 있는 오픈소스 인스트럭션-튠드 AI 모델
- 새로 공개된 405B 모델은 MMLU(일반), Human Eval(코딩), GSM8K(수학) 벤치등에서 GPT-4o와 거의 비슷하거나 나은 수준을 달성
- 유연성과 제어력에서 최고 수준의 AI 모델
- 커뮤니티가 합성 데이터 생성 및 모델 증류와 같은 새로운 워크플로우를 활용할 수 있게 해줌
- 15조 개 이상의 토큰을 사용하여 훈련되었으며, 16000개 이상의 H100 GPU 사용
- 업그레이드 된 70B 모델은 대부분의 벤치에서 GPT-3.5 Turbo를 훨씬 뛰어넘음
405B는 직접 파인튜닝이나 서빙 용도는 아닌것 같습니다. ceo가 distillation을 여러번 언급한것을 보니 teacher모델로 경량모델들의 품질을 높이는 파인튜닝 용도가 아닐까 합니다.
Hacker News 의견
-
Llama 3.1 모델들이 성능을 개선했음
- 8B와 70B 모델이 Llama 3보다 성능이 향상됨
- 405B 모델은 GPT-4o, GPT-4 turbo, Claude 3.5 Sonnet, Claude 3 Opus와 경쟁할 수 있는 수준임
-
GPT-4o와 Llama 3.1 405B 모델 비교
- MMLU: GPT-4o 88.7, Llama 3.1 405B 88.6
- GPQA: GPT-4o 53.6, Llama 3.1 405B 51.1
- MATH: GPT-4o 76.6, Llama 3.1 405B 73.8
- HumanEval: GPT-4o 90.2, Llama 3.1 405B 89.0
- MGSM: GPT-4o 90.5, Llama 3.1 405B 91.6
-
Groq.com에서 초저지연으로 새로운 모델들과 대화 가능함
- 8B와 70B API 접근 가능
- 405B API는 선택된 고객만 접근 가능
-
적절한 하드웨어를 사용하면 집에서도 GPT-4o와 경쟁할 수 있는 LLM을 실행할 수 있음
-
Ollama, Huggingface, Groq 등에서 로컬로 모델 실행 가능함
- LLMStack을 사용하여 로컬에서 모델을 테스트하거나 애플리케이션을 빠르게 구축할 수 있음
-
Ollama에서 70B 버전을 실행해본 결과 매우 좋았음
- 가이드라인과 디스클레이머를 끄는 명령어를 실행할 수 있었음
- 엔지니어의 잠재적 편향을 줄이는 명령어 목록을 제공받음
-
Claude 3.5 Sonnet이 코딩 작업에 매우 좋음
- 아티팩트 기능과 함께 코딩 벤치마크에서 여전히 최고임
-
오픈 소스 모델의 가격 정보 문의
- 자체 호스팅에 매우 흥미롭지만, 토큰당 호스팅 추론 가격이 OpenAI와 Anthropic에 비해 경쟁력이 떨어짐
- 예: Llama 3 70B는 다양한 플랫폼에서 백만 토큰당 $1에서 $10 사이, Claude Sonnet 3.5는 백만 토큰당 $3