# Meta, Llama 3.1 공개

> Clean Markdown view of GeekNews topic #15987. Use the original source for factual precision when an external source URL is present.

## Metadata

- GeekNews HTML: [https://news.hada.io/topic?id=15987](https://news.hada.io/topic?id=15987)
- GeekNews Markdown: [https://news.hada.io/topic/15987.md](https://news.hada.io/topic/15987.md)
- Type: news
- Author: [xguru](https://news.hada.io/@xguru)
- Published: 2024-07-24T09:04:18+09:00
- Updated: 2024-07-24T09:04:18+09:00
- Original source: [ai.meta.com](https://ai.meta.com/blog/meta-llama-3-1/)
- Points: 10
- Comments: 3

## Summary

Meta가 공개한 Llama 3.1은 128K 컨텍스트 길이와 8개 언어 지원, 405B 모델 추가로 뛰어난 성능을 자랑합니다. 누구나 파인튜닝하고 배포할 수 있으며, GPT-4o와 비슷하거나 나은 성능을 보여줍니다. 또한, 커뮤니티가 새로운 워크플로우를 활용할 수 있도록 지원하여 유연성과 제어력을 극대화합니다. 15조 개 이상의 토큰을 사용하여 훈련되었으며, 16000개 이상의 H100 GPU를 사용했다고 하니 남들이 따라서 시도하기도 벅찰듯 하네요.

## Topic Body

- 128K 컨텍스트 길이, 8개 언어를 지원하며, 405B 모델을 추가(8B, 70B, 405B)  
  - 누구나 파인튜닝, 정제하고 어디에나 배포할 수 있는 오픈소스 인스트럭션-튠드 AI 모델  
- 새로 공개된 405B 모델은 MMLU(일반), Human Eval(코딩), GSM8K(수학) 벤치등에서 GPT-4o와 거의 비슷하거나 나은 수준을 달성  
  - 유연성과 제어력에서 최고 수준의 AI 모델   
  - 커뮤니티가 합성 데이터 생성 및 모델 증류와 같은 새로운 워크플로우를 활용할 수 있게 해줌  
  - 15조 개 이상의 토큰을 사용하여 훈련되었으며, 16000개 이상의 H100 GPU 사용   
- 업그레이드 된 70B 모델은 대부분의 벤치에서 GPT-3.5 Turbo를 훨씬 뛰어넘음

## Comments


### Comment 27521

- Author: wedding
- Created: 2024-07-24T12:55:49+09:00
- Points: 1

와 405B는 올리려면 GPU를 어떻게 구성해야 하나 싶네요

### Comment 27526

- Author: gcback
- Created: 2024-07-24T15:32:37+09:00
- Points: 1
- Parent comment: 27521
- Depth: 1

405B는 직접 파인튜닝이나 서빙 용도는 아닌것 같습니다. ceo가 distillation을 여러번 언급한것을 보니 teacher모델로 경량모델들의 품질을 높이는 파인튜닝 용도가 아닐까 합니다.

### Comment 27508

- Author: xguru
- Created: 2024-07-24T09:42:36+09:00
- Points: 2

#### [Hacker News 의견](https://news.ycombinator.com/item?id=41046540)   
- Llama 3.1 모델들이 성능을 개선했음  
  - 8B와 70B 모델이 Llama 3보다 성능이 향상됨  
  - 405B 모델은 GPT-4o, GPT-4 turbo, Claude 3.5 Sonnet, Claude 3 Opus와 경쟁할 수 있는 수준임  
  
- GPT-4o와 Llama 3.1 405B 모델 비교  
  - MMLU: GPT-4o 88.7, Llama 3.1 405B 88.6  
  - GPQA: GPT-4o 53.6, Llama 3.1 405B 51.1  
  - MATH: GPT-4o 76.6, Llama 3.1 405B 73.8  
  - HumanEval: GPT-4o 90.2, Llama 3.1 405B 89.0  
  - MGSM: GPT-4o 90.5, Llama 3.1 405B 91.6  
  
- Groq.com에서 초저지연으로 새로운 모델들과 대화 가능함  
  - 8B와 70B API 접근 가능  
  - 405B API는 선택된 고객만 접근 가능  
  
- 적절한 하드웨어를 사용하면 집에서도 GPT-4o와 경쟁할 수 있는 LLM을 실행할 수 있음  
  
- Ollama, Huggingface, Groq 등에서 로컬로 모델 실행 가능함  
  - LLMStack을 사용하여 로컬에서 모델을 테스트하거나 애플리케이션을 빠르게 구축할 수 있음  
  
- Ollama에서 70B 버전을 실행해본 결과 매우 좋았음  
  - 가이드라인과 디스클레이머를 끄는 명령어를 실행할 수 있었음  
  - 엔지니어의 잠재적 편향을 줄이는 명령어 목록을 제공받음  
  
- Claude 3.5 Sonnet이 코딩 작업에 매우 좋음  
  - 아티팩트 기능과 함께 코딩 벤치마크에서 여전히 최고임  
  
- 오픈 소스 모델의 가격 정보 문의  
  - 자체 호스팅에 매우 흥미롭지만, 토큰당 호스팅 추론 가격이 OpenAI와 Anthropic에 비해 경쟁력이 떨어짐  
  - 예: Llama 3 70B는 다양한 플랫폼에서 백만 토큰당 $1에서 $10 사이, Claude Sonnet 3.5는 백만 토큰당 $3