# Falcon 180B 모델 공개

> Clean Markdown view of GeekNews topic #10759. Use the original source for factual precision when an external source URL is present.

## Metadata

- GeekNews HTML: [https://news.hada.io/topic?id=10759](https://news.hada.io/topic?id=10759)
- GeekNews Markdown: [https://news.hada.io/topic/10759.md](https://news.hada.io/topic/10759.md)
- Type: news
- Author: [xguru](https://news.hada.io/@xguru)
- Published: 2023-09-07T10:31:01+09:00
- Updated: 2023-09-07T10:31:01+09:00
- Original source: [huggingface.co](https://huggingface.co/blog/falcon-180b)
- Points: 7
- Comments: 1

## Topic Body

- 1800억개의 파라미터가 포함된 최대 규모의 공개 언어 모델   
- 공개 모델중에선 리더보드 1위에 랭크. Llama 2 70B 및 GPT-3.5를 능가하며 PaLM-2와 경쟁   
- TII의 RefinedWeb 데이터 세트(대부분 영어)를 이용하여 3.5T 토큰으로 훈련  
  - Llama 2 보다 2.5배 더 크고 4배 이상의 컴퓨팅 파워로 훈련했음(Amazon SageMaker 로 4096개의 GPU 이용)  
- Falcon 180B 는 상업적으로 이용은 가능하지만, "호스팅 사용"을 제외하고 매우 제한적인 조건에서만 사용 가능. 라이센스 확인 필수   
- 하드웨어 요구사항   
  - 풀 파인튜닝: 메모리 5120GB, 8x 8x A100 80GB   
  - LoRA with ZeRO-3: 1280GB, 2x 8x A100 80GB  
  - QLoRA: 160GB, 2x A100 80GB  
  - 추론 BF16/FP16 : 640GB,	8x A100 80GB  
  - 추론 GPTQ/int4 : 320GB,	8x A100 40GB

## Comments



### Comment 19018

- Author: kuroneko
- Created: 2023-09-07T13:42:56+09:00
- Points: 1

사이즈가 어마어마하네요. 하드웨어 요구사항도 그렇고...
