# Llama2가 요약에 있어 GPT-4만큼 정확하며 30배 더 저렴

> Clean Markdown view of GeekNews topic #10620. Use the original source for factual precision when an external source URL is present.

## Metadata

- GeekNews HTML: [https://news.hada.io/topic?id=10620](https://news.hada.io/topic?id=10620)
- GeekNews Markdown: [https://news.hada.io/topic/10620.md](https://news.hada.io/topic/10620.md)
- Type: news
- Author: [xguru](https://news.hada.io/@xguru)
- Published: 2023-08-30T11:08:02+09:00
- Updated: 2023-08-30T11:08:02+09:00
- Original source: [anyscale.com](https://www.anyscale.com/blog/llama-2-is-about-as-factually-accurate-as-gpt-4-for-summaries-and-is-30x-cheaper)
- Points: 12
- Comments: 5

## Topic Body

- 요약(Summarizing)은 LLM의 가장 실용적인 응용중 하나지만, 요약이 정확하다는 것을 신뢰할 수 있어야 함   
- 비용이나 데이터 접근성 이슈때문에 Llama2 와 같은 오픈소스 LLM을 사용하고 싶지만 정확성에 대한 확신이 서지 않음   
- 실험을 통해서 Llama-2-70b 가 gpt-4 만큼 사실성이 강하고, gpt-3.5-turbo 보다 훨씬 우수하다는 사실을 발견했음   
- Anyscale Endpoint 를 이용해서 Llama 2 7b/13b/70b 와 gpt-3.5/4 를 비교   
  - 3자 검층을 거친 373개의 뉴스 보도 문장을 라벨링 하여 각각 정답과 오답을 하나씩 제시   
  - 각 LLM들이 어떤 진술이 사실에 근거한 정확한 요약인지 선택하게 함   
- 문제 2가지   
  - 작은 모델이 지시를 잘 따르지 않음. 더 큰 모델이 지침을 더 잘 따름. 그래서 다른 LLM을 이용하여 작은 LLM의 출력을 이해하도록 해야 했음   
  - 순서 편향. 첫번째로 뭘 제시하는 가에 따라 선택이 달라짐. 그래서 순서를 바꿔서도 확인   
- 결과   
  - 사람 : 84% (이전 연구 기준)  
  - gpt-3.5-turbo: 67.0% 정답 (순서 편향 이슈가 심함)  
  - gpt-4: 85.5% 정답   
  - Llama-2-7b: 엄청 심한 순서 편향 이슈. 랜덤 정확도 아래임   
  - Llama-2-13b: 58.9% 정답  
  - Llama-2-70b: 81.7%  
- 비용 (100K 단어 요약하는데)  
  - gpt-4 : $5.48   
  - gpt-3.5-turbo : $0.25   
  - Llama-2-7b : $0.05   
  - Llama-2-13b : $0.09  
  - Llama-2-70b : $0.19

## Comments


### Comment 18742

- Author: mhj5730
- Created: 2023-08-30T13:49:44+09:00
- Points: 1

GPT4 비용이 다른 GPT에 비해 압도적이긴 하네요...

### Comment 18743

- Author: xguru
- Created: 2023-08-30T13:53:32+09:00
- Points: 1
- Parent comment: 18742
- Depth: 1

아무 생각없이 썼더니.. 월 $120 쿼타 초과해서 증량 신청했네요.   
현재는 확실히 비싸긴 합니다. 얼른 가격이 GPT-3.5 수준으로 떨어지면 좋겠어요 ㅎㅎ

### Comment 18737

- Author: kuroneko
- Created: 2023-08-30T11:26:42+09:00
- Points: 1

저는 요약에는 항상 [Kagi의 Universal Summarizer](https://kagi.com/summarizer/index.html)를 이용하긴 합니다.  
ChatGPT보다 간편하다는 생각도 들고, 토큰도 무제한이라...  
  
근데 한국어가 그냥 결과를 번역해 주는 거라 확실히 GPT 3.5에 비해서도 한국어는 좀 떨어지긴 하더라고요.  
유료로만 쓸 수 있는 엔터프라이즈급 모델이 더 나은 것 같긴 한데, 요약당 1달러였나 그래서 개인 용도로 쓰기엔 부담되더라고요.

### Comment 18735

- Author: ragingwind
- Created: 2023-08-30T11:13:25+09:00
- Points: 1

LLM 에서 요약 기능이 중요 선택 요소인건 확실한거 같아요.

### Comment 18734

- Author: xguru
- Created: 2023-08-30T11:09:01+09:00
- Points: 3

문제는.. 이 실험은 LLM이 요약한게 아니고 요약된 것을 판단한 것이라..   
써보면 GPT-4 가 요약 성능은 확실히 훌륭하더라고요. 한국어 번역도 문제고요.  
GN⁺ 비용때문에 혹했는데.. 아직은 그냥 gpt-4 를 써야할듯 하네요.