# GPT-4o의 메모리 혁신 – 바늘 더미 속 바늘

> Clean Markdown view of GeekNews topic #14831. Use the original source for factual precision when an external source URL is present.

## Metadata

- GeekNews HTML: [https://news.hada.io/topic?id=14831](https://news.hada.io/topic?id=14831)
- GeekNews Markdown: [https://news.hada.io/topic/14831.md](https://news.hada.io/topic/14831.md)
- Type: GN+
- Author: [neo](https://news.hada.io/@neo)
- Published: 2024-05-15T15:34:22+09:00
- Updated: 2024-05-15T15:34:22+09:00
- Original source: [nian.llmonpy.ai](http://nian.llmonpy.ai/)
- Points: 4
- Comments: 2

## Topic Body

### Needle in a Needlestack: GPT-4o의 메모리 돌파구! (NIAN 코드) - Tom Burns

#### 새로운 벤치마크 소개

- **Needle in a Needlestack**는 LLMs(대형 언어 모델)가 컨텍스트 창에서 정보를 얼마나 잘 주의하는지를 측정하는 새로운 벤치마크임.
- NIAN은 수천 개의 리머릭을 포함하는 프롬프트를 생성하고, 특정 위치의 하나의 리머릭에 대한 질문을 함.
- 예시 프롬프트는 약 2500개의 리머릭을 포함함.
- 지금까지 어떤 LLM도 이 벤치마크에서 매우 좋은 성과를 내지 못했음.

#### GPT-4 Turbo와 Claude-3 Sonnet의 시도

- **GPT-4 Turbo**와 **Claude-3 Sonnet**의 시도:
    - gpt-4-turbo-2024-04-09
    - claude-3-sonnet

#### GPT-4o의 돌파구

- **GPT-4o**가 큰 돌파구를 이룸!
- 이 벤치마크에서 거의 완벽한 성과를 보임.
- OpenAI가 GPT-4 Turbo보다 GPT-4o를 훨씬 더 좋게 만든 방법을 언제 공개할지 궁금함.

#### Mistral 모델의 성능

- **Mistral**의 모델들은 사용하기 매우 좋음. API가 매우 빠르고 일관적임.
- 그러나 Mistral의 새로운 8x22 모델은 이 벤치마크에서 매우 어려움을 겪음.
    - 프롬프트의 시작 부분에서도 질문에 올바르게 답할 확률이 50%에 불과함.
    - Mistral large는 더 나은 성과를 보였지만, 여전히 70%의 정확도에 그침.
- 참고: OpenAI의 토크나이저를 사용하여 토큰 수를 추정함. Mistral은 약 25% 더 많은 토큰을 생성하는 다른 토크나이저를 사용하므로, 그래프의 토큰 수는 실제 토큰 수보다 낮음.
    - open-mixtral-8x22b
    - mistral-large-latest-2024-04-09

#### 짧은 프롬프트에서의 성능

- 모델들은 짧은 프롬프트에서 훨씬 더 나은 성과를 보임.
- 예시: Mistral 7b가 16k 토큰 프롬프트와 32k 토큰 프롬프트에서의 성능 비교.
    - open-mistral-7b 16k tokens
    - open-mistral-7b 32k tokens

#### 정보 반복의 중요성

- 정보를 반복하는 것이 이 테스트에서 큰 차이를 만듦.
- **GPT-3.5-turbo**는 프롬프트에서 질문하는 리머릭이 10번 반복될 때 성과가 극적으로 향상됨.
    - limerick used once
    - limerick used 10 times

#### 벤치마크 코드와 추가 정보

- 이 벤치마크의 코드는 [여기](https://github.com/your-repo-link)에서 확인 가능함.
- 추가 모델 지원을 쉽게 추가할 수 있음.
- 답변이 평가되고 질문이 검증되는 방법에 대한 자세한 내용은 [방법론 페이지](https://your-methodology-page-link)에서 확인 가능함.
- 질문이 있으면 [연락처](mailto:your-email@example.com)로 문의 바람.
- 이 사이트는 오픈 소스임. [이 페이지 개선](https://github.com/your-repo-link).

### GN⁺의 의견

- **기술적 진보**: GPT-4o의 성과는 LLM의 메모리와 주의력 향상에 큰 진전을 보여줌. 이는 더 복잡한 작업을 수행할 수 있는 가능성을 열어줌.
- **모델 선택**: 다양한 모델의 성능을 비교할 때, 특정 작업에 맞는 모델을 선택하는 것이 중요함. 예를 들어, 짧은 프롬프트에서 더 나은 성과를 보이는 모델을 선택하는 것이 유리할 수 있음.
- **반복 학습의 중요성**: 정보의 반복이 모델의 성능에 미치는 영향을 고려해야 함. 이는 데이터 준비와 프롬프트 설계에서 중요한 요소가 될 수 있음.
- **오픈 소스의 장점**: 이 벤치마크가 오픈 소스라는 점은 연구자와 개발자들이 자유롭게 접근하고 개선할 수 있는 기회를 제공함. 이는 커뮤니티의 발전에 기여할 수 있음.
- **미래 전망**: GPT-4o와 같은 모델의 발전은 AI의 다양한 응용 분야에서 혁신을 가져올 수 있음. 그러나 이러한 기술을 도입할 때는 윤리적 고려와 책임 있는 사용이 필요함.

## Comments


### Comment 25357

- Author: wedding
- Created: 2024-05-18T20:34:47+09:00
- Points: 1

기술 발전이 정말 어마무시합니다..ㅠ

### Comment 25263

- Author: neo
- Created: 2024-05-15T15:34:23+09:00
- Points: 1

###### [Hacker News 의견](https://news.ycombinator.com/item?id=40348947) 
##### 해커뉴스 댓글 모음 요약

* **법률 문서 비교에서의 오류**
  - 두 개의 작은 법률 문서를 비교할 때, GPT-4가 일부 항목이 한 문서에만 있다고 잘못 인식함. 실제로는 동일한 내용이었음.
  - 단일 샘플이지만, 90% 정확도는 의심스러움. 약 80k 토큰이었음.

* **Limericks 데이터셋 기반**
  - 2021년에 출판된 limericks 데이터셋을 기반으로 함. GPT-4o가 이 데이터셋으로 훈련되었을 가능성이 높음.
  - NIAN 팀이 다른 모델을 사용해 limericks를 생성하고 데이터셋에 포함되지 않았는지 확인해야 함.

* **Needle in the Haystack 테스트의 한계**
  - 이 테스트는 모델의 실제 긴 문맥 처리 능력을 제한적으로 보여줌. 초기 모델들이 이 테스트에서 성능이 나빴기 때문에 주로 사용됨.
  - 최근 모델들은 이 테스트에서 좋은 성능을 보이지만, 32K 토큰 이후에는 복잡한 작업 수행 능력이 크게 떨어짐.
  - RULER 테스트가 더 나은 평가 방법임.

* **Gemini Pro 1.5의 성능**
  - Gemini Pro 1.5가 Moby Dick 전체와 Byung Chul-Han의 모든 책을 처리할 수 있었음. 질문에 대한 답변을 정확히 찾아냄.

* **"Synthesis from Haystack" 테스트 필요성**
  - 단순한 검색이 아닌 깊이 있는 이해와 연결, 추상화를 테스트하는 방법이 필요함.
  - 사람은 책을 읽을 때 전체적인 직관을 가짐. 이를 정량화할 방법이 필요함.

* **GPT를 이용한 HTML 레이아웃 변환**
  - GPT를 사용해 동적 데이터를 아름다운 HTML 레이아웃으로 실시간 변환 가능. 개발 시간을 절약하고 데이터 구조 변경 시에도 HTML을 업데이트할 수 있음.
  - 이전 시도에서는 GPT-4 Turbo가 문맥과 지시를 무시하는 경우가 있었음.

* **GPT-4o의 향상된 주의력**
  - GPT-4o가 GPT-4 Turbo와 Claude-3 Sonnet에 비해 입력 창 전체에 걸쳐 주의력을 더 잘 발휘함.
  - "Needle In A Needlestack" 테스트가 좋은 다음 단계임. 수천 개의 limericks를 포함한 프롬프트에서 특정 위치의 limerick에 대한 질문을 포함함.

* **LLM 평가의 어려움**
  - 공공 인터넷에서 실제 LLM 평가를 제대로 하는 사람이 거의 없다는 의견.

* **훈련 데이터셋에 대한 의문**
  - GPT-4o가 이 데이터셋으로 훈련되지 않았다는 것을 어떻게 알 수 있는지에 대한 의문.
  - 테스트 데이터가 훈련 데이터에 포함되지 않았다는 것을 알아야 의미가 있음.