GN⁺: GPT-4o의 메모리 혁신 – 바늘 더미 속 바늘
(nian.llmonpy.ai)Needle in a Needlestack: GPT-4o의 메모리 돌파구! (NIAN 코드) - Tom Burns
새로운 벤치마크 소개
- Needle in a Needlestack는 LLMs(대형 언어 모델)가 컨텍스트 창에서 정보를 얼마나 잘 주의하는지를 측정하는 새로운 벤치마크임.
- NIAN은 수천 개의 리머릭을 포함하는 프롬프트를 생성하고, 특정 위치의 하나의 리머릭에 대한 질문을 함.
- 예시 프롬프트는 약 2500개의 리머릭을 포함함.
- 지금까지 어떤 LLM도 이 벤치마크에서 매우 좋은 성과를 내지 못했음.
GPT-4 Turbo와 Claude-3 Sonnet의 시도
-
GPT-4 Turbo와 Claude-3 Sonnet의 시도:
- gpt-4-turbo-2024-04-09
- claude-3-sonnet
GPT-4o의 돌파구
- GPT-4o가 큰 돌파구를 이룸!
- 이 벤치마크에서 거의 완벽한 성과를 보임.
- OpenAI가 GPT-4 Turbo보다 GPT-4o를 훨씬 더 좋게 만든 방법을 언제 공개할지 궁금함.
Mistral 모델의 성능
- Mistral의 모델들은 사용하기 매우 좋음. API가 매우 빠르고 일관적임.
- 그러나 Mistral의 새로운 8x22 모델은 이 벤치마크에서 매우 어려움을 겪음.
- 프롬프트의 시작 부분에서도 질문에 올바르게 답할 확률이 50%에 불과함.
- Mistral large는 더 나은 성과를 보였지만, 여전히 70%의 정확도에 그침.
- 참고: OpenAI의 토크나이저를 사용하여 토큰 수를 추정함. Mistral은 약 25% 더 많은 토큰을 생성하는 다른 토크나이저를 사용하므로, 그래프의 토큰 수는 실제 토큰 수보다 낮음.
- open-mixtral-8x22b
- mistral-large-latest-2024-04-09
짧은 프롬프트에서의 성능
- 모델들은 짧은 프롬프트에서 훨씬 더 나은 성과를 보임.
- 예시: Mistral 7b가 16k 토큰 프롬프트와 32k 토큰 프롬프트에서의 성능 비교.
- open-mistral-7b 16k tokens
- open-mistral-7b 32k tokens
정보 반복의 중요성
- 정보를 반복하는 것이 이 테스트에서 큰 차이를 만듦.
-
GPT-3.5-turbo는 프롬프트에서 질문하는 리머릭이 10번 반복될 때 성과가 극적으로 향상됨.
- limerick used once
- limerick used 10 times
벤치마크 코드와 추가 정보
- 이 벤치마크의 코드는 여기에서 확인 가능함.
- 추가 모델 지원을 쉽게 추가할 수 있음.
- 답변이 평가되고 질문이 검증되는 방법에 대한 자세한 내용은 방법론 페이지에서 확인 가능함.
- 질문이 있으면 연락처로 문의 바람.
- 이 사이트는 오픈 소스임. 이 페이지 개선.
GN⁺의 의견
- 기술적 진보: GPT-4o의 성과는 LLM의 메모리와 주의력 향상에 큰 진전을 보여줌. 이는 더 복잡한 작업을 수행할 수 있는 가능성을 열어줌.
- 모델 선택: 다양한 모델의 성능을 비교할 때, 특정 작업에 맞는 모델을 선택하는 것이 중요함. 예를 들어, 짧은 프롬프트에서 더 나은 성과를 보이는 모델을 선택하는 것이 유리할 수 있음.
- 반복 학습의 중요성: 정보의 반복이 모델의 성능에 미치는 영향을 고려해야 함. 이는 데이터 준비와 프롬프트 설계에서 중요한 요소가 될 수 있음.
- 오픈 소스의 장점: 이 벤치마크가 오픈 소스라는 점은 연구자와 개발자들이 자유롭게 접근하고 개선할 수 있는 기회를 제공함. 이는 커뮤니티의 발전에 기여할 수 있음.
- 미래 전망: GPT-4o와 같은 모델의 발전은 AI의 다양한 응용 분야에서 혁신을 가져올 수 있음. 그러나 이러한 기술을 도입할 때는 윤리적 고려와 책임 있는 사용이 필요함.
Hacker News 의견
해커뉴스 댓글 모음 요약
-
법률 문서 비교에서의 오류
- 두 개의 작은 법률 문서를 비교할 때, GPT-4가 일부 항목이 한 문서에만 있다고 잘못 인식함. 실제로는 동일한 내용이었음.
- 단일 샘플이지만, 90% 정확도는 의심스러움. 약 80k 토큰이었음.
-
Limericks 데이터셋 기반
- 2021년에 출판된 limericks 데이터셋을 기반으로 함. GPT-4o가 이 데이터셋으로 훈련되었을 가능성이 높음.
- NIAN 팀이 다른 모델을 사용해 limericks를 생성하고 데이터셋에 포함되지 않았는지 확인해야 함.
-
Needle in the Haystack 테스트의 한계
- 이 테스트는 모델의 실제 긴 문맥 처리 능력을 제한적으로 보여줌. 초기 모델들이 이 테스트에서 성능이 나빴기 때문에 주로 사용됨.
- 최근 모델들은 이 테스트에서 좋은 성능을 보이지만, 32K 토큰 이후에는 복잡한 작업 수행 능력이 크게 떨어짐.
- RULER 테스트가 더 나은 평가 방법임.
-
Gemini Pro 1.5의 성능
- Gemini Pro 1.5가 Moby Dick 전체와 Byung Chul-Han의 모든 책을 처리할 수 있었음. 질문에 대한 답변을 정확히 찾아냄.
-
"Synthesis from Haystack" 테스트 필요성
- 단순한 검색이 아닌 깊이 있는 이해와 연결, 추상화를 테스트하는 방법이 필요함.
- 사람은 책을 읽을 때 전체적인 직관을 가짐. 이를 정량화할 방법이 필요함.
-
GPT를 이용한 HTML 레이아웃 변환
- GPT를 사용해 동적 데이터를 아름다운 HTML 레이아웃으로 실시간 변환 가능. 개발 시간을 절약하고 데이터 구조 변경 시에도 HTML을 업데이트할 수 있음.
- 이전 시도에서는 GPT-4 Turbo가 문맥과 지시를 무시하는 경우가 있었음.
-
GPT-4o의 향상된 주의력
- GPT-4o가 GPT-4 Turbo와 Claude-3 Sonnet에 비해 입력 창 전체에 걸쳐 주의력을 더 잘 발휘함.
- "Needle In A Needlestack" 테스트가 좋은 다음 단계임. 수천 개의 limericks를 포함한 프롬프트에서 특정 위치의 limerick에 대한 질문을 포함함.
-
LLM 평가의 어려움
- 공공 인터넷에서 실제 LLM 평가를 제대로 하는 사람이 거의 없다는 의견.
-
훈련 데이터셋에 대한 의문
- GPT-4o가 이 데이터셋으로 훈련되지 않았다는 것을 어떻게 알 수 있는지에 대한 의문.
- 테스트 데이터가 훈련 데이터에 포함되지 않았다는 것을 알아야 의미가 있음.