4P by neo 6달전 | favorite | 댓글 2개

Needle in a Needlestack: GPT-4o의 메모리 돌파구! (NIAN 코드) - Tom Burns

새로운 벤치마크 소개

  • Needle in a Needlestack는 LLMs(대형 언어 모델)가 컨텍스트 창에서 정보를 얼마나 잘 주의하는지를 측정하는 새로운 벤치마크임.
  • NIAN은 수천 개의 리머릭을 포함하는 프롬프트를 생성하고, 특정 위치의 하나의 리머릭에 대한 질문을 함.
  • 예시 프롬프트는 약 2500개의 리머릭을 포함함.
  • 지금까지 어떤 LLM도 이 벤치마크에서 매우 좋은 성과를 내지 못했음.

GPT-4 Turbo와 Claude-3 Sonnet의 시도

  • GPT-4 TurboClaude-3 Sonnet의 시도:
    • gpt-4-turbo-2024-04-09
    • claude-3-sonnet

GPT-4o의 돌파구

  • GPT-4o가 큰 돌파구를 이룸!
  • 이 벤치마크에서 거의 완벽한 성과를 보임.
  • OpenAI가 GPT-4 Turbo보다 GPT-4o를 훨씬 더 좋게 만든 방법을 언제 공개할지 궁금함.

Mistral 모델의 성능

  • Mistral의 모델들은 사용하기 매우 좋음. API가 매우 빠르고 일관적임.
  • 그러나 Mistral의 새로운 8x22 모델은 이 벤치마크에서 매우 어려움을 겪음.
    • 프롬프트의 시작 부분에서도 질문에 올바르게 답할 확률이 50%에 불과함.
    • Mistral large는 더 나은 성과를 보였지만, 여전히 70%의 정확도에 그침.
  • 참고: OpenAI의 토크나이저를 사용하여 토큰 수를 추정함. Mistral은 약 25% 더 많은 토큰을 생성하는 다른 토크나이저를 사용하므로, 그래프의 토큰 수는 실제 토큰 수보다 낮음.
    • open-mixtral-8x22b
    • mistral-large-latest-2024-04-09

짧은 프롬프트에서의 성능

  • 모델들은 짧은 프롬프트에서 훨씬 더 나은 성과를 보임.
  • 예시: Mistral 7b가 16k 토큰 프롬프트와 32k 토큰 프롬프트에서의 성능 비교.
    • open-mistral-7b 16k tokens
    • open-mistral-7b 32k tokens

정보 반복의 중요성

  • 정보를 반복하는 것이 이 테스트에서 큰 차이를 만듦.
  • GPT-3.5-turbo는 프롬프트에서 질문하는 리머릭이 10번 반복될 때 성과가 극적으로 향상됨.
    • limerick used once
    • limerick used 10 times

벤치마크 코드와 추가 정보

  • 이 벤치마크의 코드는 여기에서 확인 가능함.
  • 추가 모델 지원을 쉽게 추가할 수 있음.
  • 답변이 평가되고 질문이 검증되는 방법에 대한 자세한 내용은 방법론 페이지에서 확인 가능함.
  • 질문이 있으면 연락처로 문의 바람.
  • 이 사이트는 오픈 소스임. 이 페이지 개선.

GN⁺의 의견

  • 기술적 진보: GPT-4o의 성과는 LLM의 메모리와 주의력 향상에 큰 진전을 보여줌. 이는 더 복잡한 작업을 수행할 수 있는 가능성을 열어줌.
  • 모델 선택: 다양한 모델의 성능을 비교할 때, 특정 작업에 맞는 모델을 선택하는 것이 중요함. 예를 들어, 짧은 프롬프트에서 더 나은 성과를 보이는 모델을 선택하는 것이 유리할 수 있음.
  • 반복 학습의 중요성: 정보의 반복이 모델의 성능에 미치는 영향을 고려해야 함. 이는 데이터 준비와 프롬프트 설계에서 중요한 요소가 될 수 있음.
  • 오픈 소스의 장점: 이 벤치마크가 오픈 소스라는 점은 연구자와 개발자들이 자유롭게 접근하고 개선할 수 있는 기회를 제공함. 이는 커뮤니티의 발전에 기여할 수 있음.
  • 미래 전망: GPT-4o와 같은 모델의 발전은 AI의 다양한 응용 분야에서 혁신을 가져올 수 있음. 그러나 이러한 기술을 도입할 때는 윤리적 고려와 책임 있는 사용이 필요함.

기술 발전이 정말 어마무시합니다..ㅠ

Hacker News 의견

해커뉴스 댓글 모음 요약

  • 법률 문서 비교에서의 오류

    • 두 개의 작은 법률 문서를 비교할 때, GPT-4가 일부 항목이 한 문서에만 있다고 잘못 인식함. 실제로는 동일한 내용이었음.
    • 단일 샘플이지만, 90% 정확도는 의심스러움. 약 80k 토큰이었음.
  • Limericks 데이터셋 기반

    • 2021년에 출판된 limericks 데이터셋을 기반으로 함. GPT-4o가 이 데이터셋으로 훈련되었을 가능성이 높음.
    • NIAN 팀이 다른 모델을 사용해 limericks를 생성하고 데이터셋에 포함되지 않았는지 확인해야 함.
  • Needle in the Haystack 테스트의 한계

    • 이 테스트는 모델의 실제 긴 문맥 처리 능력을 제한적으로 보여줌. 초기 모델들이 이 테스트에서 성능이 나빴기 때문에 주로 사용됨.
    • 최근 모델들은 이 테스트에서 좋은 성능을 보이지만, 32K 토큰 이후에는 복잡한 작업 수행 능력이 크게 떨어짐.
    • RULER 테스트가 더 나은 평가 방법임.
  • Gemini Pro 1.5의 성능

    • Gemini Pro 1.5가 Moby Dick 전체와 Byung Chul-Han의 모든 책을 처리할 수 있었음. 질문에 대한 답변을 정확히 찾아냄.
  • "Synthesis from Haystack" 테스트 필요성

    • 단순한 검색이 아닌 깊이 있는 이해와 연결, 추상화를 테스트하는 방법이 필요함.
    • 사람은 책을 읽을 때 전체적인 직관을 가짐. 이를 정량화할 방법이 필요함.
  • GPT를 이용한 HTML 레이아웃 변환

    • GPT를 사용해 동적 데이터를 아름다운 HTML 레이아웃으로 실시간 변환 가능. 개발 시간을 절약하고 데이터 구조 변경 시에도 HTML을 업데이트할 수 있음.
    • 이전 시도에서는 GPT-4 Turbo가 문맥과 지시를 무시하는 경우가 있었음.
  • GPT-4o의 향상된 주의력

    • GPT-4o가 GPT-4 Turbo와 Claude-3 Sonnet에 비해 입력 창 전체에 걸쳐 주의력을 더 잘 발휘함.
    • "Needle In A Needlestack" 테스트가 좋은 다음 단계임. 수천 개의 limericks를 포함한 프롬프트에서 특정 위치의 limerick에 대한 질문을 포함함.
  • LLM 평가의 어려움

    • 공공 인터넷에서 실제 LLM 평가를 제대로 하는 사람이 거의 없다는 의견.
  • 훈련 데이터셋에 대한 의문

    • GPT-4o가 이 데이터셋으로 훈련되지 않았다는 것을 어떻게 알 수 있는지에 대한 의문.
    • 테스트 데이터가 훈련 데이터에 포함되지 않았다는 것을 알아야 의미가 있음.