GPT-4o의 메모리 혁신 – 바늘 더미 속 바늘

▲

GN⁺ 2024-05-15 | parent | ★ favorite | on: GPT-4o의 메모리 혁신 – 바늘 더미 속 바늘(nian.llmonpy.ai)

Hacker News 의견

해커뉴스 댓글 모음 요약

법률 문서 비교에서의 오류
- 두 개의 작은 법률 문서를 비교할 때, GPT-4가 일부 항목이 한 문서에만 있다고 잘못 인식함. 실제로는 동일한 내용이었음.
- 단일 샘플이지만, 90% 정확도는 의심스러움. 약 80k 토큰이었음.
Limericks 데이터셋 기반
- 2021년에 출판된 limericks 데이터셋을 기반으로 함. GPT-4o가 이 데이터셋으로 훈련되었을 가능성이 높음.
- NIAN 팀이 다른 모델을 사용해 limericks를 생성하고 데이터셋에 포함되지 않았는지 확인해야 함.
Needle in the Haystack 테스트의 한계
- 이 테스트는 모델의 실제 긴 문맥 처리 능력을 제한적으로 보여줌. 초기 모델들이 이 테스트에서 성능이 나빴기 때문에 주로 사용됨.
- 최근 모델들은 이 테스트에서 좋은 성능을 보이지만, 32K 토큰 이후에는 복잡한 작업 수행 능력이 크게 떨어짐.
- RULER 테스트가 더 나은 평가 방법임.
Gemini Pro 1.5의 성능
- Gemini Pro 1.5가 Moby Dick 전체와 Byung Chul-Han의 모든 책을 처리할 수 있었음. 질문에 대한 답변을 정확히 찾아냄.
"Synthesis from Haystack" 테스트 필요성
- 단순한 검색이 아닌 깊이 있는 이해와 연결, 추상화를 테스트하는 방법이 필요함.
- 사람은 책을 읽을 때 전체적인 직관을 가짐. 이를 정량화할 방법이 필요함.
GPT를 이용한 HTML 레이아웃 변환
- GPT를 사용해 동적 데이터를 아름다운 HTML 레이아웃으로 실시간 변환 가능. 개발 시간을 절약하고 데이터 구조 변경 시에도 HTML을 업데이트할 수 있음.
- 이전 시도에서는 GPT-4 Turbo가 문맥과 지시를 무시하는 경우가 있었음.
GPT-4o의 향상된 주의력
- GPT-4o가 GPT-4 Turbo와 Claude-3 Sonnet에 비해 입력 창 전체에 걸쳐 주의력을 더 잘 발휘함.
- "Needle In A Needlestack" 테스트가 좋은 다음 단계임. 수천 개의 limericks를 포함한 프롬프트에서 특정 위치의 limerick에 대한 질문을 포함함.
LLM 평가의 어려움
- 공공 인터넷에서 실제 LLM 평가를 제대로 하는 사람이 거의 없다는 의견.
훈련 데이터셋에 대한 의문
- GPT-4o가 이 데이터셋으로 훈련되지 않았다는 것을 어떻게 알 수 있는지에 대한 의문.
- 테스트 데이터가 훈련 데이터에 포함되지 않았다는 것을 알아야 의미가 있음.