▲GN⁺ 2024-05-15 | parent | ★ favorite | on: GPT-4o의 메모리 혁신 – 바늘 더미 속 바늘(nian.llmonpy.ai)Hacker News 의견 해커뉴스 댓글 모음 요약 법률 문서 비교에서의 오류 두 개의 작은 법률 문서를 비교할 때, GPT-4가 일부 항목이 한 문서에만 있다고 잘못 인식함. 실제로는 동일한 내용이었음. 단일 샘플이지만, 90% 정확도는 의심스러움. 약 80k 토큰이었음. Limericks 데이터셋 기반 2021년에 출판된 limericks 데이터셋을 기반으로 함. GPT-4o가 이 데이터셋으로 훈련되었을 가능성이 높음. NIAN 팀이 다른 모델을 사용해 limericks를 생성하고 데이터셋에 포함되지 않았는지 확인해야 함. Needle in the Haystack 테스트의 한계 이 테스트는 모델의 실제 긴 문맥 처리 능력을 제한적으로 보여줌. 초기 모델들이 이 테스트에서 성능이 나빴기 때문에 주로 사용됨. 최근 모델들은 이 테스트에서 좋은 성능을 보이지만, 32K 토큰 이후에는 복잡한 작업 수행 능력이 크게 떨어짐. RULER 테스트가 더 나은 평가 방법임. Gemini Pro 1.5의 성능 Gemini Pro 1.5가 Moby Dick 전체와 Byung Chul-Han의 모든 책을 처리할 수 있었음. 질문에 대한 답변을 정확히 찾아냄. "Synthesis from Haystack" 테스트 필요성 단순한 검색이 아닌 깊이 있는 이해와 연결, 추상화를 테스트하는 방법이 필요함. 사람은 책을 읽을 때 전체적인 직관을 가짐. 이를 정량화할 방법이 필요함. GPT를 이용한 HTML 레이아웃 변환 GPT를 사용해 동적 데이터를 아름다운 HTML 레이아웃으로 실시간 변환 가능. 개발 시간을 절약하고 데이터 구조 변경 시에도 HTML을 업데이트할 수 있음. 이전 시도에서는 GPT-4 Turbo가 문맥과 지시를 무시하는 경우가 있었음. GPT-4o의 향상된 주의력 GPT-4o가 GPT-4 Turbo와 Claude-3 Sonnet에 비해 입력 창 전체에 걸쳐 주의력을 더 잘 발휘함. "Needle In A Needlestack" 테스트가 좋은 다음 단계임. 수천 개의 limericks를 포함한 프롬프트에서 특정 위치의 limerick에 대한 질문을 포함함. LLM 평가의 어려움 공공 인터넷에서 실제 LLM 평가를 제대로 하는 사람이 거의 없다는 의견. 훈련 데이터셋에 대한 의문 GPT-4o가 이 데이터셋으로 훈련되지 않았다는 것을 어떻게 알 수 있는지에 대한 의문. 테스트 데이터가 훈련 데이터에 포함되지 않았다는 것을 알아야 의미가 있음.
Hacker News 의견
해커뉴스 댓글 모음 요약
법률 문서 비교에서의 오류
Limericks 데이터셋 기반
Needle in the Haystack 테스트의 한계
Gemini Pro 1.5의 성능
"Synthesis from Haystack" 테스트 필요성
GPT를 이용한 HTML 레이아웃 변환
GPT-4o의 향상된 주의력
LLM 평가의 어려움
훈련 데이터셋에 대한 의문