구글의 차세대 모델: Gemini 1.5

▲

GN⁺ 2024-02-16 | parent | ★ favorite | on: 구글의 차세대 모델: Gemini 1.5(blog.google)

Hacker News 의견

백서에 대한 댓글 요약:
- 10M 토큰 컨텍스트 도달 방법에 대한 설명 부족: 백서는 10M 토큰 컨텍스트에 도달하는 방법에 대해 언급하지 않음.
- RAG 스택 복잡성 감소: 10M 컨텍스트 능력은 대부분의 RAG 스택 복잡성을 즉시 없애며, 이는 많은 사용 사례를 훨씬 단순화함.
- 1.5 Pro의 우수성: 1.5 Pro가 GPT-4보다 일반적으로 더 나음을 명확히 하고 있으며, 새로운 LLM-as-judge 리더로서 흥미로운 점임.
- 1.5 Ultra의 높은 능력: 1.5 Ultra는 매우 능력이 뛰어날 것으로 보이며, 1.5 Pro는 이미 매우 능력이 뛰어남. 다양한 테스트에서 높은 점수를 받았으며, 점수가 낮게 나온 테스트는 대부분 거짓 부정으로 돌아감을 지적함.
- 1.5 Pro의 가능성: 1.5 Pro는 워크플로우 작업에 대한 기준을 설정해야 함. 1.0 Ultra는 매우 능력이 뛰어나지만 약간 느림. 이를 사용하는 오픈 모델은 품질이 크게 향상될 것으로 보임.
- 코딩 테스트 재검토: 새로운 모듈 작성을 요구하는 코딩 테스트를 다시 해볼 시기임.
- 10M 컨텍스트 도달 방법에 대한 궁금증: 10M 토큰에 걸쳐 완벽한 회상을 보여주는 오디오 및 비디오 "니들" 테스트에서 암시하는 바에 따르면, 단일 초장 벡터가 아닌 압축과 같은 어떤 형태가 있을 것으로 추측됨.
기술 보고서에서의 흥미로운 정보:
- HumanEval 벤치마크의 데이터 유출 문제: HumanEval은 업계 표준 오픈소스 평가 벤치마크이지만, 웹페이지와 오픈소스 코드 저장소에서 우연한 유출을 제어하는 것은 쉽지 않음. Gemini 1.0 Ultra의 테스트 데이터 유출 분석 결과, HumanEval의 테스트 분할을 단 한 에포크만 포함한 데이터셋에서 계속된 사전 훈련이 점수를 74.4%에서 89.0%로 크게 향상시킴을 보여줌. 이러한 증가는 JSON, HTML과 같은 다른 형식에 예제가 포함되어 있을 때도 지속됨. 연구자들에게 이러한 모델의 코딩 능력을 평가할 때 항상 집에서 작성한 진정한 보류 테스트 함수의 작은 세트를 유지하도록 권장함으로써 유출 위험을 최소화할 것을 요청함. Natural2Code 벤치마크는 이러한 격차를 메우기 위해 만들어졌으며, HumanEval과 동일한 형식을 따르지만 다른 프롬프트와 테스트 세트를 가짐.
기술 보고서에서의 주목할 만한 성능:
- Gemini 1.5 Pro의 장기 컨텍스트 능력: Gemini 1.5 Pro의 장기 컨텍스트 능력을 연구한 결과, 최소 10M 토큰까지 다음 토큰 예측에서 지속적인 개선과 거의 완벽한 검색 (>99%)을 발견함.
대규모 언어 모델의 새로운 능력:
- Kalamang 언어 번역: 전 세계적으로 200명 미만의 사용자가 있는 Kalamang 언어에 대한 문법 매뉴얼을 제공받은 모델은 동일한 내용에서 배우는 사람과 유사한 수준으로 영어에서 Kalamang으로 번역하는 법을 배움.
구글에 대한 신뢰 부족:
- 구글의 발표에 대한 의심: 이전에 출시된 마케팅 편집 비디오가 실제 제품을 보여주지 않았기 때문에, 구글이 내놓는 것에 대해 즉시 테스트할 수 있는 입력 양식이 아니면 신뢰하지 않음.
Demis Hassabis에 대한 의심:
- 과거의 홍보 전략에 대한 회의적 시각: Demis Hassabis가 과거 비디오 게임 개발 시절부터 홍보에 관한 회의적인 태도를 가짐. "Infinite Polygons"가 업계에서 농담거리가 되었으며, 그의 게임 Republic은 흥미롭지 않은 실패작으로 여겨짐.
10M 토큰의 혁신성:
- 프롬프트 크기와 품질의 상관성: 10M 토큰은 게임 체인저로, 프롬프트 크기와 품질 사이에 눈에 띄는 감소가 없다면 매우 혁신적임. 프롬프트 자체를 정적 입력이 아닌 일종의 런타임으로 생각하기 시작할 것임.
Gemini에 대한 부정적 경험:
- Gemini의 부족한 성능: Gemini를 시도해본 결과 성능이 매우 실망스러움. ChatGPT나 로컬 llama보다 훨씬 못한 성능을 보여줌. 구글의 AI 전략에 대한 신뢰가 없으며, 모든 유능한 인재가 OpenAI나 Anthropic으로 이동했다고 가정함.
Pro와 Ultra의 차이:
- 컨텍스트 윈도우의 크기: 현재 100k 토큰 이상을 가진 백만까지의 컨텍스트 윈도우는 매우 흥미로운 기능을 열어줌. RAG는 그만큼의 정보를 가지고 매우 강력할 수 있음.
컨텍스트 윈도우 크기의 혁신:
- 입력 토큰 문제의 해결: 광고된 대로 실제로 작동한다면, RAG나 특정 분석을 위한 미세 조정의 필요성을 대체할 것임. 입력 토큰 채우기 문제를 어떻게 해결했는지 궁금함.