▲GN⁺ 2025-03-26 | parent | ★ favorite | on: 구글, Gemini 2.5 출시 (blog.google)Hacker News 의견 LLM을 사용하여 소설과 같은 긴 글을 작성할 때 가장 큰 문제 중 하나는 세부 사항을 제공하면 모델이 지나치게 신경질적으로 반응하는 것임 예를 들어, 서사 판타지의 사랑 관심사 프로필을 제공하면, 주인공이 거의 항상 3페이지 이내에 그들과 만나는 상황이 발생함 이는 비논리적인 전개이며, 이를 변경하려는 시도는 효과가 없음 현재 모델은 19페이지를 생성한 후에도 정상적인 전개를 보여주며, 많은 세부 사항을 포함하고 있음 매우 인상적임 수학 퍼즐을 사용하여 다양한 모델을 벤치마크로 사용해 왔음 이 퍼즐은 컴퓨터로 해결하는 데 약 3일이 걸렸으며, 수학 전공자는 손으로 하루 만에 해결했음 Gemini 2.5는 이 퍼즐을 처음으로 해결한 모델이며, 이는 LLM이 수학적 추론에서 인구의 95% 이상보다 뛰어나다는 것을 의미함 퍼즐은 세 사람이 원형으로 서 있고, 각 사람의 머리 위에 양의 정수가 떠 있으며, 두 수의 합이 세 번째 수와 같음 첫 번째 사람은 자신의 수를 모른다고 하고, 두 번째 사람도 모른다고 하며, 세 번째 사람도 모른다고 함 다시 첫 번째 사람에게 물었을 때, 그는 65라고 답함 세 수의 곱은 무엇인지 묻는 퍼즐임 오디오 전사 및 복잡한 사진에서 생물 주위에 경계 상자를 그리는 작업에서 매우 잘 수행했음 자전거를 타는 펠리컨을 그려주기도 했음 관련 노트는 링크에서 확인 가능함 벤치마크에서 전례 없는 방식으로 최고 성과를 기록했음 높은 품질과 명확한 결과를 보여주지만, 약간 느린 편임 Google이 다시 큰 성과를 내고 있음 Gemini 2.5 Pro는 aider polyglot 리더보드에서 73%의 점수로 SOTA를 기록했음 이전 Gemini 모델보다 큰 도약을 보여줌 효율적인 diff-like 편집 형식을 효과적으로 사용한 첫 번째 Gemini 모델임 이러한 발표는 템플릿처럼 보이기 시작했음 최첨단 모델 X, Y, Z와의 벤치마크 비교 "더 나은" 추론 훌륭한 모델일 수 있지만 반복되는 텍스트는 흥미를 떨어뜨림 Gemini 2.5는 크게 향상된 기본 모델과 개선된 후처리를 결합하여 새로운 성능 수준을 달성했음 앞으로는 이러한 사고 능력을 모든 모델에 직접 구축하여 더 복잡한 문제를 처리하고 더 많은 능력 있는, 상황 인식 에이전트를 지원할 것임 인터넷에 연결되어 있으며, 필요할 때 추론 모델로 작동함 최근 출시된 캔버스 모드를 이 모델에 지원할 수 있기를 바람 Dart 라이브러리의 버그 원인을 식별하기 위해 LLM에 전체 코드베이스와 버그 설명을 제공하는 테스트 케이스를 사용했음 약 360,000개의 토큰을 포함함 한 달 전 주요 모델에서 시도했지만, 이 모델만이 올바른 수정을 식별했음 Gemini를 사용할 계획이라면, 다음과 같은 주의 사항이 있음 기밀 정보나 리뷰어가 보거나 Google이 사용할 수 있는 데이터를 입력하지 말 것 Google AI의 품질 향상 및 제품 개선을 위해 인간 리뷰어가 대화를 읽고 주석을 달며 처리함 이 과정에서 개인 정보 보호를 위해 대화를 Google 계정과 분리함 2.0 모델이 아직 오래되지 않았는데, 이름에 +0.5가 붙은 이유가 궁금함 마케팅 때문인지, 새로운 모델 구조를 나타내는 것인지, 2.0 기반의 더 많은 훈련 데이터인지, 새로운 서비스 인프라인지 궁금함 *.5 명명법이 처음 등장했을 때 다소 어리석다고 느꼈음 OpenAI가 3.5를 출시했을 때 이미 4를 준비 중이라고 했으며, ChatGPT에 더 적합하도록 3을 조정 중이라고 했음 Anthropic이 Sonnet 3, 3.5, 3.5 (new), 3.7로 모델을 명명한 것이 이 명명법의 최악의 사례라고 생각함 semver, 날짜 기반("Gemini Pro 2025"), 의미 있는 문자와 숫자 조합(예: 4o - "Omni")을 선호함
Hacker News 의견
LLM을 사용하여 소설과 같은 긴 글을 작성할 때 가장 큰 문제 중 하나는 세부 사항을 제공하면 모델이 지나치게 신경질적으로 반응하는 것임
수학 퍼즐을 사용하여 다양한 모델을 벤치마크로 사용해 왔음
오디오 전사 및 복잡한 사진에서 생물 주위에 경계 상자를 그리는 작업에서 매우 잘 수행했음
벤치마크에서 전례 없는 방식으로 최고 성과를 기록했음
Gemini 2.5 Pro는 aider polyglot 리더보드에서 73%의 점수로 SOTA를 기록했음
이러한 발표는 템플릿처럼 보이기 시작했음
Gemini 2.5는 크게 향상된 기본 모델과 개선된 후처리를 결합하여 새로운 성능 수준을 달성했음
Dart 라이브러리의 버그 원인을 식별하기 위해 LLM에 전체 코드베이스와 버그 설명을 제공하는 테스트 케이스를 사용했음
Gemini를 사용할 계획이라면, 다음과 같은 주의 사항이 있음
2.0 모델이 아직 오래되지 않았는데, 이름에 +0.5가 붙은 이유가 궁금함