개선된 Gemini 2.5 Flash 및 Flash-Lite 공개

(developers.googleblog.com)

1P by GN⁺ 3달전 | ★ favorite | 댓글 1개

Google이 Gemini 2.5 Flash와 2.5 Flash-Lite의 새 프리뷰 버전을 공개했으며, 품질 향상과 효율성 개선이 핵심
Flash-Lite는 지시 이해력 강화, 장황한 답변 감소, 멀티모달·번역 능력 향상으로 고속·저비용 환경에 최적화
Flash는 도구 활용 능력 강화, 토큰 효율성 개선으로 복잡한 에이전트형 작업에서 성능이 크게 높아짐
실제 테스트에서 SWE-Bench Verified 점수 5% 상승, 내부 벤치마크에서는 장기적 작업 성능이 15% 향상됨
두 모델 모두 -latest 별칭을 지원해 최신 기능을 코드 수정 없이 사용할 수 있으며, 안정성을 원하는 경우 기존 2.5 모델을 계속 활용 가능함

Gemini 2.5 Flash 및 Flash-Lite 개요

Gemini 2.5 Flash와 Flash-Lite의 최신 버전이 Google AI Studio와 Vertex AI에서 공개됨. 이번 릴리즈의 목적은 지속적으로 더 나은 모델 품질과 높은 효율성을 제공하는 것
새로운 Flash-Lite와 Flash는 전반적인 품질 및 속도, 비용 측면에서 기존 모델 대비 크게 향상된 성능을 보임
Flash-Lite는 출력 토큰이 50% 절감되고, Flash는 24% 절감되어 동작 비용의 절약과 빠른 처리 속도를 제공함

Updated Gemini 2.5 Flash-Lite

명령 따라가기 고도화: 복잡한 명령이나 시스템 프롬프트에서의 이해 및 수행 능력이 크게 향상됨
간결함 증가: 더 짧고 알기 쉬운 응답 생성으로 토큰 비용 절감 및 대규모 트래픽 환경에서의 지연시간 감소 효과가 있음
멀티모달 및 번역 품질 강화: 오디오 기록, 이미지 인식, 번역 품질 모두에서 신뢰성이 높아짐
Flash-Lite 프리뷰 버전은 gemini-2.5-flash-lite-preview-09-2025 모델명으로 바로 시험해 볼 수 있음

Updated Gemini 2.5 Flash

도구 사용 능력 강화: 복잡한 멀티스텝 상황에서의 에이전트 기반 활용도가 크게 높아져, SWE-Bench Verified 기준 전 버전 대비 5%p 오른 성능(48.9% → 54%)을 달성함
비용 효율성 향상: 더 적은 토큰 사용으로 더 높은 출력 품질을 제공, 지연시간 및 인프라 비용 절감 효과가 있음
Primer 사용자들의 피드백도 긍정적임
- Manus의 공동 창업자이자 Chief Scientist인 Yichao ‘Peak’ Ji는, "새로운 Gemini 2.5 Flash 모델은 놀라운 속도와 지능을 모두 구현함. 장기 목표 기반의 에이전트 작업에서 성능이 15% 개선되어, 비용 효율성을 바탕으로 스케일이 한층 커짐"이라고 평가함
Gemini 2.5 Flash 프리뷰 버전은 gemini-2.5-flash-preview-09-2025 모델명으로 사용 가능함

Gemini로 빌드 시작하기

지난 1년간 미리보기(preview) 모델을 출시함으로써 개발자들이 최신 기능을 빠르게 시범 적용하고 피드백을 제공할 수 있게 했음.
오늘 공개된 프리뷰 버전은 신규 안정화(stable) 버전으로 공식 전환되는 것이 아니며, 차기 정식 버전의 품질을 높이는 기반으로 활용됨

장황한 모델명 대신 -latest 별칭이 추가되어 항상 최신 모델을 쉽게 쓸 수 있음. 이 별칭은 자동으로 최신 버전에 연결되어, 코드 수정 없이 새로운 기능을 시험 가능하게 해줌
- gemini-flash-latest
- gemini-flash-lite-latest
특정 버전이 업데이트 혹은 중단될 경우 최소 2주 전에 이메일로 안내함. 별칭은 단순한 레퍼런스로, 가격과 기능, 한도 등은 각 릴리즈 별로 달라질 수 있음
장기적 안정성이 필요한 경우에는 기존의 gemini-2.5-flash 및 gemini-2.5-flash-lite 모델명 사용 권장

의의

이번 릴리스는 정식 안정 버전 승격이 아닌 프리뷰 업데이트로, 향후 안정 모델을 위한 실험과 사용자 피드백을 모으는 과정임
Google은 Gemini를 통해 속도와 지능, 비용 효율의 균형을 추구하며, 개발자들이 더 나은 AI 응용을 만들 수 있도록 지속적으로 개선 중임

▲

GN⁺ 3달전 [-]

Hacker News 의견

최근 Gemini를 사용하면서 느꼈던 문제를 잘 짚어준 내용임. 모델 자체는 정말 뛰어난데, 실제로 사용할 때 대화가 중간에 잘리는 문제가 반복적으로 발생함. 토큰 제한이나 필터 때문이 아니라, 모델이 응답 완료 신호를 잘못 보내는 버그로 추정됨. 이미 GitHub과 개발자 포럼에 P2 이슈로 몇 달째 올라와 있음. 완전한 Gemini의 답변을 Claude나 GPT-4와 비교해보면 품질은 상당히 나쁘지 않음. 근데 신뢰성이 중요함. 완벽하진 않더라도 항상 끝까지 답해주는 모델이 더 쓰기 편함. Google이 기술력은 있지만, 이런 기본적인 대화 흐름 문제를 고치지 않는 한, 벤치마크가 아무리 좋아도 경쟁자 대비 고장난 느낌을 줄 수밖에 없음. 관련 레퍼런스는 이슈 #707 및 개발자 포럼 토론 참고 바람
- Gemini의 또 다른 단점을 이야기함. 툴 콜링과 JSON 출력 요구를 동시에 처리하지 못함. 요청할 때 application/json을 지정하면 툴 사용이 불가하고, 둘 다 사용하려면 억지로 JSON이 올바르게 나오길 바라거나(자주 실패함) 아예 첫 번째 요청에서 툴을 쓰고, 두 번째 요청에서 포맷팅하는 식임. 번거롭긴 해도 우회는 단순한 편임
- Gemini만의 문제가 아니고, ChatGPT 역시 신뢰성 측면에서 큰 문제를 겪은 경험이 많음
- 이런 사소한 문제나, AI Studio에서 스크롤조차 잘 안 되는 점이 이해가 안 됨. 이렇게 멋진 툴이 어째서 기본적인 기능이 부족한지 의문임
- 나도 비슷하게 느끼고 있음. Gemini 2.5 Pro는 소프트웨어 아키텍처에 정말 잘 맞음. 그런데 계속 자극을 줘야 하는 점이 피곤함. Sonnet도 충분히 잘 해냄
- chatgpt 역시 신뢰성 문제 많음
llm-gemini 플러그인에 해당 모델 지원을 추가했음. uvx로 별도 설치 없이 실행 가능함. 예시:

export LLM_GEMINI_KEY='...'
uvx --isolated --with llm-gemini llm -m gemini-flash-lite-latest 'An epic poem about frogs at war with ducks'

릴리즈 노트는 여기 참고. 펠리컨 관련 논의는 이 글 참고 바람

펠리컨이 자전거를 타는 SVG 예시 이미지가 훈련 데이터셋에 들어가고 있는지 궁금함. 이 분야 엔지니어들 중에도 해커뉴스에 자주 오는 사람들이 많음
결국 누가 이길지 궁금함. 개구리? 오리? 아니면 펠리컨?
2.5가 개선된 모델이라면 왜 버전이 2.6이 아닌지 궁금함. 예전 2.5와 새 2.5를 구별해야 해서 헷갈림. 예전에 Apple이 'the new iPad'라 부르면서 넘버링 없이 출시했던 것처럼 번거롭다고 느낌
- 그래서 Sonnet v3.5의 두 번째 버전을 v3.6으로 부르는 경우가 많았고 Anthropic도 그 다음을 v3.7로 지정함
- 모델을 보통 출시 월/년 기준으로 부름. 예를 들어 최신 Gemini 2.5 Flash는 "google/gemini-2.5-flash-preview-09-2025"로 부름. 참고
- 2.5는 버전명이 아니라 아키텍처 세대 표시임. Mazda 3를 예로 들면, ‘Mazda 4’가 아니라, 그냥 기존 모델에 새로운 트림 레벨(혹은 소폭 리프레시)이 붙은 것과 비슷함. SemVer(의미있는 버전 규칙)이 더 낫겠다는 점에 공감함
- 혹시나 버그 픽스 정도의 의미 전달이 아닐지 추측함
- 오히려 이렇게 되면 2.6 Flash와 2.5 Pro 가운데 어느 게 더 좋은지 혼란스러워짐
Google은 주요 파운데이션 모델 제공업체 중에서 지연 시간, TPS, 비용 측면에 정말 집중하고 있는 것 같음. Anthropic과 OpenAI는 모델 지능에서 앞서 나가지만, 성능 임계치 이하에선 느린 응답이 협업형 도구에서 불편함을 초래함. 조금 덜 똑똑해도 Gemini처럼 빠른 모델이 워크플로에서 더 쾌적하게 느껴짐. 다만, 어떤 때는 claude나 gpt-5에 비해 완전히 무디게 느껴질 때도 있음
- 개인적으로 이런 이분법적 구도가 실제로 맞는지 의문임. Gemini가 그렇게까지 “지능”에서 뒤지는 것 같지 않고, 앞으로 모델 사이클에서 격차는 더 줄어들 걸로 봄. 또 Google은 latancy/TPS/비용뿐만 아니라, 자사 모델을 단순 챗봇 외 여러 제품에 신속하게 통합하는 것에 역량을 쓰는 듯함. 예를 들어 Google Workspace, Google Search 외에도 jules나 labs.google/flow, 금융 대시보드 같은 새로운 영역에서도 적극적으로 실험 중임. Youtube에 Gemini가 붙는 것도 시간 문제라 봄
- 최근 Gemini(2.5-pro)의 사용량을 줄이고 있음. 이전에는 심층 연구 능력과 신뢰성 높은 인용 기능에 감탄했음. 그런데 최근 몇 주 사이, 논쟁이 늘고 소스 관련 환각 판단을 못함. 예시로 Github Actions의 secrets map 접근에 대해 물었더니, 제대로 된 답변 대신 잘못된 워크플로 테스트를 내놓고, 아무리 반박해도 궤변만 늘어놨음. 반면 Chatgpt는 문제 없이 답해줌. 관련 참조: 첫 번째, 두 번째
- 개인적으로 Latency/TPS/cost 경쟁은 grok와 gemini flash 두 모델의 싸움이라고 봄. 이미지→텍스트 작업에서 이 둘을 따라올 모델이 없음. OpenAI나 Anthropic은 이 부분에 별 관심 없음
- “결혼 전 상대를 느린 인터넷에 앉혀봐라”던 10년 전에서, 이제는 “결혼 전 상대를 느린 AI 모델 앞으로 앉혀봐라”는 시대로 넘어옴 ;-)
- 동의하기 어려움. Gemini는 단순히 가격/성능비만 우수한 것이 아니라, 일반 사용자 입장에선 최고의 “일상용” 모델임. 특히 코딩 등 “에이전트”적인 부분에선 Claude나 GPT-5에 한참 못 미치지만, 장문의 대화, 이전의 맥락을 잘 기억하는 면에서는 Gemini가 최고임. 디버깅할 때 여러 모델을 병렬로 써보면, Gemini만이 예전 메시지의 중요한 포인트를 잡아내 코드 샘플도 정확하게 줌. 저사양 언어 지원과 OCR, 이미지 인식에서도 압도적임. 다만 Google은 마케팅과 AI UX가 현재에선 가장 부족하지만 개선된다면 더 성장할 것임. 실제로 본인도 세 모델을 거의 매일 병행 사용함
Non-AI 요약: 두 모델 모두 인공지능 분석 지수에서 더 똑똑해졌고, 엔드 투 엔드 응답 시간도 짧아짐. 출력 토큰 효율은 24%~50% 향상(비용 절감에 도움됨). Gemini 2.5 Flash-Lite 주요 개선점은 지시문 이해력 향상, 불필요한 장황함 감소, 멀티모달/번역 능력 강화임. Gemini 2.5 Flash는 더 강력한 에이전트 도구 사용과 토큰 효율 추론이 특징임. 모델 스트링은 gemini-2.5-flash-lite-preview-09-2025 및 gemini-2.5-flash-preview-09-2025임
- “Non-AI summary” 같은 방식이 앞으로 트렌드가 될 것 같음. 사람이 직접 정리했다는 사실만으로도 읽는 즐거움이 늘어남
- “Non-AI Summary”라는 용어는 가져가서 쓰겠음
- “output token efficiency”의 의미가 궁금함. Gemini Flash는 입력/출력 토큰 수로 과금하는데, 출력이 같으면 비용도 같아야 함. 즉, 토크나이저나 내부 방식을 바꾸지 않았다면 어떻게 비용이 절감되는지 이해가 어려움
- 2.5 Flash가 AI를 처음 진짜 유용하게 만들어줬음. 원래 #1 AI 혐오자였는데, 이제 구글 검색 대신 Gemini 앱을 더 먼저 찾음. 더 정확하고, 광고도 없음. 제공하는 정보가 대부분 맞고, 인터넷의 정확한 지식을 내 손에 쥔 느낌을 줌. 혼자 Gemini 앱으로 케일의 파종 온도 같은 대화에 빠질 수 있음. 온갖 블로그, 봇, SEO 스팸보다 이쪽이 집중도가 높음. 다만 구글이 이걸 얼마나 오래 유지할지, 수익 구조 kannibalizing 문제는 남음
- 여러모로 기존 버전 대비 점진적 개선으로 보임
버전 넘버링에 대해 사소한 불평이지만, 개선이 있을 때마다 번호를 올리는 게 더 직관적임. 지금처럼 출시되면 혼란스러움
- 나도 같은 불만임. Anthropic도 비슷하게 했다가 “너프” 논란이 커졌음. 우리는 토큰을 패키지로 구매하는데, 유효기간도 짧고, 실제 모델 업데이트가 얼마나 이뤄지는지도 잘 모름. 1%만 좋아지거나 나빠져도 공개해야 한다고 봄. 근본적으로 AI 기업들이 투명성과 접근성을 잘 지켜야 함. 관련 사례는 Claude incident 참고 바람
- 이건 사소한 불평이 아니라 심각한 문제임. 이런 정책으론 버전 넘버링 자체가 무의미해짐
- 아마 기존 2.5 Flash 모델을 대체하는 개념임. openai가 4-o 모델 등을 조용히 업데이트했고 과거 glazing 문제로 롤백했던 사례도 떠오름
모델별 의미 있는 버전 관리(semver) 체계를 새롭게 만들어야 함. 사소한 최적화와 완전한 retrain/architecture 변화 사이를 명확히 구별할 수 있어야 함
Gemini 2.5 Flash는 최근 내가 가장 많이 쓰는 LLM임. 특히 이미지 입력과 구조화된 출력에서 OpenAI/Anthropic보다 좋았음
- Gemini 2.5 Flash는 내 작업 분야에서는 ChatGPT 5를 압도함. 이렇게 인기 없는 게 의외임
- 가격이 변했는지는 확인이 안 됨
혹시 나만 다른 Gemini를 쓰는 건가 궁금함. 회사에서 Google Workspace를 쓰니 Gemini가 기본 탑재되어 있음. 근데 다른 모델 대비 결과물이 끔찍할 정도임. 다들 칭찬하는데, 내가 경험한 Gemini는 답변이 틀리거나 길고(요약을 원했는데 에세이) 전혀 만족스럽지 않음. 똑같은 질문을 Gemini와 상당히 약한 버전의 ChatGPT에 해보면 ChatGPT가 훨씬 나음. 혹시 내가 뭘 놓치는 건지?
- 나는 ai studio에서만 써봤는데 그쪽에서는 다른 모델보다 훨씬 우수함. IDE 통합 등은 경험이 없음. 단, 지나친 칭찬은 줄이라고 신경 써야 하고, 그게 맥락창을 관리하는 데도 도움됨
- 나도 비슷함. 번역 용도 외에는 거의 쓸 일이 없었고, 번역조차 종종 거부하거나 엉뚱하게 행동함. 가장 최근에는 기본적인 질문에도 쉼표 하나만 내놓거나 괜히 윤리 이슈(예: “후드를 쓴 백팩”)라고 거절한 적 있음. 책잡힐 만한 요청도 거절하는 게 가장 큰 문제임
- 용도에 따라 다름. 단순 Q&A는 GPT-5가 더 좋지만, 문장을 보고서를 만들거나 요약하거나 강조 등 글쓰기 용도론 Gemini가 최고임
- 개인적으로 ChatGPT가 뛰어난 건 추가 설명 요구 없이도 질문을 잘 해석하고, 읽기 쉬운 형식으로 정리해준다는 점임. GPT의 포스트 트레이닝이 한 단계 위라고 느낌
- 혹시 잘못된 방식으로 사용하고 있을 수도 있음
Gemini 2.5 Flash는 가격 대비 성능이 인상적인 모델임. 그런데도 왜 Gemini 2.0 Flash가 여전히 인기있는지 이해 안 됨. OpenRouter에서 최근 나온 모델 수치:
- xAI: Grok Code Fast 1: 1.15T
- Anthropic: Claude Sonnet 4: 586B
- Google: Gemini 2.5 Flash: 325B
- Sonoma Sky Alpha: 227B
- Google: Gemini 2.0 Flash: 187B
- DeepSeek: DeepSeek V3.1 (무료): 180B
- xAI: Grok 4 Fast (무료): 158B
- OpenAI: GPT-4.1 Mini: 157B
- DeepSeek: DeepSeek V3 0324: 142B
- OpenRouter의 한 가지 단점은 각 모델별 실제 이용 기업 수를 공개하지 않는 점임. 대형 고객사 하나가 갈아타면 지표 자체가 바뀔 수 있음. 이 부분이 더 투명해지면 좋겠음
- 우리 회사 역시 예전 모델에 올려놓은 채로 업데이트를 안 한 업무가 많음
- 가격 때문임. 2.0 Flash가 2.5 Flash보다 저렴하면서도 여전히 꽤 훌륭한 모델임
- 2.0 Flash는 2.5 Flash보다 확실히 저렴하고, 최근 업데이트 전까지는 2.5-Flash-Lite보다도 나았음. 텍스트 파싱, 요약, 이미지 인식 등 용도로 좋은 일꾼임. 다만 이젠 2.5-Flash-Lite가 나오면서 교체될 듯함
- 최신 버전에 맞게 이름을 고치는 게 귀찮아서 2.5 Flash도 이름 체계를 그대로 두는 것 같음.

답변달기