Google, Gemini 2.5 Flash/Pro 정식 출시 및 `Flash-Lite` 모델 공개

(blog.google)

1P by GN⁺ 4달전 | ★ favorite | 댓글 1개

Gemini 2.5 Flash와 Pro 모델의 정식 출시와 함께, 가장 저렴하고 빠른 Flash-Lite 모델의 프리뷰 버전을 공개함
Flash-Lite는 번역, 분류 등 지연에 민감한 작업에 특화되어 있으며, 2.0 Flash/Flash-Lite보다 낮은 지연 시간과 높은 전반적 품질을 제공함
모든 2.5 모델은 멀티모달 입력, 1M 토큰 컨텍스트 길이, 도구 연결(검색, 코드 실행 등), Thinking 모드 전환 가능 등의 기능을 지원
비용 대비 성능 최적화(Pareto Frontier) 를 고려한 설계로, 대규모 트래픽 처리에 적합한 제품군 구성을 갖춤
Flash-Lite 및 Flash는 검색에도 커스터마이징되어 활용 중, 개발자는 Google AI Studio와 Vertex AI에서 프리뷰 혹은 정식 모델 사용 가능함

Flash-Lite의 특징

가장 저렴하고 빠른 모델로, 입력 100만 토큰당 $0.10, 출력 100만 토큰당 $0.40의 요금으로 제공됨
비용 대비 성능이 우수하여 번역, 분류 등 대량의 요청이 들어오는 작업에 특히 적합함
이전 2.0 Flash-Lite보다 전반적으로 품질이 향상되었으며, 과학(GPQA) 기준으로 64.6% → 66.7%, 수학(AIME 2025) 에서는 49.8% → 63.1%로 향상됨
코드 생성과 편집에서는 각각 34.3%, 27.1% 수준으로, 고성능 모델 대비 낮지만 비용 대비 효율적인 선택지임
멀티모달 처리 성능은 72.9%로 유지되며, 이미지 이해는 51.3%에서 57.5%로 개선됨
추론(Thinking) 모드를 활성화하면 전반적인 정확도가 상승하며, 예를 들어 HumanEval에서는 5.1% → 6.9%, SWE-bench multi-task에서는 42.6% → 44.9%로 증가함
사실성(SimpleQA), 긴 문맥 이해(MRCR) 등에서도 Thinking 모드에서 성능이 눈에 띄게 향상되며, 특히 1M 토큰 기준 긴 문맥 정확도는 5.4%에서 16.8%로 3배 이상 향상됨
다국어 능력(MMLU) 역시 높아져 Non-thinking에서는 81.1%, Thinking에서는 84.5%까지 도달함

Gemini 2.5 모델 패밀리에 대한 기술적 세부 내용은 Gemini technical report에서 확인 가능

▲

GN⁺ 4달전 [-]

Hacker News 의견

구글 포스팅에서는 언급이 없지만, Gemini 2.5 Flash 모델에 대한 가격 인상이 포함된 것 같음
2.5 Flash Preview 기준 아카이브된 가격은 입력 텍스트/이미지/비디오 100만 토큰 당 $0.15, 오디오는 $1.00, 출력은 non-thinking $0.60, thinking $3.50 구조였음
새 가격에서는 thinking과 non-thinking 구분이 없어짐
입력 텍스트/이미지/비디오 100만 당 $0.30로 2배 인상, 오디오는 $1.00로 동일, 출력은 100만 당 $2.50로 이전 non-thinking보다 많이 비싸졌지만, thinking보다는 저렴해진 구조
자세한 가격 내역은 여기에서 볼 수 있음
- 블로그 포스트에 가격 변경에 대한 더 많은 정보가 올라와 있음
  자세한 참고 링크
- AI 기술이 곧 너무 저렴해질 것이라는 말이 있었지만, 당장은 가격이 오르고 있는 상황에 대한 언급
- 처음 Gemini가 출시될 때 가격이 지나치게 저렴해서 경쟁사 대비 너무 저렴하다는 생각을 했었고, 이제야 현실적인 가격을 반영하는 것으로 보인다는 의견
- 아무렇지 않게 2배 인상된 가격
  Gemini 2.0 Flash는 $0.10/$0.40이었던 것을 생각하면 인상폭이 체감되는 부분
- 예리하게 포착한 변화라는 의견
  이 가격 변화는 audio-to-audio 부문에서 GOAT(최고)가 될 수 있었던 Gemini에게 꽤 중요한 변화라고 생각함
한때 Gemini Pro가 AI Studio에서 무료로 제공될 때 사람들이 많이 썼다고 생각함
그 이후에는 성능이 오히려 안 좋아졌고, 이제는 중요한 작업에는 Claude로 돌아감
Gemini는 쓸데없는 말을 많이 하는 친구 같은 느낌이 큼
그래도 브레인스토밍에는 자주 사용하고, Gemini가 생성한 프롬프트를 다듬어 Claude에서 쓰는 식으로 씀
- Aider leaderboard를 보면 내 경험과는 다르게 Gemini가 항상 우위에 있지는 않음
  나는 Aider API만 직접 써서 AI Studio 경험은 없음
  Claude는 프롬프트가 부실해도 성능이 괜찮음, 특히 방향성이 애매할 때 감각이 좋음
  내가 명확히 원하는 방향이 있는 경우엔 Gemini 2.5 Pro(Thinking 활성화)가 더 좋고, 코드가 안정적으로 실행됨
  o4-mini, o3에서는 좀 더 '스마트'하게 생각하는 느낌이 있지만 코드가 불안정함(Gemini가 더 안정적)
  복잡성이 커질수록 Claude는 더 약해지는 듯하고, 내 기준에서는 Gemini와 o3가 더 높은 평가
  o3-mini 출시 이후로 다시 Claude로 돌아갈 일은 없었음
- 나도 비슷한 경험을 했음
  초기에는 복잡한 문제도 잘 푸는 것 같았지만, 단순한 작업은 조율이 어려움
  답변이 너무 장황해서 UX가 가장 중요한데 현재는 Claude Code의 UX를 선호
- 나 역시 마찬가지인데, 간결하게 답변하도록 elaborate prompt로 프롬프트를 짜서 Gem을 만들었음에도 여전히 장황하고, 질문 범위를 불필요하게 확장하는 점이 불편함
- 내부 정보는 없지만, 모델이 양자화(quantized)된 것 같은 느낌을 받음
  한 글자를 무한 반복하는 현상 등, 양자화된 모델에서만 보던 패턴이 관찰됨
- 예전 프리뷰 버전으로 롤백했으면 함
  프리뷰 버전은 균형 잡혀 있고, 실제로 유용한 반박도 해줬는데, 정식 버전(GA)은 과하게 긍정적인 억양으로 변해버림
난 Gemini에 매우 감명받아서 OpenAI 사용을 중단함
가끔 OpenRouter로 세 모델 모두 테스트하지만 지금은 90% 이상 Gemini만 씀
작년엔 90%가 ChatGPT였던 것과 비교하면 꽤 큰 변화
- 구글에 비판적인 입장이지만, 이번엔 정말 모델들이 뛰어나다고 느낌
  특히 context window가 엄청나게 넓은 점이 매우 큼
- 나도 마찬가지로 이번에는 Claude 구독을 해지했고, Gemini가 빠르게 따라잡고 있다고 생각
이번 발표로 Flash Lite가 더이상 "쓸모 없음"에서 "쓰임새 있는 도구"로 격상이라고 생각
Flash Lite는 싸고, 무엇보다 거의 항상 1초 이내(최저 200ms, 평균 400ms)에 응답하는 ‘빠름’이 강점
우리 서비스 Brokk(brokk.ai)에서도 Quick Edits용으로 현재 Flash 2.0(Non-Lite) 사용 중이고, 이번에 2.5 Lite 도입을 검토 예정
생각(Thinking)이 더딘 Flash 2.5보다 떨어지는 모델의 용도에는 궁금증이 있음
빠른 응답이 중요한데 thinking 활성화시 속도가 느려져서 애매함
- 내 기준에서는 충분히 빠르게 생각만 해준다면 thinking이 얼마나 많이 들어가든 상관없는 생각
코딩 분야 이외에서 Gemini를 어떻게 쓰는지, 그리고 왜 선택했는지 궁금
앱을 만들 때 GenAI 백엔드를 교체 가능하도록 설계하는지, 혹시 가격이나 신뢰성 때문에 여러 공급자를 로드밸런싱하는지, LLM도 만약 스팟마켓이 생긴다면 어떤 변화가 있을지 궁금
- 내 경험상 Gemini 2.5 Pro는 번역, 요약(Canva 활용)처럼 비코딩 작업에서 두각을 나타냄
  문맥 창의 크기와 사용량 한도가 엄청나서 가능
  특히 리서치 보고서 생성에서 Gemini가 ChatGPT보다 뛰어나다고 생각
  구글이 검색 강자라서 그런지 보고서가 여러 출처에 기반하며 더 정확함
  글쓰기 스타일도 더 선호하고, Google Docs로 내보낼 수 있는 점도 편리함
  다만 UI가 경쟁사 대비 많이 부족하고, Custom instruction, Projects, Temporary Chat 같은 핵심 기능이 없거나 미흡한 점이 큰 단점
- 수많은 NDA 문서를 한 번에 투입해도, 몇 초 만에 관련 내용만 뽑아주는 점이 유용함
  대용량 문맥 창과 정확히 필요한 정보를 뽑아내는 고성능 덕분에 이런 작업에 최적임
- Gemini Flash 2.0은 극도로 저렴하며 엔터프라이즈급 워크로드에서 강력한 모델
  최첨단 지능은 아니지만, 저렴한 가격, 빠른 속도, 높은 구조화된 출력의 신뢰도로 개발할 때 매우 만족스러움
  2.5 Lite로 업그레이드 테스트 해볼 계획
- 나는 lexikon.ai를 많이 사용하는데, 특히 이미지 대량 처리에서 Gemini를 많이 씀
  구글 비전 API 가격이 다른 대형 사업자(OpenAI, Anthropic)에 비해 훨씬 저렴해서 좋음
- Gemini 2.5 Flash(Non-thinking 옵션)을 생각 파트너로 활용
  내 생각을 정리하거나, 내가 미처 생각하지 못한 인풋도 자동으로 제공
  자기 성찰에도 유용하게 사용하며, 내 생각이나 고민을 던지고 AI의 응답을 참고함
현재 2.5-pro API 접근이 안 되는 사람들이 있는지 궁금
"projects/349775993245/locations/us-west4/publishers/google/models/gemini-2.5-pro을 찾을 수 없거나 접근 권한이 없다"는 에러 발생
유효한 모델 버전을 사용하고 있는지 확인 안내 문구가 나옴
대량 LLM 추론/데이터 처리 서비스를 운영하면서 다양한 오픈웨이트 모델의 비용 및 성능 프로파일링 작업을 많이 함
LLM 가격 책정에서 여전히 이상한 점은 공급사가 토큰 소비량에 따라 선형적으로 과금하는데, 실제 시스템 비용은 시퀀스 길이가 증가할수록 제곱적으로 늘어남
요즘 모델 아키텍처, 추론 알고리즘, 하드웨어가 대부분 비슷해졌으니, 공급사가 가격을 결정할 때는 고객 요청 패턴에 대한 과거 통계를 많이 참고하는 듯
결국 실제 사용 패턴 데이터를 확보하면서 가격 인상이 나타나는 것 자체가 새롭지 않다고 생각
2.0 Flash Lite 대비 2.5 Flash Lite의 오디오 처리 가격이 6.33배 인상됨
2.5 Flash Lite 오디오 입력은 100만 토큰 당 $0.5, 2.0에서는 $0.075였음
이렇게 급격하게 오디오 토큰 가격이 오른 이유가 궁금함
입력:출력 토큰 비율을 3:1로 가정할 때, blended price가 이전 대비 3.24배 상승했고, 2.0 Flash 기준으로는 거의 5배 수준
그래서 2.0 Flash가 여전히 많은 용도(특히 코딩 외 분야)에서 경쟁력이 있을 듯
성능이 약간 낮더라도 여러 번 프롬프트를 나눠 쓰면 실질적 효과가 더 좋을 수도 있음
이번 2.5 Flash가 압도적인 선택지가 될 줄 알았는데 아쉬움
(관련 가격 자료는 https://ai.google.dev/gemini-api/docs/pricing">여기 참고)

답변달기