Gemini 3 Flash: 속도를 위해 설계된 프런티

▲

GN⁺ 4달전 | parent | ★ favorite | on: Gemini 3 Flash: 속도를 위해 설계된 프런티어 인텔리전스(blog.google)

Hacker News 의견들

“Flash”라는 이름에 속으면 안 됨. 이 모델은 정말 놀라운 성능을 보임
몇 주 동안 써봤는데 속도도 빠르고 지식 범위도 넓어서 Claude Opus 4.5나 GPT 5.2 Extra High보다 훨씬 효율적임. 추론 시간과 비용이 거의 10분의 1 수준임
- 나도 벤치마크를 돌려봤는데 2.5 Flash, 2.5 Pro, 3.0 Flash 중에서 3.0 Flash가 가장 좋았음
  응답 시간은 그대로인데 결과가 훨씬 좋아짐. 가격 대비 성능이 미쳤음
  Google이 Pro와 Flash 모델 간에 어떤 기술적 차이로 이런 성능을 냈는지 궁금함
  참고로 나는 Gemini API를 자주 쓰는데, 새 모델이 나올 때마다 내부 벤치마크로 테스트해보고 싶음
- 나는 GenAI 회의론자임. 복잡하거나 틈새 주제에 대해 자주 테스트하는데 대부분 모델이 엉망인 답을 냄
  그런데 Gemini 3 Flash는 내가 가진 특정 벤치마크 질문에 대해 처음으로 거의 정답에 가까운 답을 냈음
  아직 표본이 적지만, 정확도 향상이 분명히 보임
- OpenAI가 빠른 추론 모델을 등한시한 건 큰 실수라고 생각함
  GPT 5 하나로 모든 걸 해결하려는 전략은 실패임.
  지금 Gemini 3 Flash를 테스트 중인데, 지연 시간과 성능 모두 GPT 5 Thinking보다 낫게 나옴
  OpenAI는 광고보다 실용적인 모델 개발에 집중해야 함
- 벤치마크를 보면 Flash는 환각(hallucination) 부분에서 약하지만, 전반적으로 Gemini 3 Pro나 GPT 5.1 Thinking보다 우수함
  자세한 결과는 Artificial Analysis 평가 페이지에서 볼 수 있음
- OpenAI에 과투자한 기업들이 후회할 시점이 올지도 모름. Nvidia는 예외일 수도 있지만, Microsoft는 Azure를 통해 모델을 팔기 때문에 덜 신경 쓸 듯함
이번 릴리스는 프리뷰 없이 바로 프로덕션에 적용 가능해서 좋음
하지만 가격 인상이 계속되고 있음
예를 들어 Gemini 1.5 Flash는 입력 $0.075/M → 3.0 Flash는 $0.50/M까지 올랐음
Pro 모델은 입력 $2/M, 출력 $12/M 수준임
수정하자면, 이번 모델도 프리뷰 버전임
- 나는 차라리 Gemini 3 Flash Lite가 나왔을 때의 성능과 가격이 더 궁금함
  대부분의 비코딩 작업에서는 Pro보다 Flash와 Flash Lite의 차이가 더 중요할 수 있음
- 가격 정리 고마움. Gemini 3.0이 워낙 성능이 좋아서 자신감 있는 가격 정책인 듯함
  하지만 경쟁이 치열해서 곧 비슷한 성능의 저가 모델이 나올 것 같음
- Thinking 모드를 켜면 토큰 사용량이 달라지므로, 실제 비용 계산 시 이를 고려해야 함
- GPT-5 Mini는 입력 $0.25/M, 출력 $2/M이라, Flash보다 입력은 절반, 출력은 50% 저렴함
Google이 정말 속도·가격·품질 세 마리 토끼를 잡은 느낌임
Android와 G Suite 통합까지 고려하면 엄청난 조합임
아마 OpenAI–Jony Ive 하드웨어 프로젝트나 Apple Intelligence보다 먼저 AI-first 스마트폰을 내놓으려는 전략 같음
- 하지만 실제 사용에서는 케이스에 따라 다름.
  예를 들어 Gemini 3 Pro는 단순한 Edit 툴 호출에서도 느리고 자주 실패함
  같은 작업을 Claude-Code는 5분 만에 끝내는데 Gemini는 27분 걸림
- MacRumors 기사에 따르면 Apple Intelligence는 Gemini 기반이 될 예정임
- 그런데 스마트폰에서 AI를 어디에 쓸지 의문임.
  오히려 태블릿이나 스마트 글래스가 smol AI를 활용하기에 더 적합하다고 생각함
Gemini 3 Flash(non-thinking)가 내 “강아지 다리 개수 테스트”에서 50%를 기록한 첫 모델임
5개의 다리를 가진 합성 이미지를 보여줬을 때 대부분 모델이 4개라고 답했지만, 3 Flash는 5개라고 맞춤
다리에 문신을 추가했을 때만 정확히 세었고, 문신이 없는 이미지는 여전히 4개로 답했음
절반의 점수를 줄 만함
Flash 모델이 점점 비싸지지만, 이번 3.0 Flash는 가성비가 미쳤음
벤치마크에서 78% 점수를 기록하며 2.5 시리즈와 3 Pro를 모두 능가함
에이전트형 코딩과 실시간 인터랙티브 앱에 이상적임
- 3.0 Flash는 2.5 Pro보다 싸고 빠르고 성능도 좋음
  2.5 Flash 사용자라면 업그레이드 시 비용이 좀 아프겠지만, 그만한 가치가 있음
- Flash를 점점 더 코딩·추론 중심 모델로 포지셔닝하는 게 좋은 방향이라 생각함
  저가형을 원하면 Flash Lite가 있으니까 균형이 맞음
- Nvidia의 Nemotron 3 Nano가 비슷한 OSS 대안이 될 수 있음
  빠르고 똑똑하며 1M 컨텍스트도 지원함
- 내 앱 벤치마크에서는 Gemini Flash와 Grok 4 Fast만 쓸 만했음
  오픈 가중치 모델이 이 영역에서 경쟁하길 바람
- Epoch.ai 벤치마크 기준으로도 OpenAI의 GPT 5.2보다 우수함
이미 Claude Code와 Gemini 조합으로 충분히 ‘좋은 수준’ 에 도달했다고 느낌
이제 다른 회사가 나를 설득하기 어려움.
이번 릴리스로 “충분히 좋고 충분히 싸다”가 교차하는 지점에 도달함
- 나는 전환 비용이 거의 없어서 쉽게 모델을 바꿀 수 있음
  CLI나 IDE 플러그인에서 모델 선택만 바꾸면 됨
- 최근 모델들은 드디어 에이전트형 코딩의 약속을 현실로 만들어줌
- 예전 모델들은 자주 틀려서 오히려 시간 낭비였음
  정확도 복불복이 너무 심했음
- Opus 4.5면 이미 소프트웨어 엔지니어링 문제는 ‘해결’된 수준임
  기업은 무제한 지능을 원하지만, 개인에게는 그 정도까진 필요 없음
SimpleQA 벤치마크에서 69%를 기록했는데, 이는 극도로 희귀한 지식 테스트임
Gemini 2.5 Pro가 55%였던 걸 생각하면 엄청난 점수임
Google이 지식 압축이나 MoE(전문가 혼합) 구조를 잘 활용한 듯함
- Artificial Analysis의 Omniscience 평가도 참고할 만함
- MoE 구조 덕분에 TPU로 많은 파라미터를 쓰면서도 처리량을 유지할 수 있었을 것임
- 이런 모델은 음성 인터페이스에도 훌륭하게 쓰일 것 같음. 아마 Apple도 채택할 듯함
- 혹은 내부적으로 툴 호출(예: Google 검색)을 활용해 추론하는 방식일 수도 있음
- 전문가 수를 늘리고 활성화 비율을 낮춰 희소성(sparsity) 을 높인 구조일 가능성도 있음
Gemini 3의 ‘Thinking’과 ‘Pro’의 차이를 잘 모르겠음
설명에는 “복잡한 문제 해결” vs “고급 수학·코드용 장시간 사고”라고 되어 있음
아마 사고 예산(thinking budget) 차이일 듯함
- Fast = Flash(낮은 사고 예산), Thinking = Flash(높은 사고 예산), Pro = Pro(사고 예산 높음) 구조로 보임
- 실제로는 thinking_level 파라미터로 제어되는 듯함
- Gemini의 ‘Thinking’이 AGI와 어떻게 다른지 궁금함
  Gemini는 항상 질의 기반 사고만 수행함.
  루프와 지속 컨텍스트를 추가하면 AGI처럼 보일 수 있지만, 비용이 커짐
  Google도 아마 이런 실험은 이미 해봤을 것임
내 주요 불만은 대화 삭제 기능 부재임
비즈니스 계정에서는 개별 대화를 지울 수 없고, 전체 보존 기간(최소 3개월)만 설정 가능함
유료 사용자로서 점점 비싸지는 요금에 비해 기본 기능이 부족함
- API를 통해 사용하면 이 문제를 피할 수 있음
- 소비자·기업용 모두 데이터 보존 제어가 형편없음. 주요 경쟁사 중 최악임
빠른 가격 비교를 보면 LLM Prices 기준으로
Gemini 3 Flash는 Pro ≤200k 대비 1/4, Pro >200k 대비 1/8 가격임
200k 토큰 이후에도 가격이 오르지 않는 점이 인상적임
입력 기준 GPT-5 Mini의 두 배, Claude 4.5 Haiku의 절반 수준임