# Gemini 3 Flash: 속도를 위해 설계된 프런티어 인텔리전스

> Clean Markdown view of GeekNews topic #25157. Use the original source for factual precision when an external source URL is present.

## Metadata

- GeekNews HTML: [https://news.hada.io/topic?id=25157](https://news.hada.io/topic?id=25157)
- GeekNews Markdown: [https://news.hada.io/topic/25157.md](https://news.hada.io/topic/25157.md)
- Type: GN+
- Author: [neo](https://news.hada.io/@neo)
- Published: 2025-12-18T09:40:20+09:00
- Updated: 2025-12-18T09:40:20+09:00
- Original source: [blog.google](https://blog.google/products/gemini/gemini-3-flash/)
- Points: 4
- Comments: 1

## Topic Body

- **Gemini 3 Flash**는 빠른 속도와 낮은 비용으로 **프런티어급 지능**을 제공하는 Google의 최신 AI 모델임  
- **Gemini 3 Pro** 수준의 추론 능력을 유지하면서 **Flash 시리즈의 지연시간과 효율성**을 결합해 일상적 작업과 에이전트형 워크플로를 지원  
- **GPQA Diamond 90.4%** , **Humanity’s Last Exam 33.7%** , **MMMU Pro 81.2%** 등 주요 벤치마크에서 **Gemini 2.5 Pro**를 능가  
- 개발자는 **Google AI Studio, Gemini CLI, Antigravity, Vertex AI** 등에서 접근 가능하며, 일반 사용자는 **Gemini 앱과 검색의 AI 모드**를 통해 무료 이용 가능  
- 속도·비용·지능의 균형을 새롭게 정의하며, **대규모 사용자와 기업 환경 모두에 확장 가능한 모델**로 자리매김  

---

### Gemini 3 Flash 개요
- Gemini 3 Flash는 **Gemini 3 모델군의 확장판**으로, 속도와 효율성을 극대화한 차세대 모델  
  - Gemini 3 Pro와 Deep Think 모드에 이어 공개되었으며, **1조 토큰/일** 이상이 API를 통해 처리되고 있음  
  - 복잡한 주제 학습, 인터랙티브 게임 설계, 멀티모달 콘텐츠 이해 등 다양한 활용 사례가 보고됨  
- **Gemini 3의 고급 추론·비전 이해·에이전트형 코딩 기능**을 유지하면서, Flash 수준의 지연시간과 비용 효율성을 결합  
- **일상적 작업의 정확도 향상**과 **에이전트형 워크플로**에 최적화된 모델로 설계됨  

### 성능 및 벤치마크
- Gemini 3 Flash는 **속도와 규모가 지능을 희생하지 않음을 입증**  
  - GPQA Diamond 90.4%, Humanity’s Last Exam 33.7%(도구 미사용), MMMU Pro 81.2%로 **대형 모델과 유사한 성능**  
  - **Gemini 2.5 Pro 대비 다수의 벤치마크에서 우수한 결과** 기록  
- **품질·비용·속도의 파레토 프런티어**를 확장  
  - 복잡한 작업에서는 더 오래 사고하지만, 일반 트래픽 기준 **평균 30% 적은 토큰 사용**으로 높은 성능 유지  
- **Artificial Analysis** 기준 2.5 Pro보다 **3배 빠른 처리 속도**, 비용은 **입력 100만 토큰당 $0.50, 출력 $3.00**  
  - 오디오 입력은 100만 토큰당 $1.00  

### 개발자용 기능
- **반복적 개발과 고빈도 워크플로**에 적합한 저지연 코딩 성능 제공  
  - SWE-bench Verified 벤치마크에서 **78% 점수**로 2.5 시리즈와 Gemini 3 Pro를 모두 능가  
- **비디오 분석, 데이터 추출, 시각적 질의응답** 등 복합 멀티모달 작업에 강점  
  - 실시간 게임 보조, A/B 테스트, 디자인 자동화 등 **지능형 애플리케이션 구현** 지원  
- **JetBrains, Bridgewater Associates, Figma** 등 기업이 이미 도입 중이며, **Vertex AI 및 Gemini Enterprise**를 통해 제공  

### 일반 사용자용 기능
- **Gemini 앱의 기본 모델**로 2.5 Flash를 대체, 전 세계 사용자가 무료로 이용 가능  
  - 비디오·이미지 분석을 통해 **실행 가능한 계획 생성** 등 멀티모달 추론 기능 강화  
  - 예: 골프 스윙 분석, 그림 인식, 오디오 기반 맞춤 퀴즈 생성 등  
- **음성 명령만으로 앱 프로토타입 제작** 가능, 비전문가도 빠르게 앱 구현  
- **검색의 AI 모드**에서도 기본 모델로 적용  
  - Gemini 3 Pro의 추론력을 기반으로 **질문 맥락을 세밀하게 분석**하고, **시각적으로 정리된 답변과 실시간 정보** 제공  
  - 복잡한 여행 계획이나 교육 개념 학습 등 **다단계 목표 처리**에 강점  

### 접근 경로 및 배포
- **개발자용**: Google AI Studio, Gemini CLI, Antigravity, Vertex AI, Gemini Enterprise에서 프리뷰 형태로 제공  
- **일반 사용자용**: Gemini 앱과 Google 검색의 AI 모드에서 순차적 글로벌 롤아웃 진행  
- Gemini 3 Flash는 **Gemini 3 Pro, Deep Think**와 함께 **Gemini 3 모델군의 주요 축**으로 확장됨

## Comments


### Comment 47932

- Author: neo
- Created: 2025-12-18T09:40:21+09:00
- Points: 1

###### [Hacker News 의견들](https://news.ycombinator.com/item?id=46301851) 
- “Flash”라는 이름에 속으면 안 됨. 이 모델은 정말 놀라운 성능을 보임  
  몇 주 동안 써봤는데 **속도**도 빠르고 **지식 범위**도 넓어서 Claude Opus 4.5나 GPT 5.2 Extra High보다 훨씬 효율적임. 추론 시간과 비용이 거의 10분의 1 수준임
  - 나도 벤치마크를 돌려봤는데 2.5 Flash, 2.5 Pro, 3.0 Flash 중에서 3.0 Flash가 가장 좋았음  
    응답 시간은 그대로인데 결과가 훨씬 좋아짐. 가격 대비 성능이 미쳤음  
    Google이 Pro와 Flash 모델 간에 어떤 **기술적 차이**로 이런 성능을 냈는지 궁금함  
    참고로 나는 Gemini API를 자주 쓰는데, 새 모델이 나올 때마다 내부 벤치마크로 테스트해보고 싶음
  - 나는 **GenAI 회의론자**임. 복잡하거나 틈새 주제에 대해 자주 테스트하는데 대부분 모델이 엉망인 답을 냄  
    그런데 Gemini 3 Flash는 내가 가진 특정 벤치마크 질문에 대해 처음으로 거의 정답에 가까운 답을 냈음  
    아직 표본이 적지만, **정확도 향상**이 분명히 보임
  - OpenAI가 빠른 추론 모델을 등한시한 건 큰 실수라고 생각함  
    GPT 5 하나로 모든 걸 해결하려는 전략은 실패임.  
    지금 Gemini 3 Flash를 테스트 중인데, **지연 시간**과 **성능** 모두 GPT 5 Thinking보다 낫게 나옴  
    OpenAI는 광고보다 실용적인 모델 개발에 집중해야 함
  - 벤치마크를 보면 Flash는 **환각(hallucination)** 부분에서 약하지만, 전반적으로 Gemini 3 Pro나 GPT 5.1 Thinking보다 우수함  
    자세한 결과는 [Artificial Analysis 평가 페이지](https://artificialanalysis.ai/evaluations/omniscience)에서 볼 수 있음
  - OpenAI에 과투자한 기업들이 후회할 시점이 올지도 모름. Nvidia는 예외일 수도 있지만, Microsoft는 Azure를 통해 모델을 팔기 때문에 덜 신경 쓸 듯함

- 이번 릴리스는 프리뷰 없이 바로 프로덕션에 적용 가능해서 좋음  
  하지만 **가격 인상**이 계속되고 있음  
  예를 들어 Gemini 1.5 Flash는 입력 $0.075/M → 3.0 Flash는 $0.50/M까지 올랐음  
  Pro 모델은 입력 $2/M, 출력 $12/M 수준임  
  수정하자면, 이번 모델도 프리뷰 버전임
  - 나는 차라리 **Gemini 3 Flash Lite**가 나왔을 때의 성능과 가격이 더 궁금함  
    대부분의 비코딩 작업에서는 Pro보다 Flash와 Flash Lite의 차이가 더 중요할 수 있음
  - 가격 정리 고마움. Gemini 3.0이 워낙 성능이 좋아서 자신감 있는 가격 정책인 듯함  
    하지만 경쟁이 치열해서 곧 비슷한 성능의 저가 모델이 나올 것 같음
  - **Thinking 모드**를 켜면 토큰 사용량이 달라지므로, 실제 비용 계산 시 이를 고려해야 함
  - GPT-5 Mini는 입력 $0.25/M, 출력 $2/M이라, Flash보다 입력은 절반, 출력은 50% 저렴함

- Google이 정말 **속도·가격·품질** 세 마리 토끼를 잡은 느낌임  
  Android와 G Suite 통합까지 고려하면 엄청난 조합임  
  아마 OpenAI–Jony Ive 하드웨어 프로젝트나 Apple Intelligence보다 먼저 **AI-first 스마트폰**을 내놓으려는 전략 같음
  - 하지만 실제 사용에서는 케이스에 따라 다름.  
    예를 들어 Gemini 3 Pro는 단순한 `Edit` 툴 호출에서도 느리고 자주 실패함  
    같은 작업을 Claude-Code는 5분 만에 끝내는데 Gemini는 27분 걸림
  - [MacRumors 기사](https://www.macrumors.com/2025/11/05/apple-siri-google-gemin...)에 따르면 Apple Intelligence는 Gemini 기반이 될 예정임
  - 그런데 스마트폰에서 AI를 어디에 쓸지 의문임.  
    오히려 태블릿이나 스마트 글래스가 **smol AI**를 활용하기에 더 적합하다고 생각함

- Gemini 3 Flash(non-thinking)가 내 “**강아지 다리 개수 테스트**”에서 50%를 기록한 첫 모델임  
  5개의 다리를 가진 합성 이미지를 보여줬을 때 대부분 모델이 4개라고 답했지만, 3 Flash는 5개라고 맞춤  
  다리에 문신을 추가했을 때만 정확히 세었고, 문신이 없는 이미지는 여전히 4개로 답했음  
  절반의 점수를 줄 만함

- Flash 모델이 점점 비싸지지만, 이번 3.0 Flash는 **가성비가 미쳤음**  
  벤치마크에서 78% 점수를 기록하며 2.5 시리즈와 3 Pro를 모두 능가함  
  **에이전트형 코딩**과 실시간 인터랙티브 앱에 이상적임  
  - 3.0 Flash는 2.5 Pro보다 싸고 빠르고 성능도 좋음  
    2.5 Flash 사용자라면 업그레이드 시 비용이 좀 아프겠지만, 그만한 가치가 있음
  - Flash를 점점 더 **코딩·추론 중심 모델**로 포지셔닝하는 게 좋은 방향이라 생각함  
    저가형을 원하면 Flash Lite가 있으니까 균형이 맞음
  - Nvidia의 [Nemotron 3 Nano](https://huggingface.co/nvidia/NVIDIA-Nemotron-3-Nano-30B-A3B-BF16)가 비슷한 **OSS 대안**이 될 수 있음  
    빠르고 똑똑하며 1M 컨텍스트도 지원함
  - 내 앱 벤치마크에서는 Gemini Flash와 Grok 4 Fast만 쓸 만했음  
    오픈 가중치 모델이 이 영역에서 경쟁하길 바람
  - [Epoch.ai 벤치마크](https://epoch.ai/benchmarks/simplebench) 기준으로도 OpenAI의 GPT 5.2보다 우수함

- 이미 Claude Code와 Gemini 조합으로 충분히 **‘좋은 수준’** 에 도달했다고 느낌  
  이제 다른 회사가 나를 설득하기 어려움.  
  이번 릴리스로 “**충분히 좋고 충분히 싸다**”가 교차하는 지점에 도달함  
  - 나는 전환 비용이 거의 없어서 쉽게 모델을 바꿀 수 있음  
    CLI나 IDE 플러그인에서 모델 선택만 바꾸면 됨
  - 최근 모델들은 드디어 **에이전트형 코딩**의 약속을 현실로 만들어줌
  - 예전 모델들은 자주 틀려서 오히려 시간 낭비였음  
    정확도 복불복이 너무 심했음
  - Opus 4.5면 이미 소프트웨어 엔지니어링 문제는 ‘해결’된 수준임  
    기업은 무제한 지능을 원하지만, 개인에게는 그 정도까진 필요 없음

- SimpleQA 벤치마크에서 69%를 기록했는데, 이는 **극도로 희귀한 지식 테스트**임  
  Gemini 2.5 Pro가 55%였던 걸 생각하면 엄청난 점수임  
  Google이 **지식 압축**이나 **MoE(전문가 혼합)** 구조를 잘 활용한 듯함  
  - [Artificial Analysis의 Omniscience 평가](https://artificialanalysis.ai/evaluations/omniscience)도 참고할 만함  
  - MoE 구조 덕분에 TPU로 많은 파라미터를 쓰면서도 처리량을 유지할 수 있었을 것임  
  - 이런 모델은 **음성 인터페이스**에도 훌륭하게 쓰일 것 같음. 아마 Apple도 채택할 듯함  
  - 혹은 내부적으로 **툴 호출**(예: Google 검색)을 활용해 추론하는 방식일 수도 있음  
  - 전문가 수를 늘리고 활성화 비율을 낮춰 **희소성(sparsity)** 을 높인 구조일 가능성도 있음

- Gemini 3의 ‘Thinking’과 ‘Pro’의 차이를 잘 모르겠음  
  설명에는 “복잡한 문제 해결” vs “고급 수학·코드용 장시간 사고”라고 되어 있음  
  아마 **사고 예산(thinking budget)** 차이일 듯함
  - Fast = Flash(낮은 사고 예산), Thinking = Flash(높은 사고 예산), Pro = Pro(사고 예산 높음) 구조로 보임
  - 실제로는 `thinking_level` 파라미터로 제어되는 듯함  
  - Gemini의 ‘Thinking’이 AGI와 어떻게 다른지 궁금함  
    Gemini는 항상 **질의 기반 사고**만 수행함.  
    루프와 지속 컨텍스트를 추가하면 AGI처럼 보일 수 있지만, 비용이 커짐  
    Google도 아마 이런 실험은 이미 해봤을 것임

- 내 주요 불만은 **대화 삭제 기능 부재**임  
  비즈니스 계정에서는 개별 대화를 지울 수 없고, 전체 보존 기간(최소 3개월)만 설정 가능함  
  유료 사용자로서 점점 비싸지는 요금에 비해 기본 기능이 부족함
  - API를 통해 사용하면 이 문제를 피할 수 있음  
  - 소비자·기업용 모두 **데이터 보존 제어**가 형편없음. 주요 경쟁사 중 최악임

- 빠른 가격 비교를 보면 [LLM Prices](https://www.llm-prices.com/#it=100000&ot=10000&sel=gemini-3-flash-preview%2Cgemini-3-pro-preview%2Cgemini-3-pro-preview-200k%2Cgpt-5.2%2Cclaude-opus-4-5%2Cclaude-sonnet-4.5%2Cclaude-4.5-haiku%2Cgpt-5-mini) 기준으로  
  Gemini 3 Flash는 Pro ≤200k 대비 1/4, Pro >200k 대비 1/8 가격임  
  200k 토큰 이후에도 가격이 오르지 않는 점이 인상적임  
  입력 기준 GPT-5 Mini의 두 배, Claude 4.5 Haiku의 절반 수준임