3P by GN⁺ 2일전 | ★ favorite | 댓글 1개
  • Gemini 3 Flash는 빠른 속도와 낮은 비용으로 프런티어급 지능을 제공하는 Google의 최신 AI 모델임
  • Gemini 3 Pro 수준의 추론 능력을 유지하면서 Flash 시리즈의 지연시간과 효율성을 결합해 일상적 작업과 에이전트형 워크플로를 지원
  • GPQA Diamond 90.4% , Humanity’s Last Exam 33.7% , MMMU Pro 81.2% 등 주요 벤치마크에서 Gemini 2.5 Pro를 능가
  • 개발자는 Google AI Studio, Gemini CLI, Antigravity, Vertex AI 등에서 접근 가능하며, 일반 사용자는 Gemini 앱과 검색의 AI 모드를 통해 무료 이용 가능
  • 속도·비용·지능의 균형을 새롭게 정의하며, 대규모 사용자와 기업 환경 모두에 확장 가능한 모델로 자리매김

Gemini 3 Flash 개요

  • Gemini 3 Flash는 Gemini 3 모델군의 확장판으로, 속도와 효율성을 극대화한 차세대 모델
    • Gemini 3 Pro와 Deep Think 모드에 이어 공개되었으며, 1조 토큰/일 이상이 API를 통해 처리되고 있음
    • 복잡한 주제 학습, 인터랙티브 게임 설계, 멀티모달 콘텐츠 이해 등 다양한 활용 사례가 보고됨
  • Gemini 3의 고급 추론·비전 이해·에이전트형 코딩 기능을 유지하면서, Flash 수준의 지연시간과 비용 효율성을 결합
  • 일상적 작업의 정확도 향상에이전트형 워크플로에 최적화된 모델로 설계됨

성능 및 벤치마크

  • Gemini 3 Flash는 속도와 규모가 지능을 희생하지 않음을 입증
    • GPQA Diamond 90.4%, Humanity’s Last Exam 33.7%(도구 미사용), MMMU Pro 81.2%로 대형 모델과 유사한 성능
    • Gemini 2.5 Pro 대비 다수의 벤치마크에서 우수한 결과 기록
  • 품질·비용·속도의 파레토 프런티어를 확장
    • 복잡한 작업에서는 더 오래 사고하지만, 일반 트래픽 기준 평균 30% 적은 토큰 사용으로 높은 성능 유지
  • Artificial Analysis 기준 2.5 Pro보다 3배 빠른 처리 속도, 비용은 입력 100만 토큰당 $0.50, 출력 $3.00
    • 오디오 입력은 100만 토큰당 $1.00

개발자용 기능

  • 반복적 개발과 고빈도 워크플로에 적합한 저지연 코딩 성능 제공
    • SWE-bench Verified 벤치마크에서 78% 점수로 2.5 시리즈와 Gemini 3 Pro를 모두 능가
  • 비디오 분석, 데이터 추출, 시각적 질의응답 등 복합 멀티모달 작업에 강점
    • 실시간 게임 보조, A/B 테스트, 디자인 자동화 등 지능형 애플리케이션 구현 지원
  • JetBrains, Bridgewater Associates, Figma 등 기업이 이미 도입 중이며, Vertex AI 및 Gemini Enterprise를 통해 제공

일반 사용자용 기능

  • Gemini 앱의 기본 모델로 2.5 Flash를 대체, 전 세계 사용자가 무료로 이용 가능
    • 비디오·이미지 분석을 통해 실행 가능한 계획 생성 등 멀티모달 추론 기능 강화
    • 예: 골프 스윙 분석, 그림 인식, 오디오 기반 맞춤 퀴즈 생성 등
  • 음성 명령만으로 앱 프로토타입 제작 가능, 비전문가도 빠르게 앱 구현
  • 검색의 AI 모드에서도 기본 모델로 적용
    • Gemini 3 Pro의 추론력을 기반으로 질문 맥락을 세밀하게 분석하고, 시각적으로 정리된 답변과 실시간 정보 제공
    • 복잡한 여행 계획이나 교육 개념 학습 등 다단계 목표 처리에 강점

접근 경로 및 배포

  • 개발자용: Google AI Studio, Gemini CLI, Antigravity, Vertex AI, Gemini Enterprise에서 프리뷰 형태로 제공
  • 일반 사용자용: Gemini 앱과 Google 검색의 AI 모드에서 순차적 글로벌 롤아웃 진행
  • Gemini 3 Flash는 Gemini 3 Pro, Deep Think와 함께 Gemini 3 모델군의 주요 축으로 확장됨
Hacker News 의견들
  • “Flash”라는 이름에 속으면 안 됨. 이 모델은 정말 놀라운 성능을 보임
    몇 주 동안 써봤는데 속도도 빠르고 지식 범위도 넓어서 Claude Opus 4.5나 GPT 5.2 Extra High보다 훨씬 효율적임. 추론 시간과 비용이 거의 10분의 1 수준임

    • 나도 벤치마크를 돌려봤는데 2.5 Flash, 2.5 Pro, 3.0 Flash 중에서 3.0 Flash가 가장 좋았음
      응답 시간은 그대로인데 결과가 훨씬 좋아짐. 가격 대비 성능이 미쳤음
      Google이 Pro와 Flash 모델 간에 어떤 기술적 차이로 이런 성능을 냈는지 궁금함
      참고로 나는 Gemini API를 자주 쓰는데, 새 모델이 나올 때마다 내부 벤치마크로 테스트해보고 싶음
    • 나는 GenAI 회의론자임. 복잡하거나 틈새 주제에 대해 자주 테스트하는데 대부분 모델이 엉망인 답을 냄
      그런데 Gemini 3 Flash는 내가 가진 특정 벤치마크 질문에 대해 처음으로 거의 정답에 가까운 답을 냈음
      아직 표본이 적지만, 정확도 향상이 분명히 보임
    • OpenAI가 빠른 추론 모델을 등한시한 건 큰 실수라고 생각함
      GPT 5 하나로 모든 걸 해결하려는 전략은 실패임.
      지금 Gemini 3 Flash를 테스트 중인데, 지연 시간성능 모두 GPT 5 Thinking보다 낫게 나옴
      OpenAI는 광고보다 실용적인 모델 개발에 집중해야 함
    • 벤치마크를 보면 Flash는 환각(hallucination) 부분에서 약하지만, 전반적으로 Gemini 3 Pro나 GPT 5.1 Thinking보다 우수함
      자세한 결과는 Artificial Analysis 평가 페이지에서 볼 수 있음
    • OpenAI에 과투자한 기업들이 후회할 시점이 올지도 모름. Nvidia는 예외일 수도 있지만, Microsoft는 Azure를 통해 모델을 팔기 때문에 덜 신경 쓸 듯함
  • 이번 릴리스는 프리뷰 없이 바로 프로덕션에 적용 가능해서 좋음
    하지만 가격 인상이 계속되고 있음
    예를 들어 Gemini 1.5 Flash는 입력 $0.075/M → 3.0 Flash는 $0.50/M까지 올랐음
    Pro 모델은 입력 $2/M, 출력 $12/M 수준임
    수정하자면, 이번 모델도 프리뷰 버전임

    • 나는 차라리 Gemini 3 Flash Lite가 나왔을 때의 성능과 가격이 더 궁금함
      대부분의 비코딩 작업에서는 Pro보다 Flash와 Flash Lite의 차이가 더 중요할 수 있음
    • 가격 정리 고마움. Gemini 3.0이 워낙 성능이 좋아서 자신감 있는 가격 정책인 듯함
      하지만 경쟁이 치열해서 곧 비슷한 성능의 저가 모델이 나올 것 같음
    • Thinking 모드를 켜면 토큰 사용량이 달라지므로, 실제 비용 계산 시 이를 고려해야 함
    • GPT-5 Mini는 입력 $0.25/M, 출력 $2/M이라, Flash보다 입력은 절반, 출력은 50% 저렴함
  • Google이 정말 속도·가격·품질 세 마리 토끼를 잡은 느낌임
    Android와 G Suite 통합까지 고려하면 엄청난 조합임
    아마 OpenAI–Jony Ive 하드웨어 프로젝트나 Apple Intelligence보다 먼저 AI-first 스마트폰을 내놓으려는 전략 같음

    • 하지만 실제 사용에서는 케이스에 따라 다름.
      예를 들어 Gemini 3 Pro는 단순한 Edit 툴 호출에서도 느리고 자주 실패함
      같은 작업을 Claude-Code는 5분 만에 끝내는데 Gemini는 27분 걸림
    • MacRumors 기사에 따르면 Apple Intelligence는 Gemini 기반이 될 예정임
    • 그런데 스마트폰에서 AI를 어디에 쓸지 의문임.
      오히려 태블릿이나 스마트 글래스가 smol AI를 활용하기에 더 적합하다고 생각함
  • Gemini 3 Flash(non-thinking)가 내 “강아지 다리 개수 테스트”에서 50%를 기록한 첫 모델임
    5개의 다리를 가진 합성 이미지를 보여줬을 때 대부분 모델이 4개라고 답했지만, 3 Flash는 5개라고 맞춤
    다리에 문신을 추가했을 때만 정확히 세었고, 문신이 없는 이미지는 여전히 4개로 답했음
    절반의 점수를 줄 만함

  • Flash 모델이 점점 비싸지지만, 이번 3.0 Flash는 가성비가 미쳤음
    벤치마크에서 78% 점수를 기록하며 2.5 시리즈와 3 Pro를 모두 능가함
    에이전트형 코딩과 실시간 인터랙티브 앱에 이상적임

    • 3.0 Flash는 2.5 Pro보다 싸고 빠르고 성능도 좋음
      2.5 Flash 사용자라면 업그레이드 시 비용이 좀 아프겠지만, 그만한 가치가 있음
    • Flash를 점점 더 코딩·추론 중심 모델로 포지셔닝하는 게 좋은 방향이라 생각함
      저가형을 원하면 Flash Lite가 있으니까 균형이 맞음
    • Nvidia의 Nemotron 3 Nano가 비슷한 OSS 대안이 될 수 있음
      빠르고 똑똑하며 1M 컨텍스트도 지원함
    • 내 앱 벤치마크에서는 Gemini Flash와 Grok 4 Fast만 쓸 만했음
      오픈 가중치 모델이 이 영역에서 경쟁하길 바람
    • Epoch.ai 벤치마크 기준으로도 OpenAI의 GPT 5.2보다 우수함
  • 이미 Claude Code와 Gemini 조합으로 충분히 ‘좋은 수준’ 에 도달했다고 느낌
    이제 다른 회사가 나를 설득하기 어려움.
    이번 릴리스로 “충분히 좋고 충분히 싸다”가 교차하는 지점에 도달함

    • 나는 전환 비용이 거의 없어서 쉽게 모델을 바꿀 수 있음
      CLI나 IDE 플러그인에서 모델 선택만 바꾸면 됨
    • 최근 모델들은 드디어 에이전트형 코딩의 약속을 현실로 만들어줌
    • 예전 모델들은 자주 틀려서 오히려 시간 낭비였음
      정확도 복불복이 너무 심했음
    • Opus 4.5면 이미 소프트웨어 엔지니어링 문제는 ‘해결’된 수준임
      기업은 무제한 지능을 원하지만, 개인에게는 그 정도까진 필요 없음
  • SimpleQA 벤치마크에서 69%를 기록했는데, 이는 극도로 희귀한 지식 테스트
    Gemini 2.5 Pro가 55%였던 걸 생각하면 엄청난 점수임
    Google이 지식 압축이나 MoE(전문가 혼합) 구조를 잘 활용한 듯함

    • Artificial Analysis의 Omniscience 평가도 참고할 만함
    • MoE 구조 덕분에 TPU로 많은 파라미터를 쓰면서도 처리량을 유지할 수 있었을 것임
    • 이런 모델은 음성 인터페이스에도 훌륭하게 쓰일 것 같음. 아마 Apple도 채택할 듯함
    • 혹은 내부적으로 툴 호출(예: Google 검색)을 활용해 추론하는 방식일 수도 있음
    • 전문가 수를 늘리고 활성화 비율을 낮춰 희소성(sparsity) 을 높인 구조일 가능성도 있음
  • Gemini 3의 ‘Thinking’과 ‘Pro’의 차이를 잘 모르겠음
    설명에는 “복잡한 문제 해결” vs “고급 수학·코드용 장시간 사고”라고 되어 있음
    아마 사고 예산(thinking budget) 차이일 듯함

    • Fast = Flash(낮은 사고 예산), Thinking = Flash(높은 사고 예산), Pro = Pro(사고 예산 높음) 구조로 보임
    • 실제로는 thinking_level 파라미터로 제어되는 듯함
    • Gemini의 ‘Thinking’이 AGI와 어떻게 다른지 궁금함
      Gemini는 항상 질의 기반 사고만 수행함.
      루프와 지속 컨텍스트를 추가하면 AGI처럼 보일 수 있지만, 비용이 커짐
      Google도 아마 이런 실험은 이미 해봤을 것임
  • 내 주요 불만은 대화 삭제 기능 부재
    비즈니스 계정에서는 개별 대화를 지울 수 없고, 전체 보존 기간(최소 3개월)만 설정 가능함
    유료 사용자로서 점점 비싸지는 요금에 비해 기본 기능이 부족함

    • API를 통해 사용하면 이 문제를 피할 수 있음
    • 소비자·기업용 모두 데이터 보존 제어가 형편없음. 주요 경쟁사 중 최악임
  • 빠른 가격 비교를 보면 LLM Prices 기준으로
    Gemini 3 Flash는 Pro ≤200k 대비 1/4, Pro >200k 대비 1/8 가격임
    200k 토큰 이후에도 가격이 오르지 않는 점이 인상적임
    입력 기준 GPT-5 Mini의 두 배, Claude 4.5 Haiku의 절반 수준임