5P by GN⁺ 8시간전 | ★ favorite | 댓글 1개
  • Gemini 3.5 Flash는 프런티어급 지능과 실행 능력을 결합한 첫 Gemini 3.5 모델로, 에이전트와 코딩의 장기 작업을 겨냥함
  • Flash 시리즈의 속도를 유지하면서 Terminal-Bench 2.1 76.2%, GDPval-AA 1656 Elo 등에서 Gemini 3.1 Pro를 앞섬
  • 출력 토큰 기준 초당 처리 속도가 다른 프런티어 모델보다 4배 빠르고, 비용도 많은 경우 절반 미만이라 장기 에이전트 작업에 유리함
  • Antigravity와 AI Studio에서 앱 개발, 레거시 코드의 Next.js 전환, 논문 기반 게임 구현, UX 시안 생성 같은 다단계 작업을 수행함
  • Gemini 앱과 Search AI Mode의 기본 모델로 제공되며, Gemini Spark와 기업 파트너 워크플로에도 적용되고 3.5 Pro는 다음 달 출시 예정임

Gemini 3.5 공개와 제공 범위

  • Gemini 3.5는 프런티어급 지능과 실행 능력을 결합한 최신 모델 제품군으로, 더 유능한 에이전트를 만들기 위한 모델로 자리 잡음
  • 첫 출시 모델은 3.5 Flash이며, 에이전트와 코딩에서 프런티어급 성능을 제공하고 실제 유용성이 있는 복잡한 장기 작업에 초점을 둠
  • 3.5 Flash는 여러 Google 제품과 개발자 도구를 통해 제공됨
    • Gemini 앱과 Google Search의 AI Mode를 통해 일반 사용자에게 제공됨
    • Google Antigravity, Google AI Studio의 Gemini API, Android Studio를 통해 개발자가 사용할 수 있음
    • Gemini Enterprise Agent Platform과 Gemini Enterprise를 통해 기업에 제공됨
  • 3.5 Pro도 개발 중이며, 이미 내부에서 사용되고 있고 다음 달 출시 예정임

3.5 Flash의 성능

  • 3.5 Flash는 Flash 시리즈의 속도를 유지하면서 여러 차원에서 대형 플래그십 모델과 경쟁하는 지능을 제공함
  • Google의 가장 강력한 에이전트형 코딩 모델로, 어려운 코딩 및 에이전트 벤치마크에서 Gemini 3.1 Pro를 앞섬
    • Terminal-Bench 2.1: 76.2%
    • GDPval-AA: 1656 Elo
    • MCP Atlas: 83.6%
    • CharXiv Reasoning 멀티모달 이해: 84.2%
  • 출력 토큰 기준 초당 처리 속도는 다른 프런티어 모델보다 4배 빠름
  • Artificial Analysis 지표에서 상단 오른쪽 사분면에 위치해, 품질과 지연 시간 사이의 절충을 줄인 모델로 나타남

대규모 에이전트 작업

  • 속도와 성능의 균형 덕분에 3.5 Flash는 장기 에이전트 작업에 적합함
  • 개발자가 며칠, 감사자가 몇 주 걸리던 작업을 더 짧은 시간에 끝내도록 돕고, 다른 프런티어 모델 대비 절반 미만의 비용으로 가능한 경우가 많음
  • 실제 문제 해결 과정에서 빠르게 계획하고, 만들고, 반복할 수 있음
    • 새 애플리케이션 개발
    • 코드베이스 유지보수
    • 재무 문서 준비 지원
  • 업데이트된 Antigravity 하네스(harness) 와 결합하면, 까다로운 사용 사례에서 협업형 하위 에이전트를 배포해 문제를 대규모로 처리하는 실행 엔진이 됨
  • 감독하에 다단계 워크플로와 코딩 작업을 안정적으로 실행하면서 프런티어급 성능을 유지함

Antigravity와 AI Studio 활용 예시

  • 3.5 Flash는 Antigravity에서 동적 기준에 따라 구조화되지 않은 자산을 자동으로 이름 변경하고 분류하는 다단계 워크플로를 실행함
  • Antigravity에서 두 개의 에이전트를 사용해 AlphaZero 논문을 종합하고, 6시간 안에 완전히 플레이 가능한 게임을 코딩함
  • Antigravity 하네스로 복잡한 레거시 코드베이스를 Next.js로 변환함
  • Antigravity에서 하위 에이전트를 사용해 새로운 도시 경관을 생성하고, 빌더와 플레이어 두 에이전트의 빠른 자기 개선 루프로 게임을 개발함
  • Gemini 3의 강한 멀티모달 기반 위에서 3.5 Flash는 더 풍부하고 상호작용적인 웹 UI와 그래픽을 생성함
    • AI Studio에서 AI 연구 논문을 위한 상호작용형 애니메이션을 생성함
    • AI Studio에서 일반 텍스트 설명을 상호작용형 하드웨어로 변환함
    • AI Studio에서 학교 모금 행사를 위한 전체 브랜딩 콘셉트를 만들기 위해 여러 콘셉트를 병렬 실행함
    • AI Studio에서 체크아웃 흐름을 위한 서로 다른 UX 접근 방식을 60초 만에 생성함

기업과 개발자 활용

  • 3.5 Flash의 에이전트 능력은 개발자와 기업 워크플로에서 이미 활용되고 있음
  • Gemini 3.5 모델 제품군 개발 과정에서 산업 파트너와 함께 반복 업무와 복잡성이 발생하는 지점을 파악함
  • 파트너들은 은행과 핀테크의 여러 주짜리 워크플로 자동화부터 복잡한 데이터 환경에서 데이터 과학 팀이 인사이트를 찾는 작업까지 효과를 확인하고 있음
  • Shopify

    • 하위 에이전트를 병렬 실행해 장기적으로 복잡한 데이터를 분석하고, 전 세계 규모에서 더 정확한 상인 성장 예측을 수행함
  • Macquarie Bank

    • 100페이지가 넘는 복잡한 문서를 추론하고, 관련 정보를 검색하며, 낮은 지연 시간으로 신뢰할 수 있는 추천을 만들어 고객 온보딩을 가속하는 방식을 파일럿 중임
  • Salesforce

    • 3.5 Flash를 Agentforce에 통합해, 문맥을 유지하고 복잡한 다중 턴 도구 호출을 실행하는 여러 하위 에이전트로 복잡한 기업 작업을 자동화함
  • Ramp

    • 복잡한 인보이스의 멀티모달 이해와 과거 패턴에 대한 추론을 결합해 더 똑똑하고 신뢰할 수 있는 OCR을 지원함
  • Xero

    • 공급업체 식별과 1099 세금 양식용 정보 수집처럼 여러 주에 걸친 복잡한 워크플로를 에이전트가 자율적으로 관리하게 해, 소기업의 반복적인 관리 작업 자동화를 가능하게 함
  • Databricks

    • 에이전트형 워크플로를 사용해 실시간 정보를 모니터링하고 검색하며, 대규모 데이터셋 전반에서 추론해 문제를 진단하고 수정 사항과 해결책을 제안함

개인 AI 에이전트와 Search 적용

  • 3.5 Flash는 전 세계 Gemini 앱과 Search의 AI Mode에서 기본 모델이 됨
  • Google I/O에서 3.5 Flash의 에이전트 기능을 일상생활에 적용하는 새 기능들이 공개됨
  • Gemini Spark는 3.5 Flash를 사용하는 개인 AI 에이전트임
    • 24시간 내내 실행됨
    • 사용자의 지시에 따라 디지털 생활을 탐색하고 사용자를 대신해 행동함
    • 신뢰할 수 있는 테스터에게 오늘부터 출시되기 시작함
    • 미국의 Google AI Ultra 구독자에게 다음 주 베타로 제공될 예정임
  • 3.5 Flash의 향상된 에이전트형 코딩 능력은 Search 전반에서 더 지능적인 경험을 제공함
    • 사용자를 위해 24시간 작동하는 새로운 정보 에이전트를 도입함
    • 더 동적인 생성형 UI 경험을 가능하게 함
    • Search는 3.5 Flash를 활용해 Gyroid 패턴을 설명하는 상호작용형 시각 자료를 생성함

안전장치

  • Gemini 3.5는 Frontier Safety Framework에 따라 개발됨
  • 사이버 및 CBRN 안전장치가 강화되어, 유해 콘텐츠를 생성할 가능성과 안전한 질의에 잘못 답변을 거부할 가능성이 낮아짐
  • 새롭고 더 고도화된 안전 학습과 완화 기법이 적용됨
  • 응답을 제공하기 전에 AI의 내부 추론을 점검하고 이해하는 데 도움이 되는 해석 가능성 도구가 포함됨

댓글과 토론

Hacker News 의견들
  • 펠리컨은 꽤 그럴듯함: https://github.com/simonw/llm-gemini/issues/133#issuecomment...
    다만 자전거로는 별로임. 페달과 뒷바퀴 사이의 막대를 빼먹었고, 다른 프레임도 이상하게 엉켜 있음
    비용도 비쌈. 저 펠리컨 하나가 13센트였음: https://www.llm-prices.com/#it=11&ot=14403&sel=gemini-3.5-fl...

    • 저 펠리컨은 암호화폐 콘퍼런스 때문에 Miami에 온 것처럼 보임
    • 이건 거대 언어 모델의 발전에서 느꼈던 현상을 완벽히 보여줌. 이런 SVG 개선을 시키면 빠진 가로대나 분리된 팔다리는 고치지 않고, 그냥 더 많은 요소를 추가함
      이 예시도 분명 크게 좋아졌고 디테일은 터무니없이 많지만, 기본적인 프레임 모양은 여전히 틀림. 웹페이지로 해봐도 버튼 같은 걸 더 추가하는 식으로 같은 패턴이 나타남
      망가진 펠리컨 SVG를 이미지 모델에 넣어 결함을 찾게 해봤는데도, 망가진 요소를 여전히 못 찾아냄
    • 체인스테이를 빼먹는 건 아무 사람에게 자전거를 그려보라고 했을 때 흔히 나오는 결과임
      https://www.gianlucagimini.it/portfolio-item/velocipedia/

      most ended up drawing something that was pretty far off from a regular men’s bicycle

    • Google 특유의, 멋없지만 젊은 층에게 계속 관련 있어 보이려 애쓰는 분위기를 꽤 잘 담아낸 느낌
    • 저 태양은 OS 박물관 관련 다른 상위 HN 글 배경에 나온 태양과 아주 비슷함: https://news.ycombinator.com/item?id=48195009
  • 입력/출력 백만 토큰당 가격:
    Gemini 2.5 Flash: $0.30/$2.50
    Gemini 3.0 Flash Preview: $0.50/$3.00
    Gemini 3.5 Flash: $1.50/$9.00
    가격 방향이 흥미로움. 같은 크기의 바로 다음 모델에서 3배 가격 인상은 본 적이 없는 것 같고, 3은 Preview만 있었던 것도 웃김
    3.5 Flash는 $1.25/$10였던 Gemini 2.5 Pro와 비슷한 비용임

    • 이건 비용 증가를 과소평가함. 3.5 Flash는 토큰도 더 많이 씀. artificialanalysis.ai 기준 전체 평가를 돌린 비용 차이는 더 현실적인 가격에 가까워 보임:
      Gemini 2.5 Flash(27점): $172(1.0x)
      Gemini 2.5 Pro(35점): $649(3.8x)
      Gemini 3.0 Flash(46점): $278(1.6x)
      Gemini 3.5 Flash(55점): $1,552(9.0x, 또는 2.5 Pro 대비 2.4x)
      엄청난 가격 인상임. Gemini 3.0 Flash와 비교하면 5.6배
    • 애초에 저렴한 모델을 계속 제공할 생각이 없었을 가능성이 큼. API 위에 서비스를 만든 사람들이 생긴 뒤 압박을 넣기 시작하는 자연스러운 방식임
      그래서 제공자에 묶이지 않는 추상화 계층을 두는 게 정말 합리적임. Kotlin을 쓴다면 Koog가 훌륭함
    • 또 한 번의 DeepSeek 순간이 필요함. 아니면 평범한 사람이 AI를 쓰기 어려워지고, 대기업만 감당할 수 있는 물건이 될 것임
    • Google이 TPU 덕분에 실제로 다른 곳보다 더 싸게 추론을 돌리고 있다면, 이건 위험 신호처럼 느껴짐. 거대 언어 모델을 이익 내며 서빙하기가 어려운 것으로 드러나는지도 모름
      아니면 벤치마크가 좋으니 가격을 올려도 된다고 보는 것일 수 있음. 다만 아직 그런 결정을 정당화할 만큼 시장점유율이 있어 보이진 않음
    • 3.5 Flash는 Preview가 아니라 Stable로 표시되어 있는 것 아닌가? 내가 잘못 읽은 건가?
      https://ai.google.dev/gemini-api/docs/models/gemini-3.5-flas...
  • Google이 이번 모델을 Preview가 아니라 Stable로 표시한 점은 눈여겨볼 만함. 최근 출시 흐름과 비교하면 이례적임
    여기에 3배 가격 인상까지 더하면, Flash 가격은 나중에 되돌릴 임시 조치라기보다 Google이 원하는 장기 하한선처럼 읽힘
    다만 이게 Google만 분위기를 읽은 결과인지, 업계 전체가 조용히 저가 추론의 기준선을 다시 잡는 중인지는 아직 판단하기 어려움

  • Create animated SVG of a frog on a boat rowing through jungle river. Single page self contained HTML page with SVG
    3.5 Flash: Thinking Medium - 7516 tokens
    https://gistpreview.github.io/?5c9858fd2057e678b55d563d9bff0...
    3.5 Flash: Thinking High - 7280 tokens
    https://gistpreview.github.io/?1cab3d70064349d08cf5952cdc165...
    3.1 Pro - 28,258 tokens
    https://gistpreview.github.io/?6bf3da2f80487608b9525bce53018...
    3.1은 생성에 3분 동안 생각했지만, 애니메이션 움직임을 제대로 넣은 유일한 모델이었음

  • 누가 "Flash"라고 하면 바로 "대신 HTML5를 고려해보세요"가 떠오를 정도로 내가 정말 나이 든 건가?

    • Flash 문화를 그렇게 재미있게 만들었던 요소 중 HTML5로 넘어온 건 거의 없음
    • Flash 디자이너는 정말 좋았음. 웹이 어느 정도 후퇴시킨 것 중 하나가 90년대와 2000년대의 RAD 도구들이었음
    • 젊은이들이여!
      Flash, ah, ah, saviour of the universe. Flash, ah, ah, he'll save every one of us!
      지난 몇 년인지도 모를 만큼 오래, "flash"라는 단어를 들을 때마다 항상 이게 떠오름
  • 지식 기준일: 2025년 1월
    최신 업데이트: 2026년 5월
    이 지연에 대해 아주 불길한 느낌이 듦

    • 적어도 일부 경우에는 더 많은 합성 데이터와 엄격히 선별된 데이터로 학습하는 방향으로 가는 것 같음. 특히 작은 모델은 수십~수백 GB의 모델 가중치 안에 세상을 다 저장할 공간이 없어서 지식 폭을 극도로 넓힐 수 없음
      그래서 더 높은 품질의 추론을 얻으려면 학습을 집중시키고, 데이터는 아주 고품질·고밀도여야 함
      도구 사용이 강하면 모델이 오래된 데이터를 쓰는 것 자체는 별로 중요하지 않을 수도 있음. 최신 정보를 검색할 수 있기 때문임. 다만 현재 대부분 모델은 약간 유도해주지 않으면 그렇게 하지 않음
      Qwen 3 계열은 모두 같은 기반 모델에서 출발해 여러 지표를 개선하기 위해 미세조정/후학습만 한 것으로 알고 있음. Gemini 3 계열도 전부 같을 수 있고, 지금 이 순간 Gemini 4 기반 모델을 최신 지식으로 동시에 학습 중일지도 모름
    • 사실을 모델 가중치에서 꺼내게 하면 안 됨. 실제 데이터 소스로 근거를 잡아야 함
    • 무슨 뜻인지 설명해줄 수 있음?
    • 그건 Google이 선택한 것이라고 생각했음
  • google ai pro plan을 쓰고 있고 Antigravity에서 3.5 Flash를 써봤는데, 프롬프트 두 번 만에 할당량을 다 써버림. 버그가 아니라면 정말 사용 불가능한 수준임

    • 어제나 그제 Google이 AI Pro 할당량을 표준 사용량의 33배에서 4배로 낮췄음
      Gemini subreddit 분위기를 보면 이전보다 심하게 줄어든 듯함. 나도 AI Pro를 취소할 가능성이 큼
      이번 업데이트로 앱도 망가졌음. 메시지를 수정하면 매번 앱이 크래시남. 심지어 Pixel에서 쓰고 있는데도 그럼
  • Gemini 3.5 Flash의 2000토큰 시계는 나쁘지 않음. https://clocks.brianmoore.com/

  • 거의 비슷한 모델에 3배 가격 인상이라니. AI가 더 싸지고 어디에나 쓰이게 될 거라고 했었는데

    • 크랙 유행처럼 어디에나 퍼진다는 뜻이었나 봄
    • 벤치마크를 믿는다면 3.1 Pro의 4분의 3 가격이라고 볼 수도 있음
  • 가격이 말도 안 됨
    Gemini 3.5 Pro도 가격이 같이 오를 것 같음. 12 x 5 = 60?
    Google은 우리가 중국 모델을 쓰길 바라는 것처럼 보임