Gemini 3.5 Flash
(deepmind.google)- Google DeepMind의 Gemini 3.5 Flash는 Flash 계열의 낮은 지연시간과 확장성을 유지하면서 에이전트·코딩 작업에 고급 추론을 제공하는 Preview 모델임
- 긴 작업 흐름과 반복적 코딩뿐 아니라 텍스트·오디오·이미지·코드·비디오를 함께 다루는 멀티모달 이해가 핵심 역량임
- 공개 예시는 빠른 UI 생성부터 논문 기반 게임 구축, 가상 도시 설계까지 포함해 에이전트형 작업에서의 활용 범위를 강조함
- 벤치마크에서는 MCP Atlas 83.6%, Toolathlon 56.5%, Finance Agent v2 57.9%, MMMU-Pro 83.6% 등 여러 항목에서 표 내 최고 점수를 기록함
- 입력은 텍스트·이미지·비디오·오디오·PDF를 지원하고 출력은 텍스트이며, 1M 입력 토큰과 64k 출력 토큰, 함수 호출·구조화 출력·검색 도구·코드 실행을 제공함
Gemini 3.5 Flash의 위치
- Gemini 3.5 Flash는 “Flash 수준의 지연시간과 확장성”에서 고급 추론을 제공하는 모델임
- 적용 영역은 에이전트, 코딩, 일상 작업, 고급 추론, 멀티모달 이해, 긴 컨텍스트 이해임
- 모델 상태는 Preview임
Flash 지연시간에서 겨냥하는 작업
- 빠른 속도와 지능을 함께 제공하는 것이 핵심 방향임
- 속도와 확장성을 유지하면서도 지능을 희생하지 않는 모델로 자리 잡으려 함
- 긴 범위 추론과 반복적 코딩 작업을 처리함
- 텍스트, 오디오, 이미지, 코드, 비디오 전반에서 멀티모달 이해를 지원함
에이전트 활용 예시
- 빠른 에이전트 역량을 보여주는 작업 사례가 여럿 제시됨
- 60초 미만에 결제 UI 옵션 6개 생성
- 고속으로 프랙털 변형 64개 생성
- AlphaGo 논문을 입력받아 지능형 게임을 자율적으로 구축
- 최소 입력으로 모금 행사 브랜드를 생성·개선하는 여러 워크플로 조율
- 텍스트 설명을 완전한 인터랙티브 HTML 컴포넌트로 변환
- Strudel 음악 라이브러리를 사용해 여러 에이전트가 노래를 생성
- 전문 에이전트 팀을 조율해 가상 도시를 설계·구축
- 지저분한 데이터셋을 자동으로 이름 변경하고 구조화
- 에이전트를 배치해 게임을 실시간으로 계속 개선
고객 사례와 성능 개선
- Armadin은 Gemini의 최신 Flash 모델이 장거리 멀티턴 사이버 벤치마크에서 Flash 3보다 42% 높고, 토큰 효율은 68% 개선됐다고 밝힘
- Box의 엔터프라이즈 작업 평가 세트에서는 Gemini 3.5 Flash가 Gemini 3 Flash보다 19.6% 높았음
- Life Sciences 고객의 데이터 추출과 계산 정확도는 96.4% 높아짐
- Financial Services용 구조화 데이터 기반 금융 보고서 생성 정확도는 46.7% 높아짐
- JetBrains의 Junie는 Gemini 3.5 Flash가 Gemini Pro에 가까운 코딩·추론 품질을 제공하면서 Flash의 속도와 비용 특성을 유지한다고 평가함
- 이전 Flash 세대 대비 낮은 추론 수준의 코딩 성능이 10–20% 개선됨
벤치마크 결과
- Gemini 3.5 Flash는 에이전트 워크플로용 모델로 강하게 부각됨
- 코딩 벤치마크
- Terminal-bench 2.1 Agentic terminal coding: 76.2%
- SWE-Bench Pro Public: 55.1%
- 에이전트·도구 사용 벤치마크
- MCP Atlas: 83.6% 로 표 내 최고 점수
- Toolathlon: 56.5% 로 표 내 최고 점수
- UI 제어와 전문 작업
- OSWorld-Verified: 78.4%
- Finance Agent v2: 57.9% 로 표 내 최고 점수
- GDPval-AA Elo: 1656
- 멀티모달 벤치마크
- CharXiv Reasoning: 84.2% 로 표 내 최고 점수
- MMMU-Pro: 83.6% 로 표 내 최고 점수
- Blueprint-Bench 2: 33.6%
- 긴 컨텍스트와 추론
- MRCR v2 128k 평균: 77.3%
- MRCR v2 1M pointwise: 26.6% 로 비교 가능한 Gemini 3 Flash와 Gemini 3.1 Pro보다 높음
- Humanity’s Last Exam: 40.2%
- ARC-AGI-2: 72.1%
- 평가 방법 세부 정보는 Gemini 3.5 Flash evals methodology에 있음
모델 정보와 사용 가능 환경
- 입력은 텍스트, 이미지, 비디오, 오디오, PDF를 지원함
- 출력은 텍스트임
- 컨텍스트와 지식 기준
- 입력 토큰: 1M
- 출력 토큰: 64k
- 지식 컷오프: 2025년 1월
- 도구 사용 기능
- 함수 호출
- 구조화 출력
- 검색을 도구로 사용
- 코드 실행
- 사용 가능 환경은 Gemini App, Gemini API, Gemini Enterprise, Gemini Enterprise Agent Platform, Google AI Mode, Google AI Studio, Google Antigravity, Android Studio임
- 개발자 문서는 Gemini API models documentation에서 제공됨
- 모델 카드는 Gemini 3.5 Flash model card에서 제공됨
댓글과 토론
Hacker News 의견들
- llm-gemini 플러그인을 업그레이드해서 Gemini Flash CLI 접근을 제공하게 했음
pipx install llm # or brew install llm
llm install llm-gemini --upgrade
llm keys set gemini
# paste API key here
llm -m gemini-1.5-flash-latest 'a short poem about otters'
https://github.com/simonw/llm-gemini/releases/tag/0.1a4 - MMLU 같은 벤치마크를 보면, 이건 사실상 Llama 3 70B급 품질에 첫 토큰 지연이 1초 미만이고, GPT-4/Opus급은 아니지만 네이티브 멀티모달과 100만 컨텍스트를 갖춘 모델이라는 뜻으로 보임
직접 구축하는 것과 비교하면 나쁘지 않지만, 최전선 모델 중 Gemini의 핵심 차별점은 네이티브 멀티모달이었음. GPT-4o가 나온 지금 GCP에 묶이지 않은 조직이 왜 Gemini를 고를지는 잘 모르겠음. 책이나 영화 전체를 한 번에 처리하지 않는다면 GPT-4o의 128k 컨텍스트도 충분한데, 100만에서 10만으로 줄여도 안 되는 작업을 실제 규모로 하는 곳이 있는지 궁금함- 100만 토큰이면 채팅을 시작하기 전에 문서 2,000쪽을 컨텍스트 창에 넣을 수 있음
Gemini의 강점은 논리 퍼즐을 푸는 능력이 아니라 컨텍스트 길이에 있음. 시험공부 중이면 교재 전체를 채팅에 넣으면 되고, 인터넷에 정보가 없는 오래된 테스트 시스템용 죽은 언어를 써야 한다면 1,300쪽짜리 참조 매뉴얼을 넣고 물어보면 됨 - 이게 Llama 3 70B 품질일 리는 없다고 봄
Gemini 1.5 Pro를 여러 업무 흐름에 넣어보려 했는데 너무 별로였음. 특히 비디오나 오디오를 넣으면 환각이 믿기 어려울 만큼 많았음. 환각이 많은 작은 멀티모달 모델이 대부분의 기업에서 실용적인 사용 사례를 갖는지 모르겠고, 신뢰성이 없으면 그냥 장난감임 - GCP에 묶이지 않은 조직이 Gemini를 고를 이유는 가격임. 특히 GPT-4 품질까지 필요 없는 멀티모달 작업에서 그렇다
OpenAI의 가장 싼 멀티모달 모델인 GPT-4o와 비교해도, GPT-3.5-Turbo는 GPT-4o 비용의 1/10이고 입력 100만 토큰당 $0.5, 출력 100만 토큰당 $1.50, 컨텍스트 창 16K임. Gemini 1.5 Flash는 128K 이하 프롬프트에서 입력 100만 토큰당 $0.35, 출력 100만 토큰당 $0.53임. GPT-4급 지능이 필요 없는 멀티모달 작업, 특히 문서 처리 작업에서는 Gemini Flash가 거의 95% 비용 절감처럼 보임 - 50MB Yahoo 계정이면 충분해 보이는데 왜 1GB Gmail이 필요하냐고 묻는 것과 비슷함
컨텍스트를 넣을 때 두 번 생각하지 않아도 되고, 컨텍스트 초과를 처리하려고 우회책을 만들 필요도 없어짐. 대부분의 사용 사례가 멀티모달보다 텍스트를 다룬다면 장점은 꽤 분명해 보임 - 몇 달 전에 Gemini로 100만 토큰을 써보려 했는데, 충돌하거나 매우 느리게 응답하다가 결국 충돌했음
대여섯 번 시도하고 포기했는데, 이번 버전은 더 빠르고 안정적이길 바람
- 100만 토큰이면 채팅을 시작하기 전에 문서 2,000쪽을 컨텍스트 창에 넣을 수 있음
- 기본 100만 토큰 컨텍스트가 여기서 큰 기능이라고 보지만, 그게 실제로 무엇을 의미하는지 측정할 더 나은 벤치마크가 필요함
직감적으로는 컨텍스트가 길어질수록 단일 벡터 공간 지점에 얼마나 많은 이해를 담을 수 있는지의 한계에 부딪히고, 컨텍스트에서 관련 부분을 고르는 더 나은 아키텍처가 필요해질 것 같음- 프로덕션 사용을 말한다면, 경제적으로 지속 불가능한 데모가 아니라 OpenAI의 가장 싼 멀티모달 모델 대비 토큰당 비용이 4~7%인 모델의 멀티모달은 중요한 기능임
- 어떤 차원의 벡터 공간에서 단일 지점 한계가 있다는 건지 모르겠음
공개된 정보인지는 모르지만, 임베딩 차원 크기는 아키텍처 선택임. 원칙적인 한계라기보다 설계와 자원 제약의 문제일 뿐이라고 봄 - 벡터와 벡터 데이터베이스를 대략 아는 사람도 이해할 수 있게, 벡터 공간의 단일 지점에 이해를 담는다는 말이 무슨 뜻인지 설명할 수 있을지 궁금함
관련 글이나 더 읽을 자료가 있으면 추천해주면 좋겠음 - 우리는 다중 헤드 어텐션을 다루고 있으므로 토큰마다 여러 지점이 있음
헤드 수나 키 벡터 크기는 언제든 늘릴 수 있음 - 실제로는 그리 좋지 않음. “해리 포터 6.5권을 넣었더니 등장인물을 주석과 함께 연결한 SVG 지도를 만들었다” 같은 그럴듯한 데모는 만들 수 있음
하지만 일부 등장인물만 있고 주석도 빈약하며 비용은 $20 정도 들었음. 10번 해보면 몇 번 속을 만큼만 괜찮은 수준임
- 클라우드에서만 쓸 수 있는 경량 모델이라니 재미있음. 이런 거대 기술 기업들은 AI 사용량까지 소유하려는 의지가 정말 강함
하지만 그게 미래가 되도록 놔두면 안 됨 - OpenAI가 Google보다 나은 점 하나는 API 가격 공개를 실제로 하고, 이름도 비교적 일관되게 부른다는 것임
Google은 API 자체로 모델 목록을 열거해보면, Google Cloud 콘솔에서는 Generative Language API라고 부르고 문서에서는 Gemini API라고 부르는 경로를 통해 대략 10개 모델을 제공하는 것 같음. 모델명은 10개보다 많지만 몇몇 모델은 별칭이 여러 개임.
그중 Gemini API 가격 문서 페이지에 가격 정보가 있는 건 3개뿐이고, 그중 2개는 프리뷰라 가격이 미래에 적용됨. 콘솔의 Generative Language API에는 문서 페이지의 3개 중 프리뷰가 아닌 동일한 모델 1개만 가격이 표시됨. Cloud SKU 목록에는 Generative Language API가 없고 Gemini API는 있지만 역시 같은 모델 1개뿐임. 콘솔 페이지가 “최신 가격”으로 링크하는 Cloud Price list에는 Generative Language API도 Gemini API도 아예 없음. 왜 이렇게 서로 다른 항목이 많은지 모르겠음 - 대부분의 작업에 컨텍스트 길이가 넉넉해진 듯하니, 왜 아직 서브워드 토큰을 쓰는지 궁금함
문자 기반 LLM이 어떻게 비교될지도 정말 궁금함. 200만 컨텍스트라면 계산 병목은 희미해짐. 다만 어휘 크기가 어떤 역할을 하는지는 잘 모르겠음. 임베딩이 이미 지식의 큰 부분을 담고 있으니 큰 어휘가 중요할 수도 있음. 반대로 문자 기반 어휘를 쓰면 글리치 토큰, 산술, 운율 같은 여러 문제를 해결할 수 있을 것 같음. 서브워드 토크나이저를 올바르게 구현하고 학습시키는 것도 꽤 복잡해 보이는데, 문자 수준에서는 아주 단순해야 함- 어텐션 메커니즘은 더 크고 의미 있는 토큰에 주의를 기울일 수 있을 때 학습 효율이 훨씬 좋음
추론 서버에서는 메모리의 상당 부분이 KV 캐시에 들어가고, 어텐션을 통해 임베딩을 쌓으려면 훨씬 더 많은 토큰을 서로 연관시켜야 하는데 각 토큰은 “의미”가 더 약함. 언젠가는 이 지점에 도달할 수도 있음. 궁극적으로는 이미지와 소리를 픽셀과 주파수 수준까지 이해하는 멀티모달 LLM이 필요할 것이고, 텍스트도 결국 그렇게 되길 원할 듯함 - 문자는 단어의 의미 구성 요소가 아니고, 대체로 음절이 그 역할을 함
적어도 일반적으로는 그렇다고 봄. 로마자 알파벳보다 이런 접근이 더 높은 품질을 낼 것 같음. LLM이 영어와 중국어를 어떻게 처리하는지 비교하는 것만으로도 테스트할 수 있을지 궁금함 - 큰 문제는 두 가지라고 봄. 첫째, 더 많은 출력을 순차적으로 생성해야 하므로 지연 시간이 악화됨
둘째, 이 모델들은 매우 대략적으로 토큰을 임베딩 층에서 “평균 의미”로 바꾸고, 어텐션 층이 의미를 결합하며, 피드포워드 층이 현재 의미 조합을 학습된 원형이나 프로토타입 같은 것에 맞춤. 단어 조각에서 문자로 내려가면 이 모든 게 더 혼란스러워짐. 예를 들어 “a”의 평균 의미가 무엇인지부터 애매하고, 그래서 아직 문자 기반 모델을 잘 학습시키는 기법이 충분하지 않다고 봄 - AI 음악 생성에서는 10^6 규모의 큰 어휘 크기에서 훨씬 좋은 결과가 나옴
잘 모르는 추측이지만, 트랜스포머가 범용 패턴 인식기가 아니라 특정 입도 수준의 패턴만 잡아낼 수 있기 때문일 듯함
- 어텐션 메커니즘은 더 크고 의미 있는 토큰에 주의를 기울일 수 있을 때 학습 효율이 훨씬 좋음
- Google은 확실히 브랜딩 팀이 더 나은 듯함. Gemini, Gems 같은 이름은 마음에 듦
“ChatGPT”는 꽤 투박하고 복잡한 이름이고, OpenAI는 얼굴 없는 조직처럼 느껴짐. 물론 바뀔 수도 있겠지만 이 시점에서는 꽤 늦어 보임. 시장에 나올 때 더 창의적으로 할 돈은 충분히 있었을 것임- “ChatGPT”는 “Google” 같은 이름임. “Gemini”가 그걸 대체하진 못할 것 같음
- OpenAI는 마케팅 자문이 절실함
“GPT4o”라니 진심인가? 심지어 “GPT4 Omni”가 대화에서 더 쉽고, 그게 “o”의 뜻이기도 함. 일반 사용자가 얼마나 많은지 심각하게 과소평가하고 있음
- NYT Connections 벤치마크에서 Gemini 1.5 Flash는 15.3점임
GPT-4 turbo(gpt-4-0125-preview) 31.0, GPT-4o 30.7, GPT-4 turbo(gpt-4-turbo-2024-04-09) 29.7, GPT-4 turbo(gpt-4-1106-preview) 28.8, Claude 3 Opus 27.3, GPT-4(0613) 26.1, Llama 3 Instruct 70B 24.0, Gemini Pro 1.5 19.9, Mistral Large 17.7, Gemini 1.5 Flash 15.3, Mistral Medium 15.0, Gemini Pro 1.0 14.2, Llama 3 Instruct 8B 12.3, Mixtral-8x22B Instruct 12.2- 저 목록에는 성능은 높은데 이름은 형편없는 OpenAI 모델이 너무 많음
- 정보가 별로 없음. 빠르고 싼 선택지로 팔고 있지만 추론 속도 벤치마크도 없고 비 Gemini 모델과 비교도 없음
https://ai.google.dev/pricing에 따르면 gpt3.5-turbo보다 약간 싸게 책정된 듯한데, 실제로는 어떻게 비교되는지 알 수 없음 - Gemini Flash가 단지 더 빠른 Gemini라면, 나쁜 답변은 더 빨리 와도 더 좋아지지 않음
실용적인 코딩, 시스템 아키텍처, 가끔 일반 질문에서 Gemini Pro와 ChatGPT 4를 몇 달간 나란히 써봤는데, ChatGPT가 적어도 80%는 더 유용했음. Gemini는 틀리거나, 유용한 답에 도달하기까지 장황하게 헤매서 쓸 가치가 없었음. 내가 필요했던 건 더 빠른 게 아니었음. 어쩌면 이제는 더 “똑똑”, 즉 더 유용해졌을 수도 있겠지만- 아마 똑똑함을 더 적은 자원으로 더 많은 일을 하는 것으로 정의한다면, 이건 확장될 만한 잠재 공간상의 무언가를 갖고 있다는 신호로 볼 수 있음