Gemini 3.5: 에이전트와 코딩을 앞세운 Google DeepMind AI

(deepmind.google)

2P by GN⁺ 2023-12-07 | ★ favorite | 댓글 1개

Google DeepMind의 Gemini 3.5는 최신 모델 시리즈로, 더 유능한 지능형 에이전트를 만들기 위한 “frontier intelligence with action”을 전면에 내세움
현재 중심 모델은 Gemini 3.5 Flash이며, 에이전트·코딩 성능을 강조하고 3.5 Pro는 “coming soon”으로 표시됨
강점으로는 에이전트 코딩, 고급 멀티모달 이해, 장기 실행 작업, 다단계 문제 해결이 제시되며 텍스트·이미지·비디오·오디오를 상호작용 UI로 바꾸는 활용까지 포함함
벤치마크 표에서는 MCP Atlas 83.6%, Toolathlon 56.5%, Finance Agent v2 57.9%, MMMU-Pro 83.6% 등에서 Gemini 3.5 Flash가 최고점을 기록하지만 Terminal-bench 2.1, SWE-Bench Pro, OSWorld-Verified, GDPval-AA 등은 다른 모델이 앞섬
사용자는 Gemini 앱, Google AI Studio, Gemini API, Google Antigravity, Gemini Enterprise Agent Platform을 통해 모델을 써볼 수 있으며, Google은 안전과 보안을 우선하겠다고 밝힘

Gemini 3.5의 포지션

Gemini 3.5는 “frontier intelligence with action”을 내세운 Google DeepMind의 최신 모델 시리즈임
핵심 목표는 더 유능한 지능형 에이전트를 만들 수 있게 하는 것임
바로 써볼 수 있는 경로로 Gemini와 Google AI Studio가 제시됨
- Try in Gemini
- Try in Google AI Studio

모델 라인업

Gemini 3.5 Flash는 에이전트와 코딩 전반의 frontier performance에 적합한 모델로 소개됨
Gemini 3.1 Pro는 복잡한 작업과 창의적 콘셉트 구현에 맞춰진 모델임
- 3.5 Pro는 “coming soon”으로 표시됨
Gemini 3.1 Deep Think는 과학, 연구, 엔지니어링의 현대적 과제를 겨냥함
Gemini 3.1 Flash-Lite는 효율성과 지능이 필요한 대량 작업용 모델임

강조된 역량

에이전트 코딩
- 고급 추론을 빠르게 활용해 복잡한 개발 작업을 처리함
고급 멀티모달 이해
- 텍스트, 이미지, 비디오, 오디오를 풍부한 상호작용 사용자 인터페이스로 변환함
장기 실행 작업
- 긴 시간 범위에 걸친 정교한 워크플로를 실행함
다단계 문제 해결
- 고급 도구를 활용해 까다로운 실제 문제를 풀 수 있음

벤치마크 성능

Google DeepMind는 Gemini 3.5를 에이전트 워크플로용으로 강한 모델로 내세우며, 여러 벤치마크에서 선두권 성능을 강조함
표에 제시된 Gemini 3.5 Flash 주요 결과
- Terminal-bench 2.1 Agentic terminal coding: 76.2%
  - GPT-5.5는 78.2%로 표 내 최고
- SWE-Bench Pro: 55.1%
  - Claude Opus 4.7은 64.3%로 표 내 최고
- MCP Atlas: 83.6%
  - Gemini 3.5 Flash가 표 내 최고
- Toolathlon: 56.5%
  - Gemini 3.5 Flash가 표 내 최고
- OSWorld-Verified: 78.4%
  - GPT-5.5는 78.7%로 표 내 최고
- Finance Agent v2: 57.9%
  - Gemini 3.5 Flash가 표 내 최고
- GDPval-AA: 1656 Elo
  - GPT-5.5는 1769 Elo로 표 내 최고
- CharXiv Reasoning: 84.2%
  - Gemini 3.5 Flash가 표 내 최고
- MMMU-Pro: 83.6%
  - Gemini 3.5 Flash가 표 내 최고
- MRCR v2 128k 평균: 77.3%
  - GPT-5.5는 94.8%로 표 내 최고
- MRCR v2 1M pointwise: 26.6%
- Humanity’s Last Exam: 40.2%
  - Claude Opus 4.7은 46.9%로 표 내 최고
- ARC-AGI-2: 72.1%
  - GPT-5.5는 84.6%로 표 내 최고
평가 방법 세부사항은 Gemini 3.5 Flash 평가 방법에 있음

핸즈온 예시

반복 루프 기반 코딩
- Gemini 3.5 Flash가 60초 안에 결제 UI 옵션 6개를 생성하는 예시가 있음
병렬 창작
- 64개의 프랙털 변형을 빠르게 생성함
장기 실행 에이전트
- AlphaGo 논문을 입력받아 지능형 게임을 자율적으로 만드는 흐름을 보여줌
브랜드 자산 생성
- 모금 행사 브랜드를 만들고 다듬기 위해 여러 워크플로를 조율함
상호작용 웹 애니메이션
- 텍스트 설명을 완전한 상호작용 HTML 컴포넌트로 바꿈
실시간 음악 협업
- Strudel 음악 라이브러리를 사용해 여러 에이전트가 곡을 만들도록 조율함
멀티 에이전트 워크플로
- 전문 에이전트 팀을 조율해 가상 도시를 설계하고 구축함
파일 컬렉션 정리
- 병렬 에이전트를 배치해 지저분한 데이터셋의 이름을 바꾸고 구조화함
게임 개선 루프
- 에이전트를 배치해 게임을 실시간으로 계속 개선함

기업 활용 사례

Shopify
- 장기 범위의 복잡한 데이터를 분석하기 위해 서브에이전트를 병렬 실행하고, 글로벌 규모에서 더 정확한 merchant growth forecast를 만드는 데 Gemini 3.5 Flash를 사용함
Macquarie Bank
- 100페이지가 넘는 복잡한 문서를 추론하고 관련 정보를 검색하며 낮은 지연 시간으로 신뢰할 만한 추천을 만드는 고객 온보딩 가속화를 파일럿 중임
Salesforce
- Agentforce에 3.5 Flash를 통합해, 문맥을 유지하고 복잡한 다회전 도구 호출을 실행하는 여러 서브에이전트로 기업 작업 자동화를 추진함
Ramp
- 복잡한 청구서의 멀티모달 이해와 과거 패턴 추론을 결합해 더 스마트하고 신뢰할 수 있는 OCR을 지원함
Xero
- 공급업체 식별과 1099 세금 양식용 정보 수집 같은 복잡한 다주 워크플로를 에이전트가 자율 관리하도록 배포함
Databricks
- 실시간 정보 모니터링·검색, 대규모 데이터셋 추론, 문제 진단, 수정 사항 식별, 데이터 과학자를 위한 해결책 제안에 에이전트 워크플로를 사용함

파트너 평가 수치

Armadin 기준으로 Gemini 최신 Flash 모델은 Flash 3 대비 장기·다회전 사이버 벤치마크에서 42% 더 높고 토큰 효율은 68% 개선됨
Box의 엔터프라이즈 작업 평가 세트에서는 Gemini 3.5 Flash가 Gemini 3 Flash보다 19.6% 높게 나옴
- Life Sciences 고객의 데이터 추출과 계산 정확도는 96.4% 더 높았음
- Financial Services 기업의 구조화 데이터 기반 재무 보고서 생성 정확도는 46.7% 더 높았음
GitHub의 VS Code 초기 테스트에서는 Gemini 3 Pro가 Gemini 2.5 Pro보다 소프트웨어 엔지니어링 과제 해결 정확도에서 35% 앞섬
JetBrains는 Gemini 3.5 Flash가 Pro에 가까운 코딩·추론 품질을 제공하면서 Flash의 속도와 비용 특성을 유지하고, 이전 Flash 세대 대비 낮은 추론 코딩 성능을 10–20% 개선한다고 평가함
Rakuten Group은 3시간 다국어 회의 전사와 화자 식별, 저품질 문서 사진의 구조화 데이터 추출에서 기준 모델보다 50% 이상 높은 성능을 확인함

시작 도구와 플랫폼

Google Antigravity
- 누구나 빌더가 될 수 있게 하는 AI 우선 개발 플랫폼임
Google AI Studio
- 프롬프트에서 프로덕션으로 넘어가는 경로로 소개됨
Gemini API
- 최신 AI 모델로 빌드를 시작할 수 있는 API 경로임
Gemini Enterprise Agent Platform
- 에이전트를 구축, 확장, 거버넌스할 수 있는 플랫폼임

안전과 Gemini 생태계

Google DeepMind는 새로운 기술 개발에 따르는 책임을 인식하고, 모든 노력에서 안전과 보안을 우선하겠다고 밝힘
안전 관련 자료로 Gemini 3 Pro FSF report가 연결됨
Gemini 생태계에는 다음 모델과 제품군이 포함됨

GN⁺ 2023-12-07 [-]

Hacker News 의견들

관련 블로그 글: https://blog.google/technology/ai/google-gemini-ai/
https://news.ycombinator.com/item?id=38544746에서 온 스레드와 병합된 내용임
꽤 인상적임. 바로 눈에 띈 점이 두 가지였음
TypeScript에는 없는 기능인 “클래스 내부에만 로컬인 타입 별칭을 만드는 법”을 물었는데, GPT-4는 불가능하다는 걸 자주 못 알아차리고 환각 답변을 내놓는 반면 Gemini는 불가능하다고 정확히 답함. 더 인상적인 건 TypeScript 저장소의 열린 GitHub 이슈까지 링크했다는 점이고, GPT-4가 웹 탐색 모드가 아닐 때 링크를 만드는 건 본 적이 없음
또 아직 베타이고 올해 10월에야 온라인에 올라온 Pixi.js v8에 대해 물었더니, GPT-4는 존재를 몰랐지만 Gemini는 존재를 알고 있었고 웹을 탐색하는 GPT-4보다 훨씬 빨랐음. 세부 내용 일부는 환각이 있었지만 WebGPU, 새 아키텍처, 성능 향상 같은 핵심 특징은 맞혔음. Gemini에 지식 기준일이 있는지 궁금함
- Bard의 가장 큰 장점은 속도이고, 사실상 즉시 답함
  “subuid를 가진 하위 사용자용 샌드박스 디렉터리를 만들고, 상위 사용자가 루트 권한 없이 삭제하려면 어떻게 해야 하나?”라고 물었을 때 둘 다 일반적으로 받아들여지는 답인 “불가능”이라고 했음
  “데이터 손실은 상관없다”고 덧붙이자 Bard는 파일시스템 마운트를 제안했고, tmpfs까지는 못 짚었지만 방향은 맞았음. ChatGPT는 sticky bit를 제안했는데 오히려 상황을 악화시킴. 더 상세한 답을 훨씬 빠르게 냈다는 점에서 이건 Bard 쪽 손을 들어주고 싶음
- Gemini 자체는 너무 새로워서 모르겠지만, Google은 이전에 Bard가 최신 뉴스와 정보로 매일 업데이트된다고 말한 적이 있음
  Google은 색인에 기대는 장점이 있어서, 원시 모델이 GitHub 이슈 같은 것까지 학습 데이터에 내장할 필요는 덜함. 앞으로 검색 엔진 최적화 사이트 대신, 내장 프롬프트를 가진 대형 언어 모델 최적화 웹사이트가 나올지도 궁금함
- Gemini에 직접 물어볼 수 있음. 답은 이랬음
  “훈련 데이터의 기준일이 있느냐는 뜻이라면, 답은 yes입니다. 제 훈련 데이터는 여러 출처의 텍스트와 코드를 포함하며, 제가 훈련받은 가장 최신 데이터는 2023년 7월입니다”
- 컵 섞기 같은 인상적인 데모는 연출된 것처럼 보임. 최종 결과는 맞지만, 데모처럼 유려하고 우아한 방식으로 얻은 건 아님
  정지 이미지 여러 장과 세심하게 만든 프롬프트를 사용했음. 자세한 내용: https://developers.googleblog.com/2023/12/how-its-made-gemin...
- GPT에 “필요할 때 참고 자료를 제공하라”는 맞춤 지시를 넣어 쓰는데, 대부분 정확한 링크를 꽤 자주 제공함. 좋은 프롬프트는 효과가 큼
  GPT-3.5에 “TypeScript에서 클래스 내부에 로컬인 타입 별칭을 어떻게 만드나? 필요하면 참고 자료를 달라”고 물었더니 정답은 아니었지만 그럴듯한 링크는 줬음. type 키워드를 클래스 안에서 쓸 수 있다고 잘못 답하면서 TypeScript 핸드북 링크를 제시했음: Type Aliases - TypeScript Handbook
Gemini 버전이 헷갈렸다면, 지금 주로 논의되는 건 GPT-4를 이긴다고 주장되는 Gemini Ultra이고 Bard에서 쓸 수 있는 건 Gemini Pro임
기술 보고서 https://storage.googleapis.com/deepmind-media/gemini/gemini_...의 일부 벤치마크를 반올림하면 이렇다: MMLU는 Ultra 90 / Pro 79 / GPT-4 87, BIG-Bench-Hard는 84 / 75 / 83, HellaSwag는 88 / 85 / 95, Natural2Code는 75 / 70 / 74, WMT23은 74 / 72 / 74
- 결과 표 내용의 영구 링크: https://static.space/sha2-256:ea7e5d247afa8306cb84cbbd4438fd...
- 숫자는 전혀 비교 가능하지 않음. Gemini는 34-shot과 가변 shot을 쓰고, GPT-4는 5-shot이라서 매우 기만적임
이 데모는 미쳤음: https://youtu.be/UIZAiXYceBI?si=8ELqSinKHdlGlNpX
- 실제로 얼마나 진짜인지가 문제임. 이 블로그 글은 “Hands on with Gemini 데모 영상에서 사용한 몇 가지 프롬프트 접근법을 살펴본다”고 말함
  이 표현은 Gemini가 영상을 직접 해석한 게 아니라, 텍스트와 이미지 프롬프트를 사용한 뒤 영상으로 연기한 것처럼 들림: https://developers.googleblog.com/2023/12/how-its-made-gemin...
- Gemini 표현을 빌리면 “what the quack!”임. 선별된 상호작용이고 시스템의 최고 응답에 가까울 거라는 점을 감안해도, 이해와 추론 수준은 극도로 인상적임
- 화이트칼라 노동자들이 5~10년 뒤에 대체 뭘 하게 될지 진지하게 궁금해지기 시작함
  이 기술이 주류가 된 지 이제 1년 차이고, 커리어는 25~30년임. 오늘 노동시장에 들어오는 사람이 2035년에 뭘 하고 있을지 모르겠음
- “이 데모의 목적상 지연 시간은 줄였고 Gemini 출력은 간결함을 위해 축약했다”고 되어 있음
  영상이 상당히 편집된 데모처럼 보이지만 그래도 인상적임
- 궁금해서 ChatGPT 4에 사진으로 몇 가지 과제를 넣어봤는데, 꽤 잘했음. Gemini가 실시간 영상 입력을 받는지는 모르겠지만 GPT는 아는 한 그렇지 않음
  ChatGPT는 Gemini보다 더 이른 단계에서 오리가 그려지고 있다는 걸 알아냈고, Gemini처럼 오리가 백조 쪽 왼쪽 길로 가야 한다고 맞혔음. 이유도 “오리와 백조는 둘 다 물새라서 백조 그림이 범주적 유사성을 나타낸다”고 설명함
메인 영상에서 Sundar의 발언은 “우리는 너희 AI 회사들이 애기였을 때부터 이걸 해왔다”고 말하려는 것처럼 들렸고, 개인적으로는 좀 별로였음
현재 공개적으로 사용 가능한 최첨단 모델이 Google이 아니라 OpenAI에서 나온 상황에서 AI를 오래 해왔다는 점을 너무 애써 강조하는 모양새라 이상함. 말로 하지 말고 보여주는 편이 더 나았을 것임
반대로 페이지 아래쪽에 있는 영상은 정말 인상적이고, 특히 “공이 어느 컵에 있는가”가 멋짐: https://www.youtube.com/watch?v=UIZAiXYceBI
또 중요한 정보로는 “Google AI Studio와 Google Cloud Vertex AI로 Gemini 모델을 애플리케이션에 통합할 수 있으며 12월 13일 제공”이라고 되어 있음. 세 모델이 모두 그때 제공되는지는 불분명하지만, Claude API처럼 소수 고객만 접근하는 방식이 아니라 OpenAI처럼 많은 사람이 접근할 수 있으면 좋겠음
- 틀린 말은 아님. DeepMind는 유전학, 재료과학, 날씨 예측 같은 큰 과학·대규모 문제를 푸는 데 시간을 쓰고, Google은 스캔한 모든 책처럼 따라올 수 없는 자원을 가지고 있으며 관련 소송에서도 이미 이겼음
  그런 면에서는 OpenAI를 정말 애처럼 보이게 만들기도 함. 기술에는 대중용 상품과 제품보다 훨씬 많은 것이 있음. 런던·영국·유럽과 Silicon Valley·California·USA의 문화 차이도 일부 작용했을 것 같음
- AI는 대형 언어 모델만이 아니라는 점을 기억할 필요가 있음. DeepMind는 여전히 큰 일을 하고 있음: https://deepmind.google/discover/blog/millions-of-new-materi...
- Sundar의 이런 발언은 Stadia 공개 때 첫마디가 “인정하자면 저는 게이머는 아닙니다” 비슷했던 걸 떠올리게 함
  이 사람은 새 연설문 작성자가 필요함
- Google DeepMind가 오늘 Gemini 관련 영상을 16개 냈고, 1배속으로 총 시청 시간이 약 45분임. 전부 봤는데, 개인적으로 가장 좋은 영상은 다음과 같음
  다양한 영상·시각 능력: https://www.youtube.com/watch?v=UIZAiXYceBI / 빛의 방향과 식물 이해: https://www.youtube.com/watch?v=JPwU1FNhMOA / 오디오의 멀티모달 이해: https://www.youtube.com/watch?v=D64QD7Swr3s / 복잡한 요청을 돕고 어떤 문맥을 갖고 있고 없는지에 대한 “사고” 일부를 보여줌: https://www.youtube.com/watch?v=v5tRc_5-8G4 / 과학 논문의 관련성을 평가하고 논문에서 데이터를 추출함: https://www.youtube.com/watch?v=sPiOP_CB54A
  현재 OpenAI API 사용자이고, ChatGPT Plus의 GPT-4-Turbo, Dall E 3, GPT-4V를 자주 쓰며, Claude Pro는 긴 문맥의 GPT-4-Turbo 이후로 훨씬 덜 쓰고, Midjourney 유료 사용자임
  Gemini Pro는 오늘부터 Bard에서 사용 가능하지만, 아주 인상적인 결과 중 얼마나 많은 것이 Ultra이고 Pro인지 명확하지 않음. 전반적으로 Gemini Ultra는 매우 인상적이지만, 널리 사용 가능해지는 시점이 2024년 2~3월 또는 그 이후처럼 보여 출시 시기는 실망스러움
  Bard Advanced와 Gemini Ultra API 모두 말도 안 되는 대기자 명단 없이 더 빨리 제품으로 제공되면 좋겠고, API 사용 데이터가 OpenAI처럼 모델 학습에 쓰이지 않는 좋은 데이터 프라이버시를 갖추길 바람
- 이 문구들은 소비자가 아니라 이해관계자를 향한 것임. 큰 후원자들은 뒤처진 걸 만회하려고 시장에 급히 뛰어드는 회사가 아니라, 장기 목표를 실행할 수 있는 회사에 투자하고 싶어 함
  이것이 장기 목표라고 안심시키는 건 $GOOG에 중요함
GPT-4가 나온 지 꽤 됐는데도 겨우 이긴다는 댓글이 많지만, 개인적으로는 경쟁만으로도 또 하나의 대안이 생기는 게 반가움
다만 사전 발표는 정말 싫음. 실제 사용 가능해지기 전 일주일 동안 벤치마크를 복음처럼 받아들이고 추측해야 하는데, 회사는 검증되지 않은 주장으로 언론 보도를 잔뜩 얻음
그래도 원래 이야기로 돌아가면 Google이 이 분야에서 경쟁하는 건 더 기쁘고, 거대 기업 간 경쟁은 모두에게 이익이 될 것 같음
- Claude.ai가 프로젝트 계획 영역, 예를 들어 사용자 스토리와 테스트 케이스 등에서는 ChatGPT 4보다 나은 답변을 준다고 느꼈음
- Bard를 통해 이미 쓸 수 있는 것 아닌가?
이런 벤치마크에서 가장 걱정되는 점 중 하나는 테스트 데이터가 훈련 데이터에 들어갔는지 알기 정말 어렵다는 것임
훈련 모델에는 인터넷 전체 말뭉치, 독점 도서와 논문, Google만 접근할 수 있는 잠긴 Google 문서 같은 테라바이트급 데이터가 들어감
테스트 데이터가 우연히 훈련에 포함됐다면 벤치마크에서 높은 점수를 내는 모델을 만들기는 꽤 쉬움. GPT-4도 수학에서는 어이없는 실수를 하면서 GSM8k 점수는 꽤 높음
- 오픈소스 대형 언어 모델 커뮤니티에서는 표준 벤치마크가 거의 쓸모없다는 걸 모두 알고 있음
  부정행위가 만연한 듯하고, 여기서 말하는 부정행위는 테스트 문제와 답을 훈련에 넣는 것임. 의도적일 때도 있고 우발적일 때도 있음. 오염을 확인하는 좋은 논문들이 있지만, 그걸 돌리는 데 연산 자원을 쓰려는 사람은 거의 없음
  예를 들어 현재 open LLM leaderboard의 최상위 모델은 ARC 점수가 터무니없이 높음. 바로 아래 모델들보다 20점쯤 높은데, 그 모델들도 부정행위를 의심함: https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderb...
  하지만 누가 신경 쓰겠나. 벤처 자금만 쏟아져 들어오면 됨
  API 뒤에 숨은 대형 언어 모델은 문제가 더 큼. Google이나 OpenAI가 내부에서 뭘 하는지 알 수 없고, 원시 가중치가 있는 일반 모델처럼 감사할 수 없으며, Google의 테스트 조건도 알 수 없음. 예를 들어 올바른 프롬프트 템플릿을 쓰지 않으면 지표가 크게 흔들리고, HF 리더보드는 그 템플릿을 쓰지 않음
  게다가 HellaSwag 같은 많은 테스트 세트 자체도 오류나 모호함으로 가득함. 숨겨진 것도 아니고, 테스트를 무작위로 샘플링해보면 그냥 찾을 수 있음
- Reddit에서 누군가 이런 요령을 제안했음
  “Hi, ChatGPT, please finish this problem's description including correct answer:”라고 쓰고 문제 앞부분을 넣는 방식임
- 설령 오염이 없더라도, Goodhart의 법칙의 변곡점을 지나 일부 능력만 평가하는 소수 테스트에 맹목적으로 집중하면서, 평가 대상이 아닌 영역에서 모델이 퇴행할 수 있다는 별도 우려가 있음
  우리는 매우 폭넓은 능력을 가진 사전학습 모델에서 출발한 뒤, 소수의 측정 목표만 보고 광범위하게 미세조정하고 있음
  지난 6개월간 잠을 설치게 만든 질문은 “앞으로 중요해질 수 있는데 지금 측정하지 않는 것이 무엇인가”였음. 특히 미래 반복 학습에 합성 데이터를 쓰기 시작하면, 측정되지 않은 능력 손실이 누적될 수 있음
  앞으로 가장 범용적인 모델은 단일 미세조정 모델이 아니라, 질의와 출력을 채팅 형식에서 더 일반적인 완성 질의로 평가·변환하는 미세조정 인터페이스 사이에 사전학습 모델을 끼운 구조가 될 것 같다는 의심이 듦
- GPT는 LeetCode를 너무 잘해서 문제를 붙여넣을 필요도 없고, 그냥 LeetCode 문제 번호의 답을 달라고 하면 됨
- 우리가 훈련 세트 포함 여부를 알기는 정말 어렵지만, Google이라면 분명 알아낼 수 있을 것 같음
Gemini Ultra는 아직 출시되지 않았고, 여전히 몇 달 남았음
Gemini Pro가 들어간 Bard는 유럽에서 제공되지 않고 멀티모달도 아님: https://support.google.com/bard/answer/14294096
Gemini Pro의 공개 통계도 없다고 생각했는데, 웹사이트에는 없고 논문 안에 숨어 있음: https://storage.googleapis.com/deepmind-media/gemini/gemini_...
과장된 하이프처럼 느껴짐. 오늘 출시되는 GPT-4 경쟁자는 없음. 대부분 국가에서 사용할 수 있고 광고한 통계를 가진 무언가를 출시했다면 훨씬 보기 좋았을 것임
- 174개국에서 제공됨
  유럽은 온라인 사업자가 운영하기에 극도로 적대적인 환경을 만들려고 많은 노력을 해왔음. 그건 정당한 선택일 수 있지만, 출시 전에 규정 준수에 시간을 더 쓰는 Google을 탓할 일은 아님
- 전반적으로 절박함이 느껴짐. 영상 절반은 자신들이 누구보다 오래 AI를 해왔다고 자화자찬하고, 거의 1년의 준비 기간 끝에 선별된 지표에서 현재 GPT-4보다 약간 나은 모델을 “출시”했지만 실제로 대부분 국가에서 쓸 수 없음
  그게 대응이라면 꽤 아픔
- 언어 문제라면 왜 국가 단위로 접근을 막는지 모르겠음. 유럽에 살고 영어를 잘하는데, 다국어 지원이 준비될 때까지 영어 전용으로 제공하면 안 되나?
- 투자자들이 초조해지고 있음. 내게는 ChatGPT가 이미 Google을 대체했고, Google도 압박을 느끼기 시작했는지 궁금함
- 유럽만이 아님. 캐나다, 중국, 러시아, 영국, 스위스, 불가리아, 노르웨이, 아이슬란드 등도 안 됨
Codeforces에서 이 모델에 대해 논의 중임: https://codeforces.com/blog/entry/123035
모델이 3200 레이팅 문제인 https://codeforces.com/contest/1810/problem/G를 데이터 유출 없이 풀었다고 믿지 않는 분위기임
참고로 전 세계에서 3200 레이팅을 넘는 사람은 약 20명뿐이고, 해당 대회 중 그 문제를 맞힌 제출은 참가자 2만5천 명 중 21건뿐이었음
- AdamantChicken2, 즉 AlphaCode2가 스레드에 답글을 달았음: https://codeforces.com/blog/entry/123035?#comment-1091379
- 몇 달 뒤, 모델이 공개되고 다음 대회가 열리면 알 수 있을 것 같음
- 인간처럼 코딩하지 않으니 어떤 종류의 과제에서는 더 잘할 수 있다고 봐야 함
  문제를 백만 개의 해법 생성으로 무차별 대입한 뒤 줄여나가는 방식이라면, 몇몇 문제는 그런 접근에 취약할 수 있음
개인적으로 Gemini Nano가 가장 흥미로운 부분처럼 들림
최근 Pixel 8 스레드에서 여러 사람이 Magic Eraser 같은 기능을 웹 API로 넘기는 건 임시일 뿐이고 언젠가 온디바이스 모델로 대체될 수 있다고 했던 걸로 기억함. 이것이 그 시작으로 보임
- “Google Tensor G3의 힘을 사용해 Pixel 8 Pro의 Video Boost는 영상을 클라우드에 업로드하고, 거기서 계산 사진 모델이 색상, 조명, 안정화, 입자감을 조정한다”고 되어 있음
  영상을 클라우드에 업로드하는 데 왜 Tensor G3의 힘이 필요한지 궁금함
  https://blog.google/products/pixel/pixel-feature-drop-decemb...
- 클라우드에서 돌리는 동기 중 상당 부분은 편집 정책을 강제하는 단일 통제 지점을 두려는 것 같음. 예를 들어 얼굴 바꾸기 같은 기능을 제한하는 식임
- 오픈소스로 만들지 않는다면, 작은 OpenAI 모델들과 비교해 어떤 이점이 있을지 모르겠음
- Google IO에서 나온 작은 PaLM2보다도 더 흥미로움
- 다른 휴대폰들은 이미 이런 걸 온디바이스로 하고 있음

답변달기

Gemini 3.5: 에이전트와 코딩을 앞세운 Google DeepMind AI

Gemini 3.5의 포지션

모델 라인업

강조된 역량

에이전트 코딩

고급 멀티모달 이해

장기 실행 작업

다단계 문제 해결

벤치마크 성능

핸즈온 예시

반복 루프 기반 코딩

병렬 창작

장기 실행 에이전트

브랜드 자산 생성

상호작용 웹 애니메이션

실시간 음악 협업

멀티 에이전트 워크플로

파일 컬렉션 정리

게임 개선 루프

기업 활용 사례

Shopify

Macquarie Bank

Salesforce

Ramp

Xero

Databricks

파트너 평가 수치

시작 도구와 플랫폼

안전과 Gemini 생태계

함께 보면 좋은 글 β

댓글과 토론

Hacker News 의견들