Gemini 3 Pro: 비전 AI의 프론티어

▲

GN⁺ 5달전 | parent | ★ favorite | on: Gemini 3 Pro: 비전 AI의 프론티어(blog.google)

Hacker News 의견

내가 만든 LLM 이미지 테스트에서 처음으로 부분 점수를 받은 모델이 나왔음
테스트는 다리가 5개인 개의 다리 수를 세는 것인데, 대부분의 LLM은 고집스럽게 4개라고 주장했음
GPT-5는 “황금빛 개의 발”과 “밝은 초록 잔디”의 경계를 찾는 엣지 감지 스크립트를 직접 작성해 4개라고 증명하려 했지만, 실제로는 5개를 찾아내자 버그라고 주장하며 민감도를 조정했음
Gemini 3는 처음엔 다리 수를 틀렸지만, 사진 속의 “남성 해부학적 구조”를 인식했음. 즉, 5번째 다리가 그 위치에 있었음
그래도 여전히 인상적이라 하긴 어려움
참고로 Meta의 image slicer는 5개의 다리를 정확히 인식했음. 다리가 많은 개들은 모두 nano-banana로 생성된 것임
- 나도 Gemini에게 5개의 다리를 가진 개 이미지를 만들어보라 했는데, 제대로 못함. 보통은 정상적인 개를 만들거나 꼬리를 이상한 부속물로 바꿔버림
  Gemini와 Grok에게 다리 수를 세보라 하니 둘 다 4라고 고집했음
  Grok은 내가 틀렸다고 하자 존재론적 혼란에 빠져, 결국 “이건 유명한 착시 사진으로, 머리 없는 개처럼 보이지만 사실은 세 다리뿐”이라고 결론 내림
  이런 테스트는 LLM이 정말 ‘지능적’이라고 느껴질 때마다 다시 현실로 돌아오게 함
- 나는 AI 전문가가 아니지만, 모든 모델이 실패한 미로 이미지 테스트를 가지고 있음
  LLM에게 최적 경로를 그리라고 하면 전부 실패함
  여기 Nano Banana의 결과가 있음: 테스트 링크
- 이런 테스트들이 인간의 인지 방식을 기준으로 LLM을 평가하는 편향된 접근처럼 느껴짐
  모델이 인간처럼 생각하지 않는다는 것 외엔 별로 증명되는 게 없음
  프롬프트가 모델에게 “이 이미지를 매우 문자 그대로 해석하라”고 명시하는지, 혹은 일부러 속이려는 의도로 설계된 건지 궁금함
  성공 기준이 단순히 “5”라는 답을 내는 건지, 아니면 대화 맥락을 포함하는 건지도 불분명함
  결국 이런 테스트는 LLM의 인지 수준을 평가하기엔 비생산적 분석처럼 보임
- Nano Banana 2는 실제로 꽤 그럴듯한 5다리 개 이미지를 생성했음
  결과 링크
  하지만 모델은 자신이 그렇게 만들었다고 ‘생각하지’ 않았음
  마지막 추론 단계에서 “다섯 번째 다리가 계속 누락된다”며 스스로의 한계를 인정하고, “결함을 인지했으나 최선의 이미지를 제공한다”고 결론 냈음
- 훈련 데이터에서 불균형하게 나타나는 개념을 극복해야 하는 경우, 모델이 어려움을 겪음
  예를 들어 다리 하나 없는 거미, 9각별, 5잎 클로버, 손가락 수가 다른 사람 등을 생성해보면 성공률이 25%도 안 됨
  특히 손가락 문제는 예전 SD 1.5의 해부학 오류를 고치느라 들인 노력을 생각하면 아이러니함
나는 건설용 전기 도면 작업을 하며 LLM에게 간단한 작업을 던져봄
엉성한 하네스를 줬는데도 거의 한 번에 방 안의 콘센트 배치를 완성했음
제어를 좀 더 세밀히 하면 곧 동료들의 업무 상당 부분을 대체할 수 있을 것 같음
- AVEVA나 AutoCAD 같은 툴을 덜 고통스럽게 만들어주는 마법 지팡이가 있었으면 함
  이런 툴을 개선해야 할 사람은 사용자 엔지니어가 아니라, 툴을 만든 회사 자신이어야 함
  신뢰도 낮은 서드파티 가속기에 의존하는 건 위험함
- 어떤 하네스를 썼는지 예시를 보고 싶음. 나도 실험해보고 싶음
- “AI는 인간의 창의성을 절대 대체할 수 없다”는 말이 계속 이동하는 골대처럼 느껴짐
  디지털 아트, 프로젝트 관리, 엔지니어링, 블루칼라 작업까지 점점 영역이 확장되고 있음
  예전엔 튜링 테스트가 진지한 논의였다는 걸 아무도 기억하지 않는 듯함
OCR 성능 향상이 Google Books에 적용된다면 엄청날 것 같음
장기적으로는 희귀 서적을 $5,000 이하로 압축 저장 가능하게 할 수도 있음
Anna’s Archive 블로그 글도 참고할 만함
archive.org가 Tesseract 대신 이걸 쓰면 좋겠음. 다만 비용이 궁금함
- 이건 전형적인 데이터 플라이휠 구조임 — 더 나은 모델 → 더 좋은 데이터 → 더 나은 모델
- “데이터의 신에게 더 많은 데이터를!”
ScreenSpot Pro 결과가 흥미로움
```
72.7% Gemini 3 Pro
11.4% Gemini 2.5 Pro
49.9% Claude Opus 4.5
3.50% GPT-5.1
```
GUI 기반 고해상도 컴퓨터 사용 테스트임
논문 링크
- 몇 달 전 단순한 OCR 테스트에서 GPT-5가 Opus 4.1과 Gemini 2.5보다 훨씬 저조한 성능을 보여 놀랐음
  최신 모델로 다시 테스트해볼 예정임
  관련 블로그
- GPT-5.1의 결과가 너무 극단적으로 낮음. 혹시 다운스케일링으로 정보 손실이 있는 걸까?
- 이 추세라면 곧 정확도 90%대에 도달할 듯함
기사 작성자에게 전함 — “HTML transcription” 링크가 깨져 있음
내부용 Google 주소로 연결됨
- 기업 내부 포털 디자인이 수십 년째 그대로인 게 웃김. 그 올드한 스타일이 향수를 자극함
- 기사 작성자인 Rohan임. 제보 고맙고, 지금 바로 수정했음
- 로그인 도움말 링크가 로그인 없이 열려 있는 게 의외임
- “See prompt in Google AI Studio” 링크도 비공개 프롬프트로 연결됨
Nano Banana Pro가 여전히 단어 찾기 퍼즐을 완벽히 풀지 못함
반면 Gemini 3 Pro with Code Execution은 한 번에 정답을 맞히고 단어 위치까지 정확히 표시함
퍼즐 이미지, Nano Banana 결과1, 결과2
Nano Banana는 두 단어만 맞혔지만, 이전보다 큰 진전임
대소문자 맞추기나 공백 제거 같은 세밀한 전처리가 필요한 문제임
- Gemini 웹앱을 쓸 때는 처음부터 이미지 생성 모드로 시작하지 말고, 일반 대화 모드에서 정확한 프롬프트 흐름을 설정한 뒤 이미지 생성을 지시하는 게 좋음
“Gemini 3 Pro는 단순 인식에서 공간적 추론으로의 세대 도약”이라 했지만
“가득 찬 와인잔”을 요청하니 2/3만 채워진 잔을 그림
진정한 공간 추론은 아직 멀었음
- Gemini 3 Pro는 Nano Banana Pro와 다르고, 이미지 디코딩 모델의 강건성이 떨어질 수 있음
  Nano Banana Pro는 이미지 내 오류 위치를 추론하는 능력이 더 나음
- 나도 같은 프롬프트를 써봤는데, 한 번 더 “잔이 넘치기 직전까지 채워달라”고 하니 완벽히 채워진 잔이 나왔음
- 반대로 이미지를 주고 “이 잔이 가득 찼는가?”를 물으면 정확히 맞힐 듯함. Qwen-VL이 이미 그런 식으로 잘 작동함
이번 발표는 새 모델이 아니라, Gemini 3의 실제 비전 활용 사례를 강조한 것뿐임
Gemini 3의 좌표 출력 기능으로 포즈 추정이나 궤적 추적이 가능하다고 하는데,
구체적인 프롬프트나 문서가 없어 아쉬움
- CMS에서 사진을 자동으로 비율별로 프레이밍해주는 기능을 원함
  예를 들어 와이드, 정사각형, 세로, 4:3 비율로 사진을 잘라주는 모델이 있을까? Hugging Face에서는 못 찾았음
- Simon Willison의 관련 블로그가 도움 됨: Bounding Box Visualization
오디오 설명이 붙은 YouTube가 가능하다면 정말 놀라울 것 같음
직접 플레이하지 않아도 Gemini가 장면을 묘사해주는 서술형 플레이스루를 들을 수 있을 것임
- Zelda TOTK 영상을 5초 간격으로 분석해 내러티브 음성 설명을 만들었음
  원본 영상, 스크립트, TTS 음성
  144p 영상이라 세부 묘사는 약간 어긋났지만, 장면 설명은 꽤 정확했음
- Witcher 3 1시간짜리 영상도 144p로 처리했는데, 300,000 토큰 정도로 장면별 설명을 쉽게 생성할 수 있었음
- Zelda: Breath of the Wild 오프닝 5분 영상을 Gemini 앱에 업로드해 장면별 설명을 요청했음
  원본 영상, 결과 gist
  시각장애인을 위한 묘사로 꽤 정확했음