3P by GN⁺ 3일전 | ★ favorite | 댓글 3개
  • Gemini 3 Pro는 단순 인식 단계를 넘어 시각적·공간적 추론을 수행하는 차세대 멀티모달 모델
  • 문서, 공간, 화면, 영상 이해 등 다양한 영역에서 최첨단 성능을 기록하며, 복잡한 시각 추론 벤치마크에서 최고 수준을 달성
  • 문서 이해에서는 정확한 OCR과 구조 복원(derendering) , 다단계 표·차트 분석 등 고도화된 추론 기능을 제공
  • 공간·화면·영상 이해에서는 좌표 기반 포인팅, 고속 프레임 분석, 비디오 원인 추적 등 실제 환경과의 상호작용 능력을 강화
  • 교육, 의료, 법률, 금융 등 여러 산업에서 정밀한 시각 이해와 자동화를 지원하며, 개발자는 media_resolution 파라미터로 성능과 비용을 조정 가능

Gemini 3 Pro 개요

  • Gemini 3 Pro는 단순한 인식에서 시각적·공간적 추론으로 발전한 모델로, Google이 개발한 가장 강력한 멀티모달 모델
    • 문서, 공간, 화면, 영상 이해 전반에서 최신 벤치마크 최고점을 기록
    • MMMU Pro, Video MMMU 등 복잡한 시각 추론 테스트에서 새로운 최고 성능 달성

1. 문서 이해

  • 실제 문서는 이미지, 손글씨, 표, 수식 등 비정형 요소가 혼합되어 있으며, Gemini 3 Pro는 이를 정확히 인식하고 구조화
    • OCR 정확도시각적 추론 능력이 크게 향상
  • Derendering 기능을 통해 시각 문서를 HTML, LaTeX, Markdown 등 구조적 코드로 복원 가능
    • 18세기 상인 장부를 표로 변환하거나, 수식 이미지를 LaTeX 코드로 재구성
    • Florence Nightingale의 원본 도표를 인터랙티브 차트로 재현
  • 복합 추론 능력으로 긴 보고서 내 표와 차트를 단계적으로 분석
    • CharXiv Reasoning 벤치마크에서 인간 기준(80.5%)을 초과
    • 미국 인구조사국 보고서 예시에서 Gini 지수 변화를 수치·정책 분석과 연계해 원인(ARPA 정책 종료, 경기부양금 종료)을 정확히 도출
    • 최하위 소득 5분위의 비중이 상승했음을 표 비교로 결론

2. 공간 이해

  • Gemini 3 Pro는 공간 인식 능력이 가장 강력한 버전으로, 물리적 세계를 이해하는 데 최적화됨
    • 픽셀 단위 좌표 출력으로 이미지 내 특정 위치를 정확히 지목
    • 연속된 2D 포인트를 활용해 인체 자세 추정이나 궤적 추적 수행
  • 오픈 보캐블러리 참조 기능으로 사물과 의도를 식별
    • 로봇에게 “이 테이블의 쓰레기를 분류하라”는 식의 공간 기반 계획 생성 가능
    • AR/XR 기기에서 “사용자 매뉴얼에 따라 나사를 가리켜라” 같은 시각적 지시 수행 지원

3. 화면 이해

  • 데스크톱과 모바일 OS 화면을 정확히 인식컴퓨터 사용 자동화를 지원
    • 반복 작업 자동화, QA 테스트, 사용자 온보딩, UX 분석 등에서 활용
    • UI 요소를 인식하고 클릭 위치를 정밀하게 판단

4. 영상 이해

  • 영상은 가장 복잡한 데이터 형식이며, Gemini 3 Pro는 이를 고속·고정밀로 분석
    • 고프레임률(>1 FPS) 처리로 빠른 동작을 인식, 골프 스윙 등 세밀한 움직임 분석 가능
    • 10 FPS 처리 시 무게 이동과 스윙 세부 동작까지 포착
  • ‘Thinking’ 모드로 단순 객체 인식에서 원인·결과 추적형 비디오 추론으로 확장
    • 사건의 ‘무엇’뿐 아니라 ‘왜’를 이해
  • 긴 영상을 분석해 앱 코드나 구조화된 정보로 변환 가능, 영상과 코드의 연결 강화

5. 실제 활용 분야

  • 교육 분야: 수학·과학의 도표 중심 문제 해결 능력 향상
    • 중등부터 대학 수준의 멀티모달 추론 문제 처리
    • [Math Kangaroo] 등 시각적 수학 퍼즐과 복잡한 화학·물리 다이어그램 분석
    • [Nano Banana Pro]와 결합해 학생 과제의 오류를 시각적으로 표시
  • 의료·생명과학: MedXpertQA-MM, VQA-RAD, MicroVQA 등 의료 영상 벤치마크 최고 성능
    • 방사선 영상 질의응답, 현미경 기반 생물학 연구 등에서 활용
  • 법률·금융: 복잡한 보고서·계약서 내 표와 차트를 분석해 전문 문서 처리 자동화 지원

6. 미디어 해상도 제어

  • 시각 입력 처리 시 원본 종횡비 유지로 품질 향상
  • media_resolution 파라미터로 성능·비용 균형 조정 가능
    • High resolution: 세밀한 OCR, 복잡한 문서 이해에 적합
    • Low resolution: 장면 인식, 긴 문맥 처리 시 비용·지연 최적화
  • 세부 설정은 [Gemini 3.0 Documentation Guide]에서 확인 가능

개발자 접근

  • Gemini 3 Pro는 Google AI Studio에서 직접 실험 가능하며,
    개발자 문서를 통해 API 통합 및 모델 활용 지원

다 좋으니 자꾸 사용자 지시에 반하여 유튜브 비디오 끼워넣는 것 좀 고쳤으면 좋겠습니다. 자꾸 답변 도중에 자동재생으로 집중 깨지게 만들어서 personal context로 비디오 금지시켰는데도 가끔 무시하고 비디오를 들이밉니다. 짜증...

전 무슨 리스트 만들어 달라고 하니까 갑자기 구글 드라이브 연결하라더군요 ㅋㅋ

Hacker News 의견
  • 내가 만든 LLM 이미지 테스트에서 처음으로 부분 점수를 받은 모델이 나왔음
    테스트는 다리가 5개인 개의 다리 수를 세는 것인데, 대부분의 LLM은 고집스럽게 4개라고 주장했음
    GPT-5는 “황금빛 개의 발”과 “밝은 초록 잔디”의 경계를 찾는 엣지 감지 스크립트를 직접 작성해 4개라고 증명하려 했지만, 실제로는 5개를 찾아내자 버그라고 주장하며 민감도를 조정했음
    Gemini 3는 처음엔 다리 수를 틀렸지만, 사진 속의 “남성 해부학적 구조”를 인식했음. 즉, 5번째 다리가 그 위치에 있었음
    그래도 여전히 인상적이라 하긴 어려움
    참고로 Meta의 image slicer는 5개의 다리를 정확히 인식했음. 다리가 많은 개들은 모두 nano-banana로 생성된 것임

    • 나도 Gemini에게 5개의 다리를 가진 개 이미지를 만들어보라 했는데, 제대로 못함. 보통은 정상적인 개를 만들거나 꼬리를 이상한 부속물로 바꿔버림
      Gemini와 Grok에게 다리 수를 세보라 하니 둘 다 4라고 고집했음
      Grok은 내가 틀렸다고 하자 존재론적 혼란에 빠져, 결국 “이건 유명한 착시 사진으로, 머리 없는 개처럼 보이지만 사실은 세 다리뿐”이라고 결론 내림
      이런 테스트는 LLM이 정말 ‘지능적’이라고 느껴질 때마다 다시 현실로 돌아오게 함
    • 나는 AI 전문가가 아니지만, 모든 모델이 실패한 미로 이미지 테스트를 가지고 있음
      LLM에게 최적 경로를 그리라고 하면 전부 실패함
      여기 Nano Banana의 결과가 있음: 테스트 링크
    • 이런 테스트들이 인간의 인지 방식을 기준으로 LLM을 평가하는 편향된 접근처럼 느껴짐
      모델이 인간처럼 생각하지 않는다는 것 외엔 별로 증명되는 게 없음
      프롬프트가 모델에게 “이 이미지를 매우 문자 그대로 해석하라”고 명시하는지, 혹은 일부러 속이려는 의도로 설계된 건지 궁금함
      성공 기준이 단순히 “5”라는 답을 내는 건지, 아니면 대화 맥락을 포함하는 건지도 불분명함
      결국 이런 테스트는 LLM의 인지 수준을 평가하기엔 비생산적 분석처럼 보임
    • Nano Banana 2는 실제로 꽤 그럴듯한 5다리 개 이미지를 생성했음
      결과 링크
      하지만 모델은 자신이 그렇게 만들었다고 ‘생각하지’ 않았음
      마지막 추론 단계에서 “다섯 번째 다리가 계속 누락된다”며 스스로의 한계를 인정하고, “결함을 인지했으나 최선의 이미지를 제공한다”고 결론 냈음
    • 훈련 데이터에서 불균형하게 나타나는 개념을 극복해야 하는 경우, 모델이 어려움을 겪음
      예를 들어 다리 하나 없는 거미, 9각별, 5잎 클로버, 손가락 수가 다른 사람 등을 생성해보면 성공률이 25%도 안 됨
      특히 손가락 문제는 예전 SD 1.5의 해부학 오류를 고치느라 들인 노력을 생각하면 아이러니함
  • 나는 건설용 전기 도면 작업을 하며 LLM에게 간단한 작업을 던져봄
    엉성한 하네스를 줬는데도 거의 한 번에 방 안의 콘센트 배치를 완성했음
    제어를 좀 더 세밀히 하면 곧 동료들의 업무 상당 부분을 대체할 수 있을 것 같음

    • AVEVA나 AutoCAD 같은 툴을 덜 고통스럽게 만들어주는 마법 지팡이가 있었으면 함
      이런 툴을 개선해야 할 사람은 사용자 엔지니어가 아니라, 툴을 만든 회사 자신이어야 함
      신뢰도 낮은 서드파티 가속기에 의존하는 건 위험함
    • 어떤 하네스를 썼는지 예시를 보고 싶음. 나도 실험해보고 싶음
    • “AI는 인간의 창의성을 절대 대체할 수 없다”는 말이 계속 이동하는 골대처럼 느껴짐
      디지털 아트, 프로젝트 관리, 엔지니어링, 블루칼라 작업까지 점점 영역이 확장되고 있음
      예전엔 튜링 테스트가 진지한 논의였다는 걸 아무도 기억하지 않는 듯함
  • OCR 성능 향상이 Google Books에 적용된다면 엄청날 것 같음
    장기적으로는 희귀 서적을 $5,000 이하로 압축 저장 가능하게 할 수도 있음
    Anna’s Archive 블로그 글도 참고할 만함
    archive.org가 Tesseract 대신 이걸 쓰면 좋겠음. 다만 비용이 궁금함

    • 이건 전형적인 데이터 플라이휠 구조임 — 더 나은 모델 → 더 좋은 데이터 → 더 나은 모델
    • “데이터의 신에게 더 많은 데이터를!”
  • ScreenSpot Pro 결과가 흥미로움

    72.7% Gemini 3 Pro
    11.4% Gemini 2.5 Pro
    49.9% Claude Opus 4.5
    3.50% GPT-5.1
    

    GUI 기반 고해상도 컴퓨터 사용 테스트임
    논문 링크

    • 몇 달 전 단순한 OCR 테스트에서 GPT-5가 Opus 4.1과 Gemini 2.5보다 훨씬 저조한 성능을 보여 놀랐음
      최신 모델로 다시 테스트해볼 예정임
      관련 블로그
    • GPT-5.1의 결과가 너무 극단적으로 낮음. 혹시 다운스케일링으로 정보 손실이 있는 걸까?
    • 이 추세라면 곧 정확도 90%대에 도달할 듯함
  • 기사 작성자에게 전함 — “HTML transcription” 링크가 깨져 있음
    내부용 Google 주소로 연결됨

    • 기업 내부 포털 디자인이 수십 년째 그대로인 게 웃김. 그 올드한 스타일이 향수를 자극함
    • 기사 작성자인 Rohan임. 제보 고맙고, 지금 바로 수정했음
    • 로그인 도움말 링크가 로그인 없이 열려 있는 게 의외임
    • “See prompt in Google AI Studio” 링크도 비공개 프롬프트로 연결됨
  • Nano Banana Pro가 여전히 단어 찾기 퍼즐을 완벽히 풀지 못함
    반면 Gemini 3 Pro with Code Execution은 한 번에 정답을 맞히고 단어 위치까지 정확히 표시함
    퍼즐 이미지, Nano Banana 결과1, 결과2
    Nano Banana는 두 단어만 맞혔지만, 이전보다 큰 진전임
    대소문자 맞추기나 공백 제거 같은 세밀한 전처리가 필요한 문제임

    • Gemini 웹앱을 쓸 때는 처음부터 이미지 생성 모드로 시작하지 말고, 일반 대화 모드에서 정확한 프롬프트 흐름을 설정한 뒤 이미지 생성을 지시하는 게 좋음
  • “Gemini 3 Pro는 단순 인식에서 공간적 추론으로의 세대 도약”이라 했지만
    “가득 찬 와인잔”을 요청하니 2/3만 채워진 잔을 그림
    진정한 공간 추론은 아직 멀었음

    • Gemini 3 Pro는 Nano Banana Pro와 다르고, 이미지 디코딩 모델의 강건성이 떨어질 수 있음
      Nano Banana Pro는 이미지 내 오류 위치를 추론하는 능력이 더 나음
    • 나도 같은 프롬프트를 써봤는데, 한 번 더 “잔이 넘치기 직전까지 채워달라”고 하니 완벽히 채워진 잔이 나왔음
    • 반대로 이미지를 주고 “이 잔이 가득 찼는가?”를 물으면 정확히 맞힐 듯함. Qwen-VL이 이미 그런 식으로 잘 작동함
  • 이번 발표는 새 모델이 아니라, Gemini 3의 실제 비전 활용 사례를 강조한 것뿐임

  • Gemini 3의 좌표 출력 기능으로 포즈 추정이나 궤적 추적이 가능하다고 하는데,
    구체적인 프롬프트나 문서가 없어 아쉬움

    • CMS에서 사진을 자동으로 비율별로 프레이밍해주는 기능을 원함
      예를 들어 와이드, 정사각형, 세로, 4:3 비율로 사진을 잘라주는 모델이 있을까? Hugging Face에서는 못 찾았음
    • Simon Willison의 관련 블로그가 도움 됨: Bounding Box Visualization
  • 오디오 설명이 붙은 YouTube가 가능하다면 정말 놀라울 것 같음
    직접 플레이하지 않아도 Gemini가 장면을 묘사해주는 서술형 플레이스루를 들을 수 있을 것임

    • Zelda TOTK 영상을 5초 간격으로 분석해 내러티브 음성 설명을 만들었음
      원본 영상, 스크립트, TTS 음성
      144p 영상이라 세부 묘사는 약간 어긋났지만, 장면 설명은 꽤 정확했음
    • Witcher 3 1시간짜리 영상도 144p로 처리했는데, 300,000 토큰 정도로 장면별 설명을 쉽게 생성할 수 있었음
    • Zelda: Breath of the Wild 오프닝 5분 영상을 Gemini 앱에 업로드해 장면별 설명을 요청했음
      원본 영상, 결과 gist
      시각장애인을 위한 묘사로 꽤 정확했음