GPT-3에서 Gemini 3까지의 3년

(oneusefulthing.org)

4P by neo 20시간전 | ★ favorite | 댓글 1개

Google의 Gemini 3는 단순한 대화형 챗봇을 넘어, 코드 작성·웹 탐색·파일 조작 등 실제 작업을 수행하는 디지털 동료형 AI로 발전
함께 공개된 Antigravity는 사용자의 컴퓨터에 접근해 자율적으로 프로그램을 작성하고, Inbox 시스템을 통해 승인·도움을 요청하는 에이전트 기반 도구
Gemini 3는 사용자의 지시에 따라 웹사이트 구축, 데이터 분석, 논문 작성까지 수행하며, PhD 수준의 연구 수행 능력을 보여줌
오류는 여전히 존재하지만, 이는 판단력·이해 차이 수준으로, 인간과 협업하는 ‘AI 팀원’ 형태에 가까움
글은 “챗봇의 시대에서 디지털 동료의 시대로 전환” 되고 있음을 강조하며, 인간은 이제 AI의 실수를 고치는 존재가 아니라 AI의 작업을 지휘하는 관리자로 변화 중임

Gemini 3의 등장과 3년간의 변화

ChatGPT 출시로부터 약 3년 만에 등장한 Google Gemini 3는 AI 발전의 속도를 보여주는 사례
- 2022년 GPT-3.5 시절에는 단순히 문단이나 시를 생성하는 수준이었음
- 2025년 Gemini 3는 인터랙티브 게임을 직접 코딩하고 디자인하는 수준으로 발전
Gemini 3는 사용자의 요청에 따라 “Candy-Powered FTL Starship Simulator”라는 실제 플레이 가능한 게임을 생성함
- 이는 과거 AI가 단순히 텍스트를 설명하던 단계에서, 코드와 인터페이스를 직접 구현하는 단계로 진화했음을 보여줌

Antigravity와 에이전트형 AI

Google은 Gemini 3와 함께 Antigravity라는 개발자용 도구를 공개
- 이는 Claude Code나 OpenAI Codex와 유사하게, 사용자의 컴퓨터에 접근해 자율적으로 코드를 작성하는 시스템
Antigravity는 Inbox 개념을 도입해, AI가 작업 중 승인이나 도움이 필요할 때 사용자에게 알림을 보냄
사용자는 영어로 지시를 내리고, AI는 이를 코드로 실행함
- 예시로, 작성자의 뉴스레터 글 파일을 분석해 AI 관련 예측을 정리한 웹사이트를 자동 생성
- AI는 웹 검색·코드 실행·브라우저 테스트를 수행하고, 결과를 Netlify에 배포 가능한 형태로 패키징함

협업형 AI로서의 Gemini 3

Gemini 3는 작업 중 사용자 승인 요청을 통해 투명하게 진행 상황을 공유
- 사용자는 AI의 제안을 검토·수정하며 협업
- 이러한 과정은 “AI 관리” 에 가까운 경험
AI는 완벽하지 않지만, 오류는 판단력 차이나 의도 해석의 오해 수준으로, 기존의 환각(hallucination) 문제는 거의 없음
Gemini 3와의 협업을 “팀원 관리” 와 비슷하며, 단순한 프롬프트 입력 이상의 상호작용을 강조

연구 수행 능력과 ‘PhD 수준’ 평가

Gemini 3는 연구용 데이터셋 분석 및 논문 작성 과제를 수행
- 오래된 크라우드펀딩 데이터 파일을 복구·정리하고, 새로운 분석을 수행
- “창업·비즈니스 전략” 주제의 14쪽짜리 논문을 작성
AI는 독자적 가설을 세우고, 통계 분석을 수행하며, 자체 지표(아이디어 독창성 측정) 를 생성
결과물은 대학원생 수준의 완성도를 보였으나, 일부 통계 기법과 이론 전개는 미흡
- 추가 지시를 주면 품질이 크게 향상됨
- 작성자는 “PhD 수준 지능이 멀지 않다”고 평가

디지털 동료로의 전환

Gemini 3는 사고하고 실행하는 파트너형 AI로, 전 세계 수십억 명이 접근 가능
AI 발전의 감속 조짐이 없으며, 에이전트형 모델의 부상과 AI 관리 역량의 중요성이 부각됨
작성자는 “챗봇의 시대가 디지털 동료의 시대로 전환 중”이라 표현
- 인간은 이제 AI의 오류를 수정하는 존재가 아니라, AI의 업무를 지휘하는 관리자로 변화
마지막으로 Gemini 3는 코드만으로 블로그용 커버 이미지를 생성하는 등, 텍스트를 넘어선 창작 능력을 시연
단, AI에게 컴퓨터 접근 권한을 부여할 때는 보안 위험이 존재하므로 주의 필요

▲

GN⁺ 20시간전 [-]

Hacker News 의견

이런 기사들을 볼 때마다 늘 빠진 부분이 있음 — “좋은가, 정확한가” 하는 질문임
- 인상적인 부분만 보여주지만 실제로는 품질 검증이 안 된 경우가 많음
- 내가 이해하는 코드에서는 보안 문제나 오류가 보이는데, 모르는 분야의 14페이지 논문은 그냥 “좋다고 믿어야 하나?” 싶은 의문이 생김
- 결국 내가 아는 건 출하 불가 수준인데, 모르는 건 대단해 보이는 착각 같음
- 이런 모순이 납득되지 않음
- 전문가 평가를 신뢰하거나, 직접 검증 가능한 복잡한 작업을 시켜보는 방법이 있음
  - 예를 들어 예전에는 edgeDetect(image) 같은 Sobel 필터 코드를 시켜보면 모델마다 성공 여부가 갈렸음
  - 최근에는 WebGL glow shader를 시켜봤는데, 실제로 작동하는 데모를 만들어서 내가 만든 모듈과 호환되었음
  - 이런 건 성능과 시각적 정확성으로 바로 검증 가능함
  - 다만 “할 수 있다”고 말해도 매번 되는 건 아니고, 한 번이라도 성공한 적이 있다는 의미로 봐야 함
- 최신 세대 모델(Codex 5.1, Sonnet 4.5, Opus 4.5)은 점점 더 출하 가능한 수준이 되어감
  - 내 기준은 “wtfs per line”인데, 그 수치가 급격히 줄고 있음
  - Codex 5.1로 여러 프로젝트를 문제없이 배포했음 (예: pine.town)
- 기사 후반부에 실제로 논문의 강점과 약점이 언급되어 있음
- 모델이 사용자를 만족시키려는 성향 때문에, 거짓된 자신감으로 잘못된 답을 줄 때가 있음
  - 사용자가 검증하지 않으면 속을 수도 있음
지금까지 AI와 상호작용하는 방식이 대부분 텍스트 박스 중심이라는 게 흥미로움
- Claude Code나 OpenAI Codex 같은 도구가 등장한 게 큰 변화였음
- 미래의 AI 인터페이스를 누가 제대로 구현하느냐에 따라 엄청난 가치가 생길 것 같음
- 텍스트는 정보 밀도가 높아서 여전히 효율적임
  - 몇 초 만에 스크롤로 훑을 수 있고, 키보드는 여전히 가장 생산적인 입력 도구임
- Unix CLI가 50년 넘게 텍스트 기반으로 유지된 이유도 같은 맥락임
  - PowerShell처럼 구조화된 데이터 시도를 해도 결국 일반성이 떨어짐
  - AI가 인간의 기존 인터페이스를 이해하도록 하는 게 더 강력한 접근임
- AI UI를 새로 찾으려는 집착은 과한 것 같음
  - 본질적으로 인간이 다루기 쉬운 건 여전히 텍스트, 표, 그래프임
- 세상은 본질적으로 멀티모달임
  - 텍스트와 다양한 데이터 타입을 통합적으로 다루는 통합형 인터페이스가 다음 단계라고 생각함
  - 특히 로보틱스가 발전하면서 3D 요소도 중요해질 것 같음
- ChatGPT의 음성 인터페이스는 놀라울 정도로 자연스러워서 브레인스토밍에는 오히려 더 적합함
“환각(hallucination)” 문제는 여전히 존재함
- 미묘하고 인간적인 오류가 늘었지만, 동시에 치명적인 오류도 여전히 섞여 있음
- Claude에게 20페이지짜리 단편을 시켰더니 기본적인 시간 순서나 인물 일관성도 유지하지 못했음
- 최근 모델들은 단순 오류 대신 자신감 있게 틀린 주장을 하며, 존재하지 않는 참고문헌까지 만들어냄
“PhD 수준의 지능인가?”라는 질문에 대해, 대학원생으로서 비슷한 느낌을 받음
- 최신 모델과 대화하면 전문 분야 연구자와 이야기하는 듯한 인상을 줌
- 그래도 인간의 자연 지능과 동기가 여전히 중요하다고 생각함
- 코딩에서는 마치 두 명의 개발자와 일하는 느낌임 — 하나는 유능한 중급자, 다른 하나는 완전히 엉뚱한 사람
  - 문제는 둘이 똑같이 생겨서 구분이 안 됨
- 나는 종종 SOTA 모델 둘을 서로 대화시키는 실험을 함
  - 최근 Gemini-3와 ChatGPT-5.1을 붙여봤더니, 인간이 사고를 포기할 때 생길 신경 위축(neural atrophy) 문제를 논의함
  - AI가 인간을 일부러 “생각하게 만들지” 고민하는 장면이 인상적이었음
- HN에서는 이런 의견이 종종 이유 없이 비추천을 받는 게 아쉬움
Google의 발전은 소프트웨어뿐 아니라 하드웨어에서도 이루어지고 있음
- 자체 하드웨어로 학습과 추론을 모두 수행함
- 예전에는 Google의 강점이 범용 하드웨어 활용이었는데, 지금은 완전히 다른 방향으로 진화했음
Gemini 3는 인상적이지만 여전히 기존 문헌의 한계 안에 머무는 느낌임
- 수학 문제에서 새로운 아이디어를 요구하면 기존 결과만 반복함
- Terrence Tao도 수학 문제 해결에 활용했지만, 완전히 새로운 결과라기보단 아이디어 보조 도구로 쓰는 듯함
- 나도 Thinking with 3 Pro로 실험했는데, spoon-feeding 수준으로 힌트를 줘야 겨우 내 아이디어 근처로 접근했음
- 결국 감탄은 모델의 능력보다 사용자의 기대치 한계 때문일 수도 있음
- 이런 모델은 본질적으로 지식 사서(librarian) 역할에 가깝고, 새로운 아이디어의 원천은 아님
- 진정한 창의적 탐색은 확률적으로 덜 탐색된 공간을 탐험하고, 목표를 스스로 설정·평가하는 과정이 필요함
  - 현재의 Transformer 구조는 가장 가능성 높은 토큰을 선택하도록 설계되어 있어서, 본질적으로 새로움보다는 일관성을 추구함
  - 그래서 높은 temperature를 줘도 창의성보다 텍스트 일관성 저하로 이어짐
  - 이런 문제를 해결하려면 적응적 목표 생성과 시뮬레이션 기반 평가가 필요하지만, 계산 비용이 매우 큼
  - 결국 지금의 LLM 구조로는 진정한 지능에 도달하기 어렵다고 봄
- “실시간 웹 검색을 활용하라”는 커스텀 지시문을 추가하면 최신 정보 탐색에는 도움이 됨
GPT-3의 출시 시점은 2020년 6월이었고, ChatGPT는 3.5 버전이었음
- 사소한 오류지만 정확히 짚고 넘어가고 싶음
“Human in the loop”가 AI의 실수를 고치는 인간에서 AI를 지휘하는 인간으로 진화하고 있다는 말은 오래 들었음
- 실제로 언제쯤 이게 명확히 현실이 될지 궁금함
- 완전히 명확한 시점은 없을 것 같음
  - 마치 관리자가 “지시만 하는 사람”이 될 수 없는 것처럼, 항상 수정 비율이 존재함
- CLI 도구와 에이전트를 직접 연결해보면 이미 그 전환점을 넘었다고 느껴짐
- 나 개인적으로는 이미 AI를 지휘하는 단계에 와 있다고 느낌
Claude Code나 Antigrav 같은 도구를 로컬 시스템에서 바로 실행하는 게 안전한지 의문이 있음
- VS Code 기반 제품들은 워크스페이스 접근 제한이 있어서 안전하지만, Warp 같은 터미널은 명령어 허용/차단 리스트로 제어함
- 일부는 플래그로 제한을 해제할 수도 있지만, 의도적으로 해야만 가능함
- 나는 이런 작업을 항상 Podman 개발 컨테이너 안에서만 실행함
- 이런 문제를 해결하려고 만든 도구가 Leash임 — 보안 제어를 위한 오픈소스 프로젝트임
- 어떤 사람은 그냥 “Yolo”라며 위험을 감수하고 실행함
- 실제로 대부분의 사용자는 로컬에서 직접 실행하는 편임

답변달기