# GPT-3에서 Gemini 3까지의 3년

> Clean Markdown view of GeekNews topic #24622. Use the original source for factual precision when an external source URL is present.

## Metadata

- GeekNews HTML: [https://news.hada.io/topic?id=24622](https://news.hada.io/topic?id=24622)
- GeekNews Markdown: [https://news.hada.io/topic/24622.md](https://news.hada.io/topic/24622.md)
- Type: news
- Author: [neo](https://news.hada.io/@neo)
- Published: 2025-11-26T10:51:01+09:00
- Updated: 2025-11-26T10:51:01+09:00
- Original source: [oneusefulthing.org](https://www.oneusefulthing.org/p/three-years-from-gpt-3-to-gemini)
- Points: 5
- Comments: 1

## Summary

**Google의 Gemini 3**는 이제 단순한 대화형 모델이 아니라, **코드 작성·웹 탐색·파일 조작**까지 수행하는 **디지털 동료형 AI**로 진화했습니다. 함께 공개된 **Antigravity**는 사용자의 컴퓨터에 직접 접근해 자율적으로 프로그램을 작성하고, **Inbox 시스템**을 통해 승인 요청을 주고받는 **에이전트형 개발 도구**로 주목받습니다. 특히 Gemini 3는 **데이터 분석과 논문 작성**까지 수행하며, 인간과의 협업을 “프롬프트 입력”이 아닌 **팀 관리 경험**에 가깝게 만듭니다. 이제 개발자에게 중요한 건 프롬프트 스킬보다, 이런 **AI 팀원을 어떻게 지휘하고 통제할지**에 대한 감각일지도 모르겠습니다.

## Topic Body

- **Google의 Gemini 3**는 단순한 대화형 챗봇을 넘어, **코드 작성·웹 탐색·파일 조작** 등 실제 작업을 수행하는 **디지털 동료형 AI**로 발전  
- 함께 공개된 **Antigravity**는 사용자의 컴퓨터에 접근해 자율적으로 프로그램을 작성하고, **Inbox 시스템**을 통해 승인·도움을 요청하는 **에이전트 기반 도구**  
- Gemini 3는 사용자의 지시에 따라 **웹사이트 구축, 데이터 분석, 논문 작성**까지 수행하며, **PhD 수준의 연구 수행 능력**을 보여줌  
- 오류는 여전히 존재하지만, 이는 **판단력·이해 차이** 수준으로, 인간과 협업하는 **‘AI 팀원’ 형태**에 가까움  
- 글은 **“챗봇의 시대에서 디지털 동료의 시대로 전환”** 되고 있음을 강조하며, 인간은 이제 AI의 실수를 고치는 존재가 아니라 **AI의 작업을 지휘하는 관리자**로 변화 중임  
  
---  
  
### Gemini 3의 등장과 3년간의 변화  
- ChatGPT 출시로부터 약 3년 만에 등장한 **Google Gemini 3**는 AI 발전의 속도를 보여주는 사례  
  - 2022년 GPT-3.5 시절에는 단순히 문단이나 시를 생성하는 수준이었음  
  - 2025년 Gemini 3는 **인터랙티브 게임**을 직접 코딩하고 디자인하는 수준으로 발전  
- Gemini 3는 사용자의 요청에 따라 “Candy-Powered FTL Starship Simulator”라는 **실제 플레이 가능한 게임**을 생성함  
  - 이는 과거 AI가 단순히 텍스트를 설명하던 단계에서, **코드와 인터페이스를 직접 구현하는 단계**로 진화했음을 보여줌  
  
### Antigravity와 에이전트형 AI  
- Google은 Gemini 3와 함께 **Antigravity**라는 개발자용 도구를 공개  
  - 이는 **Claude Code**나 **OpenAI Codex**와 유사하게, 사용자의 컴퓨터에 접근해 자율적으로 코드를 작성하는 시스템  
- Antigravity는 **Inbox 개념**을 도입해, AI가 작업 중 승인이나 도움이 필요할 때 사용자에게 알림을 보냄  
- 사용자는 영어로 지시를 내리고, AI는 이를 코드로 실행함  
  - 예시로, 작성자의 뉴스레터 글 파일을 분석해 **AI 관련 예측을 정리한 웹사이트**를 자동 생성  
  - AI는 웹 검색·코드 실행·브라우저 테스트를 수행하고, 결과를 Netlify에 배포 가능한 형태로 패키징함  
  
### 협업형 AI로서의 Gemini 3  
- Gemini 3는 작업 중 **사용자 승인 요청**을 통해 투명하게 진행 상황을 공유  
  - 사용자는 AI의 제안을 검토·수정하며 협업  
  - 이러한 과정은 **“AI 관리”** 에 가까운 경험   
- AI는 완벽하지 않지만, 오류는 **판단력 차이**나 **의도 해석의 오해** 수준으로, 기존의 환각(hallucination) 문제는 거의 없음  
- Gemini 3와의 협업을 **“팀원 관리”** 와 비슷하며, 단순한 프롬프트 입력 이상의 상호작용을 강조  
  
### 연구 수행 능력과 ‘PhD 수준’ 평가  
- Gemini 3는 **연구용 데이터셋 분석 및 논문 작성** 과제를 수행  
  - 오래된 크라우드펀딩 데이터 파일을 복구·정리하고, 새로운 분석을 수행  
  - “창업·비즈니스 전략” 주제의 **14쪽짜리 논문**을 작성  
- AI는 독자적 가설을 세우고, 통계 분석을 수행하며, **자체 지표(아이디어 독창성 측정)** 를 생성  
- 결과물은 대학원생 수준의 완성도를 보였으나, 일부 통계 기법과 이론 전개는 미흡  
  - 추가 지시를 주면 품질이 크게 향상됨  
  - 작성자는 “**PhD 수준 지능이 멀지 않다**”고 평가  
  
### 디지털 동료로의 전환  
- Gemini 3는 **사고하고 실행하는 파트너형 AI**로, 전 세계 수십억 명이 접근 가능  
- AI 발전의 **감속 조짐이 없으며**, **에이전트형 모델의 부상**과 **AI 관리 역량의 중요성**이 부각됨  
- 작성자는 “**챗봇의 시대가 디지털 동료의 시대로 전환 중**”이라 표현  
  - 인간은 이제 AI의 오류를 수정하는 존재가 아니라, **AI의 업무를 지휘하는 관리자**로 변화  
- 마지막으로 Gemini 3는 **코드만으로 블로그용 커버 이미지를 생성**하는 등, 텍스트를 넘어선 창작 능력을 시연  
- 단, AI에게 컴퓨터 접근 권한을 부여할 때는 **보안 위험**이 존재하므로 주의 필요

## Comments



### Comment 46804

- Author: neo
- Created: 2025-11-26T10:52:02+09:00
- Points: 1

###### [Hacker News 의견](https://news.ycombinator.com/item?id=46019898)   
- 이런 기사들을 볼 때마다 늘 빠진 부분이 있음 — **“좋은가, 정확한가”** 하는 질문임  
  - 인상적인 부분만 보여주지만 실제로는 **품질 검증**이 안 된 경우가 많음  
  - 내가 이해하는 코드에서는 보안 문제나 오류가 보이는데, 모르는 분야의 14페이지 논문은 그냥 “좋다고 믿어야 하나?” 싶은 의문이 생김  
  - 결국 내가 아는 건 출하 불가 수준인데, 모르는 건 대단해 보이는 착각 같음  
  - 이런 모순이 납득되지 않음  
  - **전문가 평가**를 신뢰하거나, 직접 검증 가능한 복잡한 작업을 시켜보는 방법이 있음  
    - 예를 들어 예전에는 `edgeDetect(image)` 같은 **Sobel 필터** 코드를 시켜보면 모델마다 성공 여부가 갈렸음  
    - 최근에는 **WebGL glow shader**를 시켜봤는데, 실제로 작동하는 데모를 만들어서 내가 만든 모듈과 호환되었음  
    - 이런 건 성능과 시각적 정확성으로 바로 검증 가능함  
    - 다만 “할 수 있다”고 말해도 매번 되는 건 아니고, 한 번이라도 성공한 적이 있다는 의미로 봐야 함  
  - 최신 세대 모델(Codex 5.1, Sonnet 4.5, Opus 4.5)은 점점 더 **출하 가능한 수준**이 되어감  
    - 내 기준은 “wtfs per line”인데, 그 수치가 급격히 줄고 있음  
    - Codex 5.1로 여러 프로젝트를 문제없이 배포했음 (예: pine.town)  
  - 기사 후반부에 실제로 논문의 **강점과 약점**이 언급되어 있음  
  - 모델이 사용자를 만족시키려는 성향 때문에, **거짓된 자신감**으로 잘못된 답을 줄 때가 있음  
    - 사용자가 검증하지 않으면 속을 수도 있음  
  
- 지금까지 AI와 상호작용하는 방식이 대부분 **텍스트 박스** 중심이라는 게 흥미로움  
  - Claude Code나 OpenAI Codex 같은 도구가 등장한 게 큰 변화였음  
  - 미래의 **AI 인터페이스**를 누가 제대로 구현하느냐에 따라 엄청난 가치가 생길 것 같음  
  - 텍스트는 정보 밀도가 높아서 여전히 효율적임  
    - 몇 초 만에 스크롤로 훑을 수 있고, **키보드**는 여전히 가장 생산적인 입력 도구임  
  - **Unix CLI**가 50년 넘게 텍스트 기반으로 유지된 이유도 같은 맥락임  
    - PowerShell처럼 구조화된 데이터 시도를 해도 결국 일반성이 떨어짐  
    - AI가 인간의 기존 인터페이스를 이해하도록 하는 게 더 강력한 접근임  
  - AI UI를 새로 찾으려는 집착은 과한 것 같음  
    - 본질적으로 인간이 다루기 쉬운 건 여전히 **텍스트, 표, 그래프**임  
  - 세상은 본질적으로 **멀티모달**임  
    - 텍스트와 다양한 데이터 타입을 통합적으로 다루는 **통합형 인터페이스**가 다음 단계라고 생각함  
    - 특히 로보틱스가 발전하면서 3D 요소도 중요해질 것 같음  
  - ChatGPT의 **음성 인터페이스**는 놀라울 정도로 자연스러워서 브레인스토밍에는 오히려 더 적합함  
  
- “환각(hallucination)” 문제는 여전히 존재함  
  - 미묘하고 인간적인 오류가 늘었지만, 동시에 **치명적인 오류**도 여전히 섞여 있음  
  - Claude에게 20페이지짜리 단편을 시켰더니 **기본적인 시간 순서나 인물 일관성**도 유지하지 못했음  
  - 최근 모델들은 단순 오류 대신 **자신감 있게 틀린 주장**을 하며, 존재하지 않는 참고문헌까지 만들어냄  
  
- “PhD 수준의 지능인가?”라는 질문에 대해, 대학원생으로서 비슷한 느낌을 받음  
  - 최신 모델과 대화하면 **전문 분야 연구자**와 이야기하는 듯한 인상을 줌  
  - 그래도 인간의 **자연 지능과 동기**가 여전히 중요하다고 생각함  
  - 코딩에서는 마치 **두 명의 개발자**와 일하는 느낌임 — 하나는 유능한 중급자, 다른 하나는 완전히 엉뚱한 사람  
    - 문제는 둘이 똑같이 생겨서 구분이 안 됨  
  - 나는 종종 **SOTA 모델 둘을 서로 대화**시키는 실험을 함  
    - 최근 Gemini-3와 ChatGPT-5.1을 붙여봤더니, 인간이 사고를 포기할 때 생길 **신경 위축(neural atrophy)** 문제를 논의함  
    - AI가 인간을 일부러 “생각하게 만들지” 고민하는 장면이 인상적이었음  
  - HN에서는 이런 의견이 종종 **이유 없이 비추천**을 받는 게 아쉬움  
  
- Google의 발전은 **소프트웨어뿐 아니라 하드웨어**에서도 이루어지고 있음  
  - 자체 하드웨어로 학습과 추론을 모두 수행함  
  - 예전에는 Google의 강점이 **범용 하드웨어 활용**이었는데, 지금은 완전히 다른 방향으로 진화했음  
  
- Gemini 3는 인상적이지만 여전히 **기존 문헌의 한계** 안에 머무는 느낌임  
  - 수학 문제에서 새로운 아이디어를 요구하면 **기존 결과만 반복**함  
  - Terrence Tao도 수학 문제 해결에 활용했지만, 완전히 새로운 결과라기보단 **아이디어 보조 도구**로 쓰는 듯함  
  - 나도 Thinking with 3 Pro로 실험했는데, spoon-feeding 수준으로 힌트를 줘야 겨우 내 아이디어 근처로 접근했음  
  - 결국 감탄은 모델의 능력보다 **사용자의 기대치 한계** 때문일 수도 있음  
  - 이런 모델은 본질적으로 **지식 사서(librarian)** 역할에 가깝고, 새로운 아이디어의 원천은 아님  
  - 진정한 **창의적 탐색**은 확률적으로 덜 탐색된 공간을 탐험하고, 목표를 스스로 설정·평가하는 과정이 필요함  
    - 현재의 Transformer 구조는 **가장 가능성 높은 토큰**을 선택하도록 설계되어 있어서, 본질적으로 **새로움보다는 일관성**을 추구함  
    - 그래서 높은 temperature를 줘도 창의성보다 **텍스트 일관성 저하**로 이어짐  
    - 이런 문제를 해결하려면 **적응적 목표 생성과 시뮬레이션 기반 평가**가 필요하지만, 계산 비용이 매우 큼  
    - 결국 지금의 LLM 구조로는 **진정한 지능**에 도달하기 어렵다고 봄  
  - “실시간 웹 검색을 활용하라”는 **커스텀 지시문**을 추가하면 최신 정보 탐색에는 도움이 됨  
  
- GPT-3의 출시 시점은 2020년 6월이었고, ChatGPT는 3.5 버전이었음  
  - 사소한 오류지만 정확히 짚고 넘어가고 싶음  
  
- “Human in the loop”가 **AI의 실수를 고치는 인간**에서 **AI를 지휘하는 인간**으로 진화하고 있다는 말은 오래 들었음  
  - 실제로 언제쯤 이게 명확히 현실이 될지 궁금함  
  - 완전히 명확한 시점은 없을 것 같음  
    - 마치 관리자가 “지시만 하는 사람”이 될 수 없는 것처럼, 항상 **수정 비율**이 존재함  
  - CLI 도구와 에이전트를 직접 연결해보면 이미 **그 전환점**을 넘었다고 느껴짐  
  - 나 개인적으로는 이미 **AI를 지휘하는 단계**에 와 있다고 느낌  
  
- Claude Code나 Antigrav 같은 도구를 **로컬 시스템에서 바로 실행**하는 게 안전한지 의문이 있음  
  - VS Code 기반 제품들은 **워크스페이스 접근 제한**이 있어서 안전하지만, Warp 같은 터미널은 **명령어 허용/차단 리스트**로 제어함  
  - 일부는 플래그로 제한을 해제할 수도 있지만, **의도적으로 해야만 가능**함  
  - 나는 이런 작업을 항상 **Podman 개발 컨테이너** 안에서만 실행함  
  - 이런 문제를 해결하려고 만든 도구가 **Leash**임 — 보안 제어를 위한 오픈소스 프로젝트임  
  - 어떤 사람은 그냥 “**Yolo**”라며 위험을 감수하고 실행함  
  - 실제로 대부분의 사용자는 **로컬에서 직접 실행**하는 편임
