GPT-3에서 Gemini 3까지의 3년
(oneusefulthing.org)- Google의 Gemini 3는 단순한 대화형 챗봇을 넘어, 코드 작성·웹 탐색·파일 조작 등 실제 작업을 수행하는 디지털 동료형 AI로 발전
- 함께 공개된 Antigravity는 사용자의 컴퓨터에 접근해 자율적으로 프로그램을 작성하고, Inbox 시스템을 통해 승인·도움을 요청하는 에이전트 기반 도구
- Gemini 3는 사용자의 지시에 따라 웹사이트 구축, 데이터 분석, 논문 작성까지 수행하며, PhD 수준의 연구 수행 능력을 보여줌
- 오류는 여전히 존재하지만, 이는 판단력·이해 차이 수준으로, 인간과 협업하는 ‘AI 팀원’ 형태에 가까움
- 글은 “챗봇의 시대에서 디지털 동료의 시대로 전환” 되고 있음을 강조하며, 인간은 이제 AI의 실수를 고치는 존재가 아니라 AI의 작업을 지휘하는 관리자로 변화 중임
Gemini 3의 등장과 3년간의 변화
- ChatGPT 출시로부터 약 3년 만에 등장한 Google Gemini 3는 AI 발전의 속도를 보여주는 사례
- 2022년 GPT-3.5 시절에는 단순히 문단이나 시를 생성하는 수준이었음
- 2025년 Gemini 3는 인터랙티브 게임을 직접 코딩하고 디자인하는 수준으로 발전
- Gemini 3는 사용자의 요청에 따라 “Candy-Powered FTL Starship Simulator”라는 실제 플레이 가능한 게임을 생성함
- 이는 과거 AI가 단순히 텍스트를 설명하던 단계에서, 코드와 인터페이스를 직접 구현하는 단계로 진화했음을 보여줌
Antigravity와 에이전트형 AI
- Google은 Gemini 3와 함께 Antigravity라는 개발자용 도구를 공개
- 이는 Claude Code나 OpenAI Codex와 유사하게, 사용자의 컴퓨터에 접근해 자율적으로 코드를 작성하는 시스템
- Antigravity는 Inbox 개념을 도입해, AI가 작업 중 승인이나 도움이 필요할 때 사용자에게 알림을 보냄
- 사용자는 영어로 지시를 내리고, AI는 이를 코드로 실행함
- 예시로, 작성자의 뉴스레터 글 파일을 분석해 AI 관련 예측을 정리한 웹사이트를 자동 생성
- AI는 웹 검색·코드 실행·브라우저 테스트를 수행하고, 결과를 Netlify에 배포 가능한 형태로 패키징함
협업형 AI로서의 Gemini 3
- Gemini 3는 작업 중 사용자 승인 요청을 통해 투명하게 진행 상황을 공유
- 사용자는 AI의 제안을 검토·수정하며 협업
- 이러한 과정은 “AI 관리” 에 가까운 경험
- AI는 완벽하지 않지만, 오류는 판단력 차이나 의도 해석의 오해 수준으로, 기존의 환각(hallucination) 문제는 거의 없음
- Gemini 3와의 협업을 “팀원 관리” 와 비슷하며, 단순한 프롬프트 입력 이상의 상호작용을 강조
연구 수행 능력과 ‘PhD 수준’ 평가
- Gemini 3는 연구용 데이터셋 분석 및 논문 작성 과제를 수행
- 오래된 크라우드펀딩 데이터 파일을 복구·정리하고, 새로운 분석을 수행
- “창업·비즈니스 전략” 주제의 14쪽짜리 논문을 작성
- AI는 독자적 가설을 세우고, 통계 분석을 수행하며, 자체 지표(아이디어 독창성 측정) 를 생성
- 결과물은 대학원생 수준의 완성도를 보였으나, 일부 통계 기법과 이론 전개는 미흡
- 추가 지시를 주면 품질이 크게 향상됨
- 작성자는 “PhD 수준 지능이 멀지 않다”고 평가
디지털 동료로의 전환
- Gemini 3는 사고하고 실행하는 파트너형 AI로, 전 세계 수십억 명이 접근 가능
- AI 발전의 감속 조짐이 없으며, 에이전트형 모델의 부상과 AI 관리 역량의 중요성이 부각됨
- 작성자는 “챗봇의 시대가 디지털 동료의 시대로 전환 중”이라 표현
- 인간은 이제 AI의 오류를 수정하는 존재가 아니라, AI의 업무를 지휘하는 관리자로 변화
- 마지막으로 Gemini 3는 코드만으로 블로그용 커버 이미지를 생성하는 등, 텍스트를 넘어선 창작 능력을 시연
- 단, AI에게 컴퓨터 접근 권한을 부여할 때는 보안 위험이 존재하므로 주의 필요
Hacker News 의견
-
이런 기사들을 볼 때마다 늘 빠진 부분이 있음 — “좋은가, 정확한가” 하는 질문임
- 인상적인 부분만 보여주지만 실제로는 품질 검증이 안 된 경우가 많음
- 내가 이해하는 코드에서는 보안 문제나 오류가 보이는데, 모르는 분야의 14페이지 논문은 그냥 “좋다고 믿어야 하나?” 싶은 의문이 생김
- 결국 내가 아는 건 출하 불가 수준인데, 모르는 건 대단해 보이는 착각 같음
- 이런 모순이 납득되지 않음
-
전문가 평가를 신뢰하거나, 직접 검증 가능한 복잡한 작업을 시켜보는 방법이 있음
- 예를 들어 예전에는
edgeDetect(image)같은 Sobel 필터 코드를 시켜보면 모델마다 성공 여부가 갈렸음 - 최근에는 WebGL glow shader를 시켜봤는데, 실제로 작동하는 데모를 만들어서 내가 만든 모듈과 호환되었음
- 이런 건 성능과 시각적 정확성으로 바로 검증 가능함
- 다만 “할 수 있다”고 말해도 매번 되는 건 아니고, 한 번이라도 성공한 적이 있다는 의미로 봐야 함
- 예를 들어 예전에는
- 최신 세대 모델(Codex 5.1, Sonnet 4.5, Opus 4.5)은 점점 더 출하 가능한 수준이 되어감
- 내 기준은 “wtfs per line”인데, 그 수치가 급격히 줄고 있음
- Codex 5.1로 여러 프로젝트를 문제없이 배포했음 (예: pine.town)
- 기사 후반부에 실제로 논문의 강점과 약점이 언급되어 있음
- 모델이 사용자를 만족시키려는 성향 때문에, 거짓된 자신감으로 잘못된 답을 줄 때가 있음
- 사용자가 검증하지 않으면 속을 수도 있음
-
지금까지 AI와 상호작용하는 방식이 대부분 텍스트 박스 중심이라는 게 흥미로움
- Claude Code나 OpenAI Codex 같은 도구가 등장한 게 큰 변화였음
- 미래의 AI 인터페이스를 누가 제대로 구현하느냐에 따라 엄청난 가치가 생길 것 같음
- 텍스트는 정보 밀도가 높아서 여전히 효율적임
- 몇 초 만에 스크롤로 훑을 수 있고, 키보드는 여전히 가장 생산적인 입력 도구임
-
Unix CLI가 50년 넘게 텍스트 기반으로 유지된 이유도 같은 맥락임
- PowerShell처럼 구조화된 데이터 시도를 해도 결국 일반성이 떨어짐
- AI가 인간의 기존 인터페이스를 이해하도록 하는 게 더 강력한 접근임
- AI UI를 새로 찾으려는 집착은 과한 것 같음
- 본질적으로 인간이 다루기 쉬운 건 여전히 텍스트, 표, 그래프임
- 세상은 본질적으로 멀티모달임
- 텍스트와 다양한 데이터 타입을 통합적으로 다루는 통합형 인터페이스가 다음 단계라고 생각함
- 특히 로보틱스가 발전하면서 3D 요소도 중요해질 것 같음
- ChatGPT의 음성 인터페이스는 놀라울 정도로 자연스러워서 브레인스토밍에는 오히려 더 적합함
-
“환각(hallucination)” 문제는 여전히 존재함
- 미묘하고 인간적인 오류가 늘었지만, 동시에 치명적인 오류도 여전히 섞여 있음
- Claude에게 20페이지짜리 단편을 시켰더니 기본적인 시간 순서나 인물 일관성도 유지하지 못했음
- 최근 모델들은 단순 오류 대신 자신감 있게 틀린 주장을 하며, 존재하지 않는 참고문헌까지 만들어냄
-
“PhD 수준의 지능인가?”라는 질문에 대해, 대학원생으로서 비슷한 느낌을 받음
- 최신 모델과 대화하면 전문 분야 연구자와 이야기하는 듯한 인상을 줌
- 그래도 인간의 자연 지능과 동기가 여전히 중요하다고 생각함
- 코딩에서는 마치 두 명의 개발자와 일하는 느낌임 — 하나는 유능한 중급자, 다른 하나는 완전히 엉뚱한 사람
- 문제는 둘이 똑같이 생겨서 구분이 안 됨
- 나는 종종 SOTA 모델 둘을 서로 대화시키는 실험을 함
- 최근 Gemini-3와 ChatGPT-5.1을 붙여봤더니, 인간이 사고를 포기할 때 생길 신경 위축(neural atrophy) 문제를 논의함
- AI가 인간을 일부러 “생각하게 만들지” 고민하는 장면이 인상적이었음
- HN에서는 이런 의견이 종종 이유 없이 비추천을 받는 게 아쉬움
-
Google의 발전은 소프트웨어뿐 아니라 하드웨어에서도 이루어지고 있음
- 자체 하드웨어로 학습과 추론을 모두 수행함
- 예전에는 Google의 강점이 범용 하드웨어 활용이었는데, 지금은 완전히 다른 방향으로 진화했음
-
Gemini 3는 인상적이지만 여전히 기존 문헌의 한계 안에 머무는 느낌임
- 수학 문제에서 새로운 아이디어를 요구하면 기존 결과만 반복함
- Terrence Tao도 수학 문제 해결에 활용했지만, 완전히 새로운 결과라기보단 아이디어 보조 도구로 쓰는 듯함
- 나도 Thinking with 3 Pro로 실험했는데, spoon-feeding 수준으로 힌트를 줘야 겨우 내 아이디어 근처로 접근했음
- 결국 감탄은 모델의 능력보다 사용자의 기대치 한계 때문일 수도 있음
- 이런 모델은 본질적으로 지식 사서(librarian) 역할에 가깝고, 새로운 아이디어의 원천은 아님
- 진정한 창의적 탐색은 확률적으로 덜 탐색된 공간을 탐험하고, 목표를 스스로 설정·평가하는 과정이 필요함
- 현재의 Transformer 구조는 가장 가능성 높은 토큰을 선택하도록 설계되어 있어서, 본질적으로 새로움보다는 일관성을 추구함
- 그래서 높은 temperature를 줘도 창의성보다 텍스트 일관성 저하로 이어짐
- 이런 문제를 해결하려면 적응적 목표 생성과 시뮬레이션 기반 평가가 필요하지만, 계산 비용이 매우 큼
- 결국 지금의 LLM 구조로는 진정한 지능에 도달하기 어렵다고 봄
- “실시간 웹 검색을 활용하라”는 커스텀 지시문을 추가하면 최신 정보 탐색에는 도움이 됨
-
GPT-3의 출시 시점은 2020년 6월이었고, ChatGPT는 3.5 버전이었음
- 사소한 오류지만 정확히 짚고 넘어가고 싶음
-
“Human in the loop”가 AI의 실수를 고치는 인간에서 AI를 지휘하는 인간으로 진화하고 있다는 말은 오래 들었음
- 실제로 언제쯤 이게 명확히 현실이 될지 궁금함
- 완전히 명확한 시점은 없을 것 같음
- 마치 관리자가 “지시만 하는 사람”이 될 수 없는 것처럼, 항상 수정 비율이 존재함
- CLI 도구와 에이전트를 직접 연결해보면 이미 그 전환점을 넘었다고 느껴짐
- 나 개인적으로는 이미 AI를 지휘하는 단계에 와 있다고 느낌
-
Claude Code나 Antigrav 같은 도구를 로컬 시스템에서 바로 실행하는 게 안전한지 의문이 있음
- VS Code 기반 제품들은 워크스페이스 접근 제한이 있어서 안전하지만, Warp 같은 터미널은 명령어 허용/차단 리스트로 제어함
- 일부는 플래그로 제한을 해제할 수도 있지만, 의도적으로 해야만 가능함
- 나는 이런 작업을 항상 Podman 개발 컨테이너 안에서만 실행함
- 이런 문제를 해결하려고 만든 도구가 Leash임 — 보안 제어를 위한 오픈소스 프로젝트임
- 어떤 사람은 그냥 “Yolo”라며 위험을 감수하고 실행함
- 실제로 대부분의 사용자는 로컬에서 직접 실행하는 편임