Gemini 3.0, A/B 테스트를 통해 공개적으로 포착됨

(ricklamers.io)

5P by GN⁺ 2달전 | ★ favorite | 댓글 1개

일부 사용자가 Google AI Studio에서 새로운 Gemini 3.0 모델이 A/B 테스트 형태로 제공되고 있음을 포착함
Gemini 3.0은 코딩 성능 향상이 기대되는 차세대 모델로, 실제 사용자는 SVG 이미지 생성 테스트를 통해 품질 차이를 확인
테스트 결과, Xbox 360 컨트롤러의 SVG 생성 결과물이 현저히 향상되어 Gemini 2.5 Pro 대비 큰 개선이 보임
모델 식별자는 ecpt50a2y6mpgkcn으로, Gemini 3.0 Pro 버전일 가능성이 높으며, 출력 길이 40% 증가·TTFT 24초 증가 등 성능 변화가 확인됨
이는 Google이 차세대 Gemini 모델의 실험적 배포를 시작했음을 시사, 본격적인 공개가 임박했음을 의미

Gemini 3.0의 비공식적 공개 및 맥락

최근 루머에 따르면 Google AI Studio에서 A/B 테스트를 통해 일부 사용자에게 Gemini 3.0에 접근이 가능함이 밝혀짐
Gemini 3.0은 현재 AI 분야에서 AI 이미지 렌더링 및 코딩 성능 향상 기대감으로 큰 관심을 받는 모델
직접 여러 번 시도 끝에 A/B 테스트 화면을 경험함.
사용된 프롬프트 : Create an SVG image of an Xbox 360 controller. Output it in a Markdown multi-line code block.
결과적으로 Gemini 3.0이 생성한 Xbox 컨트롤러 SVG는 디테일·정확성·레이아웃 완성도 측면에서 기존 모델보다 월등했음
Gemini 3.0의 모델 ID는 ecpt50a2y6mpgkcn으로 확인되었으나, 구체적인 버전 정보는 알기 어려움
기본 선택 모델이 Gemini 2.5 Pro였기에, 실제로는 Gemini 3.0 Pro와의 비교로 추정 가능함
Gemini 2.5 Pro 대비
- TTFT(Time to First Token) 약 24초 증가
- 출력 길이 약 40% 증가
- 추론 토큰(reasoning tokens) 포함 가능성 있음

Appendix

Gemini 3.0과 Gemini 2.5 Pro 간의 A/B 비교 결과 아웃풋 이미지들 리스트업

▲

GN⁺ 2달전 [-]

Hacker News 의견

나는 아마 소수일지 모르지만, 회사에서 모든 프로 모델을 사용할 수 있는데 Gemini가 ChatGPT, Claude, Deepseek보다 항상 더 뛰어남을 경험함. 웹 개발, 특히 HTML/SCSS 작업을 많이 하기 때문일 수도 있고, Google이 인터넷을 크롤링해서 더 많은 데이터를 가진 게 장점이라고 생각함. 각 모델마다 잘하는 분야가 다르겠지만, UI/UX 웹 개발에서는 Gemini가 정말 뛰어남을 느꼈음. 3.0 버전이 정말 기대됨
- 나는 Gemini 2.5 Pro가 Claude와 GPT-5보다 아래 두 가지 경우에서 특히 더 뛰어남을 느꼈음.
  - 창의적 글쓰기: Gemini가 다른 모델에 비해 압도적으로 뛰어남. 개인적으로 Gemini 2.5 Pro만이 그나마 창의적 글쓰기(시, 단편소설)에 쓸 수 있는 유일한 모델임. 뉘앙스를 이해하는 수준이 꽤 훌륭해서, 내 창작글을 비평할 때 사용하고 있음. 물론 아직 시 쓰기 같은 분야에서는 모든 모델이 아직 부족함
  - 복잡한 추론(학부/대학원 수준의 수학): Gemini가 아주 약간 더 정확해서 가장 좋다고 생각함. Claude Opus 4.1과 Sonnet 4.5도 비슷한 수준이지만, Gemini 2.5가 더 일관성 있고 예측 가능한 답변을 줌(나는 대수학, 가환대수, 범주론, 대수기하, 위상수학 등에 자주 활용함)
  - 다만, 대형 코드베이스 전체를 검색하거나 오픈엔디드 질문에 리팩터링을 요청하는 등 ‘에이전트’ 역할에서는 Gemini가 Claude와 GPT-5보다 더 떨어짐. 툴 호출에 부분적으로 문제가 있어서 Copilot/Cursor에서 일관되지 않게 동작함
  - 전반적으로 Gemini 2.5 Pro가 가장 똑똑하다고 생각하지만, 각 작업마다 모델을 다르게 쓰는 것이 맞다고 봄
- 몇 주 전에, 서드파티 스크립트가 내 React 버튼의 클릭 이벤트를 방해해서 mousedown 이벤트를 추가해서 수정하려고 했음. 피곤해서 빠르고 대충 mousedown 이후 몇 ms 뒤에 클릭을 시뮬레이션 하는 코드로 하려고 Gemini에게 계획을 설명했더니, Gemini가 정면으로 거절하고 대신 mousedown과 mouseup을 조합해 처리하라며 더 깔끔한 해결책을 제시함. 문제를 완벽히 이해하고 내가 원하는 방식 대신 더 좋은 방법을 추천해 준 점에 정말 놀랐음
- 우리 회사에서 주요 LLM 모델들을 벤치마킹하고 있는데, Gemini 2.5가 몇몇 아주 특정한 분야를 제외하곤 압도적 1위임. Google의 프리트레이닝이 최고라는 소문과 잘 맞고, 튜닝/얼라인먼트에서만 다소 아쉬움이 남음. Gemini 3 버전이 정말 기대되는 이유임. 2.5가 최고이긴 하지만 여전히 개선 여지가 많음. (특정 분야: '진짜 추론'(GPT-5)과 파이썬 스크립트 작성(Claude 계열))
- 검색 정확도나 사실 기반 작업에서는 Claude나 Gemini 모두 ChatGPT보다 많이 부족하다고 느낌. Gemini는 몇 번만 검색하면 대충 지어내기 시작하는 반면, ChatGPT는 수십~수백 번까지도 검색을 반복하고, 앞서 찾은 결과를 바탕으로 추가 검색을 이어감
- Gemini의 더 넓은 컨텍스트 윈도우가 정말 마음에 듦. 내 작업 방식은 전체 코드베이스를 문자열로 변환해서 Gemini에 붙여넣고, 질문하는 과정임. 사람들은 '에이전트'가 파일 몇 개만 골라본다고 좋아하지만, 나는 전체 코드베이스를 그냥 던지고 코드 생성, 파일 수정 등 대화식으로 작업하는 게 훨씬 편리하고 효과적임
LLM으로 SVG를 생성하는 것에 대한 과도한 관심이 잘 이해되지 않음. 이 작업은 한 번에 성공하기 어렵고, 사람도 시도하기 힘들어서 크게 쓸모가 없음. 만약 모델이 시각 피드백을 받고 결과를 개선할 수 있으면 더 유용하겠다고 생각함. 이게 인기있는 벤치마킹 과제가 되어버려서, 기업들이 예제 데이터를 학습셋에 추가하는 상황이라 결국 누가 더 나은 '텍스트 투 SVG' 데이터셋을 썼는지 비교하는 것일 뿐, 모델 전반의 품질과는 관계없다고 봄
한 달 정도 전부터 다양한 추측과 함께 Gemini 3 관련 소식이 이어지고 있음. 공식 발표 전까지는 판단을 미루고, Pro, Flash, Flash Lite 대체 모델일지, 아예 새로운 모델인지, 릴리스 될지 등을 아무도 알 수 없음. AIStudio에서 A/B 테스트 방식 때문에 한 번의 프롬프트에 대한 결과만 얻을 수 있고, 속도·지연·명령어 이행 여부만 이해할 수 있음. 이런 각 모델의 실제 성능을 한 번의 프롬프트로 평가하는 것은 전문적인 평가가 아니라고 생각함. 여러 파일 처리나 툴 호출 대응은 당연히 알 수 없음. 무작정 기대감만 키우기보단 과도한 기대나 실망에 빠지지 않길 바람. 내가 추측성 콘텐츠를 별로 안 좋아하는 이유이기도 함. 실제 맥락과 분석 없이 자극적인 것만 강조되기 때문임
- 요즘은 하이프 자체가 하나의 직업이 된 것 같지만, 트위터 링크마다 "GAME CHANGER!!!", "모두가 충격받을 것!" 같은 과장된 반응이 가득해서 조금 짜증남. 실제 예시는 멋지지만 위에서 언급한 비전문적 평가들만 가득한 점이 아쉬움
정말 뛰어난 펠리컨 그림임. Gemini 3 체험이 너무 기대됨 관련 트위터 예시
- 벤치마크가 (드디어) 깨졌음
- 기대 이상으로 예술 작품 같음
- 이게 괜찮은 거임? 내 눈엔 그냥 별로임
내가 특이하게 느낀 점은, Gemini 2.5 Pro는 대부분의 용도에서 최상급인데, 반드시 첫 번째 질문에서만 그렇다는 것임. 즉, 컨텍스트가 다 들어갔을 때 한 번 질문해서 한 번 답변만 받아야 최상임. 대화를 길게 이어갈수록 품질이 급격히 떨어짐. 다른 모델들보다도 컨텍스트 윈도우가 긴데도 이상함. 나는 프로젝트 전체(대략 20만 토큰)를 대화창에 넣고, 잘 만든 질문 하나만 던지고, 그 채팅 창은 바로 닫는 방법으로 쓰고 있음
- 대화를 장시간 하면 답변 품질이 계속 나빠지는 현상은 내가 써본 모든 LLM에서 동일했음. 그래서 나는 두 메시지 이상 넘기지 않음. 첫 답변에서 원하는 결과가 안 나오면, 메시지를 더해 갈수록 맞는 답이 나올 확률이 점점 줄어듦. 항상 새 챗에서 시작하고 프롬프트를 조정하면서 시도하는 게 좋다고 생각함
"Gemini 3.0은 특히 코드 작성 성능 향상으로 인해 현 시점에서 가장 기대되는 AI 릴리스 중 하나"라는 말이 있는데, 구글 내부에서 사용 중인 친구들의 말을 들어보면 다들 실망하게 될 거라고 함.
편집: 실제로는 Gemini 3을 쓸 수 없는 상태라, 그들이 별로라고 말하는 게 오히려 당연함
- Gemini 3.0은 구글 내부에서도 현재 널리 배포된 상태가 아님. "Gemini for Google"은 2.5 Pro나 2.5 Flash를 파인튜닝한 버전임. 3.0 모델 자체는 넓게 쓰이고 있지 않음. (구글 직원, 결제 관련 팀 근무 중이며 개인 의견임)
- 이 기대감에 찬물을 끼얹어 미안하지만, 우리 구글 내 Vibecoding 팀에서도 Gemini 3를 사용하고 있지 않음
- 놀라울 것도 없음. LLM은 성능 향상의 한계(수익 체감 구간)에 접어들었고, 더 저렴하게 GPU를 만들 방법이 필요함
트위터에 Gemini 3 예제가 훨씬 더 많이 쏟아지는 중임. 이를 본 후 바로 Google 주식을 샀음. 결과물을 보면 실제로 과거 템플릿을 복붙하지 않고, 진짜 창의적인 신규 디자인을 만들어 내는 느낌임. 코드 레벨에서 이렇게 일관되고 아름다운 산출물을 내는 것은 극도로 어려운데, Gemini 3가 그걸 이뤄내는 것 같아 충격이었음. 게다가 Google만이 모델-하드웨어까지 수직통합을 완성한 회사라 AI 시대에서 성공 가능성이 매우 크다고 봄
- 나는 금융 전문가는 아니지만, 단순히 하이프 트위터 글만 보고 주식을 사는 건 안전한 투자 방법이 아니라는 팁을 줄 수 있음. 하지만 여유 자금으로 재밌게 시도하는 거라면 뭐든 괜찮음
chetaslua 트위터에서 Gemini 3 관련 다양한 실험 결과를 올리고 있음 (웹 데스크톱, Vampire Survivor 클론, 실제 플레이 가능한 보겔 3D 모델, 다양한 게임 클론, SVG 등). 특히 one-shot 형태에서는 결과물이 아주 뛰어나고 멋짐
- 이 예시가 정말 참신했음: 실시간 데모 codepen
  Python 터미널을 실행시키면 조금 재미있는 4번째 벽을 깨는 효과가 나타남
  1. "Python" print 키워드를 쓰면 실제 브라우저에서 인쇄 대화창이 뜸
  2. "Python" open 키워드를 쓰면 브라우저 새 탭이 열려 해당 파일에 접근하려고 함
    즉 print와 open 실행이 브라우저로 바로 연결됨
루핑(반복) 현상이 개선되면 좋겠음. 정말 심각한 문제임. CLI에도 루프 감지 기능이 있는데, 사용한 지 1분 만에 바로 감지함. Gemini app의 2.5 Pro도 여러 번 반복하지 말라고 지시해도 결국 단어를 계속 반복해서 거의 쓸 수 없음
모델들이 SVG를 “눈으로” 평가하면서 여러 번 수정하는 방식인가, 아니면 한 번에 완벽하게 결과를 내는 것을 기대하는 것인가 궁금함
- 내 벤치마크에서는 기회가 한 번뿐임.
  시각 모델에 렌더된 결과물을 보여주고 최대 세 번까지 개선하는 방식도 테스트해봤지만, 놀랍게도 결과가 더 좋아지지 않음

답변달기