최근 몇 달간 ChatGPT를 유료로 사용하며 코딩, 뉴스, 주식 분석, 일상 문제 해결 등 거의 모든 용도로 써왔음
하지만 Gemini 3가 출시된 후 써보니 모든 사용 사례에서 훨씬 더 나은 결과를 줌
특히 웹 검색 통합이 필요한 최신 정보 탐색에서 강점을 보였음. OCR도 훌륭해서 내 악필도 잘 인식함
다만 앱 버그가 많고, 세션이 자주 끊기며, 사진 업로드 오류도 있음.
가장 불만인 점은 모든 링크가 구글 검색을 거쳐야 해서 직접 사이트로 가려면 수정해야 함.
전반적으로는 ChatGPT가 검색 통합력에서 밀려 따라잡기 어려울 것 같다는 결론임
“폴리시 문제만 있다”는 표현은 너무 약함. 하루에도 몇 번씩 스레드 전체가 날아가는 버그 때문에 욕이 나올 정도임
중단만 해도 데이터가 사라지는 수준이라, 전형적인 Google식 미완성 제품 느낌임
음성 모드 아이디어는 좋지만 자주 깨지고, 멋대로 질문을 반복함
나는 정반대 경험을 했음. ChatGPT는 여러 번 검색하고 결과를 분석한 뒤 추가 검색까지 하는 반면, Gemini는 검색을 거의 안 함
ChatGPT는 PDF나 스크린샷을 열어 OCR 입력으로 활용하지만 Gemini는 무시함
링크가 구글 검색을 거치는 이유는 내부적으로 악성코드·피싱 검사를 하기 때문임
하지만 요즘은 브라우저가 자체적으로 처리하므로 굳이 구글에 클릭 정보를 보낼 필요는 없음
직접 링크로 수정해도 문제 없음
내 경우엔 Gemini 3 Pro가 오히려 환각(hallucination) 이 심했음. 존재하지 않는 출처를 만들어내기도 함
Opus 4.5는 품질이 더 좋지만 사용 제한이 심해서 여러 구독을 병행할까 고민 중임
Gemini의 음성 인식 품질이 너무 나빠서 사용할 수 없었음
OCR보다 음성 기능을 더 많이 쓰는 입장이라 치명적임
“검색 통합이 강점”이라는 주장도 이해가 안 됨. 최신 정보 검색에서 ChatGPT가 실제로 더 나빴던 예시가 궁금함
블로그 공지에는 없지만 실제 컨텍스트 윈도우 크기가 40만 토큰임 공식 문서에 명시되어 있음
전체 컨텍스트 활용 능력도 개선됐다고 하니 기대됨
Rust/CUDA 프로젝트에서 Codex 5.1을 쓰다가 Gemini 3로 옮겼는데, 처음엔 버그를 잘 잡아줘서 감탄했지만 곧 명령 무시, 출력 깨짐, 불투명한 추론 과정 때문에 미칠 뻔했음
다시 Codex로 돌아오니 안정적이고 피드백도 잘 반영함. 이제 GPT‑5.2 xhigh 모드까지 나와서 마치 크리스마스 선물 받은 기분임
40만 토큰은 이미 GPT‑5, 5.1, 5‑mini 등에도 있었음. 다만 긴 문맥 처리 성능이 개선됐다면 큰 의미가 있음
나는 xhigh 모드가 high보다 오히려 결과가 나빠서 PEBKAC(사용자 실수) 인가 싶었음. 비교해본 적 있는지 궁금함
요즘 댓글을 보면 진짜 후기인지 스폰서 홍보인지 구분이 안 됨
예전처럼 솔직히 문제와 해결책을 논의하던 포럼 문화가 그립다는 생각임
많은 개발자들이 한 세션에서 요리, 선물, 코딩 등 모든 주제를 섞어 쓰다가 이상한 답변을 받는 경우를 봤음
LLM은 전체 대화 맥락을 계속 보내기 때문에 주제별로 새 채팅을 시작해야 함
그렇지 않으면 “아내가 전역 변수에 대해 어떻게 생각하는지” 같은 이상한 답을 듣게 됨
가끔 이런 생각이 듦. LLM의 내부 작동 원리를 모르는 사람에게 이 도구들이 얼마나 이상하게 느껴질까?
Cursor나 ChatGPT 같은 앱은 아마 이해하기 어려울 것 같음
나도 fast.ai 강좌를 듣고 VLLM 등 여러 모델을 직접 만져본 경험이 큰 도움이 됐음 컨텍스트 윈도우 개념을 모르면 AI가 멍청하다고 느낄 수 있음. 이런 이유로 사람들이 AI를 과소평가하는 듯함
어떤 맥락을 남겨야 하는지도 명확하지 않음. 비슷한 스타일의 텍스트를 넣었더니 오히려 성능이 떨어졌음
또 모델이 A/B 테스트 중인지, reasoning 토큰을 제한하는지 알 수 없어 신뢰가 어렵다는 느낌임
ChatGPT의 “Reference chat history” 옵션이 기본 활성화되어 있어서 새 대화를 만들어도 이전 내용이 섞임
완전히 분리하려면 이 옵션을 꺼야 함
LLM과 “연애 관계”에 빠진 사람들에 대한 팟캐스트를 들었는데, 단순히 컨텍스트를 리셋하면 완전히 낯선 존재로 돌아간다는 걸 모르는 듯했음
메인보드 이미지에서 RAM, PCIe 슬롯, DisplayPort 위치가 전부 잘못되어 있음 이미지 링크
왜 이런 걸 홍보 이미지로 썼는지 의문임
GPT‑5.2의 비전 성능이 향상됐지만 완벽하지 않음을 보여주려는 의도였음. 완벽한 결과만 고르면 오히려 오해를 줄 수 있음
USB Type‑A 포트도 2개 쌍으로 쌓인 게 아니라 4개임
기사 본문에도 “두 모델 모두 오류가 있지만 GPT‑5.2가 더 나은 이해를 보였다”고 명시되어 있음
요즘 AI 커뮤니티 문화가 결과 검증 없이 생성물만 양산하는 경향이 있어서 이런 실수가 생긴다고 봄
그래도 이미지 해상도가 2003년 폴더폰 수준이라 오류가 생길 만함
Extended NYT Connections 벤치마크에서 GPT‑5.2의 고추론 버전이 69.9→77.9로 향상됨 벤치마크 링크
중간·저추론 버전도 모두 개선되었지만, Gemini 3 Pro와 Grok 4.1 Fast Reasoning이 여전히 더 높음
Gemini 3 Pro Preview가 같은 테스트에서 96.8%라니 인상적임
다른 사람이 Clues by Sam 퍼즐로 테스트했는데 GPT‑5 Pro가 이미 1위를 차지했음
아마 5.1 버전이 너무 단조롭다는 피드백을 반영한 듯함. POV‑Ray 버전에서도 같은 경험이 있었음
점점 공기역학적으로 진화하는 걸 보니 AI가 똑똑해지는 느낌임
“이게 내가 신뢰하는 유일한 벤치마크”라는 농담이 나올 정도임
하지만 같은 벤치마크를 너무 오래 쓰는 건 바람직하지 않음
ARC‑AGI‑2 점수 향상이 놀라움. 일반화 능력이 크게 개선된 듯함
이전 모델들은 과적합된 느낌이었는데, 이제는 자기 수정(self‑correction) 이 잘 됨
새로운 데이터센터나 대규모 모델 확장 없이 이 정도 개선이 가능하다면 미래가 기대됨
나도 ARC‑AGI‑2 결과에 주목했음. 정말 큰 도약임
이제 벤치마크보다 사용자 경험이 더 중요하다고 느낌
내가 ChatGPT를 계속 구독하는 이유는 프로젝트별 채팅 정리 기능 덕분임
하지만 모든 플랫폼이 공통적으로
자신감 있게 거짓말함
프롬프트를 제대로 따르지 않음
불확실성을 표현하지 않음
불필요한 칭찬과 장황한 답변을 멈추지 않음
출처 인용이 일관되지 않음
원문을 봤는지 요약본을 봤는지 명확히 밝히지 않음
이런 기본적인 사용성 문제를 해결해야 함
객관적 지표를 벗어나면 측정의 타당성을 설득하기 어려워지지만, 측정 가능한 지표는 쉽게 조작될 수 있음
그래서 벤치마크는 일종의 고양이와 쥐의 게임이 되어버림
r/Codex에서 불만 글이 검열되는 것 같아 여기서 솔직히 말함
속도는 빨라졌지만 Opus 4.5보단 느리고, 5.1 대비 체감 개선이 거의 없음
토큰 비용이 40%나 올랐는데 가치가 느껴지지 않음
Gemini 3는 무료로 ChatGPT Pro 수준이고, Claude Code $100/월도 강력함
OpenAI가 존재론적 위기를 맞고 있는 듯함
Gemini 2.5에서 3으로 갈 때도 큰 개선이 없었음. 전반적으로 실질적 진보가 정체된 느낌임
“지식 컷오프가 2025년 8월”이라는 점과 가격 인상은 새로운 사전학습(pretrain) 모델을 의미하는 듯함
GPT‑5.1은 GPT‑4o와 같은 사전학습을 썼다고 알려져 있었음
새로운 프리트레인은 비용이 막대하므로 단순한 0.1 버전 상승으로 끝나진 않을 것임
혹은 5.1이 더 오래된 체크포인트이거나 양자화(quantization) 가 더 심했을 수도 있음
Hacker News 의견들
최근 몇 달간 ChatGPT를 유료로 사용하며 코딩, 뉴스, 주식 분석, 일상 문제 해결 등 거의 모든 용도로 써왔음
하지만 Gemini 3가 출시된 후 써보니 모든 사용 사례에서 훨씬 더 나은 결과를 줌
특히 웹 검색 통합이 필요한 최신 정보 탐색에서 강점을 보였음. OCR도 훌륭해서 내 악필도 잘 인식함
다만 앱 버그가 많고, 세션이 자주 끊기며, 사진 업로드 오류도 있음.
가장 불만인 점은 모든 링크가 구글 검색을 거쳐야 해서 직접 사이트로 가려면 수정해야 함.
전반적으로는 ChatGPT가 검색 통합력에서 밀려 따라잡기 어려울 것 같다는 결론임
중단만 해도 데이터가 사라지는 수준이라, 전형적인 Google식 미완성 제품 느낌임
음성 모드 아이디어는 좋지만 자주 깨지고, 멋대로 질문을 반복함
ChatGPT는 PDF나 스크린샷을 열어 OCR 입력으로 활용하지만 Gemini는 무시함
하지만 요즘은 브라우저가 자체적으로 처리하므로 굳이 구글에 클릭 정보를 보낼 필요는 없음
직접 링크로 수정해도 문제 없음
Opus 4.5는 품질이 더 좋지만 사용 제한이 심해서 여러 구독을 병행할까 고민 중임
OCR보다 음성 기능을 더 많이 쓰는 입장이라 치명적임
“검색 통합이 강점”이라는 주장도 이해가 안 됨. 최신 정보 검색에서 ChatGPT가 실제로 더 나빴던 예시가 궁금함
블로그 공지에는 없지만 실제 컨텍스트 윈도우 크기가 40만 토큰임
공식 문서에 명시되어 있음
전체 컨텍스트 활용 능력도 개선됐다고 하니 기대됨
Rust/CUDA 프로젝트에서 Codex 5.1을 쓰다가 Gemini 3로 옮겼는데, 처음엔 버그를 잘 잡아줘서 감탄했지만 곧 명령 무시, 출력 깨짐, 불투명한 추론 과정 때문에 미칠 뻔했음
다시 Codex로 돌아오니 안정적이고 피드백도 잘 반영함. 이제 GPT‑5.2 xhigh 모드까지 나와서 마치 크리스마스 선물 받은 기분임
예전처럼 솔직히 문제와 해결책을 논의하던 포럼 문화가 그립다는 생각임
많은 개발자들이 한 세션에서 요리, 선물, 코딩 등 모든 주제를 섞어 쓰다가 이상한 답변을 받는 경우를 봤음
LLM은 전체 대화 맥락을 계속 보내기 때문에 주제별로 새 채팅을 시작해야 함
그렇지 않으면 “아내가 전역 변수에 대해 어떻게 생각하는지” 같은 이상한 답을 듣게 됨
Cursor나 ChatGPT 같은 앱은 아마 이해하기 어려울 것 같음
컨텍스트 윈도우 개념을 모르면 AI가 멍청하다고 느낄 수 있음. 이런 이유로 사람들이 AI를 과소평가하는 듯함
또 모델이 A/B 테스트 중인지, reasoning 토큰을 제한하는지 알 수 없어 신뢰가 어렵다는 느낌임
완전히 분리하려면 이 옵션을 꺼야 함
메인보드 이미지에서 RAM, PCIe 슬롯, DisplayPort 위치가 전부 잘못되어 있음
이미지 링크
왜 이런 걸 홍보 이미지로 썼는지 의문임
Extended NYT Connections 벤치마크에서 GPT‑5.2의 고추론 버전이 69.9→77.9로 향상됨
벤치마크 링크
중간·저추론 버전도 모두 개선되었지만, Gemini 3 Pro와 Grok 4.1 Fast Reasoning이 여전히 더 높음
“자전거 타는 펠리컨” 테스트가 흥미로움
이미지 예시
ARC‑AGI‑2 점수 향상이 놀라움. 일반화 능력이 크게 개선된 듯함
이전 모델들은 과적합된 느낌이었는데, 이제는 자기 수정(self‑correction) 이 잘 됨
새로운 데이터센터나 대규모 모델 확장 없이 이 정도 개선이 가능하다면 미래가 기대됨
이제 벤치마크보다 사용자 경험이 더 중요하다고 느낌
내가 ChatGPT를 계속 구독하는 이유는 프로젝트별 채팅 정리 기능 덕분임
하지만 모든 플랫폼이 공통적으로
이런 기본적인 사용성 문제를 해결해야 함
그래서 벤치마크는 일종의 고양이와 쥐의 게임이 되어버림
r/Codex에서 불만 글이 검열되는 것 같아 여기서 솔직히 말함
속도는 빨라졌지만 Opus 4.5보단 느리고, 5.1 대비 체감 개선이 거의 없음
토큰 비용이 40%나 올랐는데 가치가 느껴지지 않음
Gemini 3는 무료로 ChatGPT Pro 수준이고, Claude Code $100/월도 강력함
OpenAI가 존재론적 위기를 맞고 있는 듯함
“지식 컷오프가 2025년 8월”이라는 점과 가격 인상은 새로운 사전학습(pretrain) 모델을 의미하는 듯함
GPT‑5.1은 GPT‑4o와 같은 사전학습을 썼다고 알려져 있었음