GN⁺ 4달전 | parent | ★ favorite | on: GPT‑5.2 공개(openai.com)
Hacker News 의견들
  • 최근 몇 달간 ChatGPT를 유료로 사용하며 코딩, 뉴스, 주식 분석, 일상 문제 해결 등 거의 모든 용도로 써왔음
    하지만 Gemini 3가 출시된 후 써보니 모든 사용 사례에서 훨씬 더 나은 결과를 줌
    특히 웹 검색 통합이 필요한 최신 정보 탐색에서 강점을 보였음. OCR도 훌륭해서 내 악필도 잘 인식함
    다만 앱 버그가 많고, 세션이 자주 끊기며, 사진 업로드 오류도 있음.
    가장 불만인 점은 모든 링크가 구글 검색을 거쳐야 해서 직접 사이트로 가려면 수정해야 함.
    전반적으로는 ChatGPT가 검색 통합력에서 밀려 따라잡기 어려울 것 같다는 결론임

    • “폴리시 문제만 있다”는 표현은 너무 약함. 하루에도 몇 번씩 스레드 전체가 날아가는 버그 때문에 욕이 나올 정도임
      중단만 해도 데이터가 사라지는 수준이라, 전형적인 Google식 미완성 제품 느낌임
      음성 모드 아이디어는 좋지만 자주 깨지고, 멋대로 질문을 반복함
    • 나는 정반대 경험을 했음. ChatGPT는 여러 번 검색하고 결과를 분석한 뒤 추가 검색까지 하는 반면, Gemini는 검색을 거의 안 함
      ChatGPT는 PDF나 스크린샷을 열어 OCR 입력으로 활용하지만 Gemini는 무시함
    • 링크가 구글 검색을 거치는 이유는 내부적으로 악성코드·피싱 검사를 하기 때문임
      하지만 요즘은 브라우저가 자체적으로 처리하므로 굳이 구글에 클릭 정보를 보낼 필요는 없음
      직접 링크로 수정해도 문제 없음
    • 내 경우엔 Gemini 3 Pro가 오히려 환각(hallucination) 이 심했음. 존재하지 않는 출처를 만들어내기도 함
      Opus 4.5는 품질이 더 좋지만 사용 제한이 심해서 여러 구독을 병행할까 고민 중임
    • Gemini의 음성 인식 품질이 너무 나빠서 사용할 수 없었음
      OCR보다 음성 기능을 더 많이 쓰는 입장이라 치명적임
      “검색 통합이 강점”이라는 주장도 이해가 안 됨. 최신 정보 검색에서 ChatGPT가 실제로 더 나빴던 예시가 궁금함
  • 블로그 공지에는 없지만 실제 컨텍스트 윈도우 크기가 40만 토큰임
    공식 문서에 명시되어 있음
    전체 컨텍스트 활용 능력도 개선됐다고 하니 기대됨
    Rust/CUDA 프로젝트에서 Codex 5.1을 쓰다가 Gemini 3로 옮겼는데, 처음엔 버그를 잘 잡아줘서 감탄했지만 곧 명령 무시, 출력 깨짐, 불투명한 추론 과정 때문에 미칠 뻔했음
    다시 Codex로 돌아오니 안정적이고 피드백도 잘 반영함. 이제 GPT‑5.2 xhigh 모드까지 나와서 마치 크리스마스 선물 받은 기분임

    • 40만 토큰은 이미 GPT‑5, 5.1, 5‑mini 등에도 있었음. 다만 긴 문맥 처리 성능이 개선됐다면 큰 의미가 있음
    • 나는 xhigh 모드가 high보다 오히려 결과가 나빠서 PEBKAC(사용자 실수) 인가 싶었음. 비교해본 적 있는지 궁금함
    • 요즘 댓글을 보면 진짜 후기인지 스폰서 홍보인지 구분이 안 됨
      예전처럼 솔직히 문제와 해결책을 논의하던 포럼 문화가 그립다는 생각임
  • 많은 개발자들이 한 세션에서 요리, 선물, 코딩 등 모든 주제를 섞어 쓰다가 이상한 답변을 받는 경우를 봤음
    LLM은 전체 대화 맥락을 계속 보내기 때문에 주제별로 새 채팅을 시작해야 함
    그렇지 않으면 “아내가 전역 변수에 대해 어떻게 생각하는지” 같은 이상한 답을 듣게 됨

    • 가끔 이런 생각이 듦. LLM의 내부 작동 원리를 모르는 사람에게 이 도구들이 얼마나 이상하게 느껴질까?
      Cursor나 ChatGPT 같은 앱은 아마 이해하기 어려울 것 같음
    • 나도 fast.ai 강좌를 듣고 VLLM 등 여러 모델을 직접 만져본 경험이 큰 도움이 됐음
      컨텍스트 윈도우 개념을 모르면 AI가 멍청하다고 느낄 수 있음. 이런 이유로 사람들이 AI를 과소평가하는 듯함
    • 어떤 맥락을 남겨야 하는지도 명확하지 않음. 비슷한 스타일의 텍스트를 넣었더니 오히려 성능이 떨어졌음
      또 모델이 A/B 테스트 중인지, reasoning 토큰을 제한하는지 알 수 없어 신뢰가 어렵다는 느낌임
    • ChatGPT의 “Reference chat history” 옵션이 기본 활성화되어 있어서 새 대화를 만들어도 이전 내용이 섞임
      완전히 분리하려면 이 옵션을 꺼야 함
    • LLM과 “연애 관계”에 빠진 사람들에 대한 팟캐스트를 들었는데, 단순히 컨텍스트를 리셋하면 완전히 낯선 존재로 돌아간다는 걸 모르는 듯했음
  • 메인보드 이미지에서 RAM, PCIe 슬롯, DisplayPort 위치가 전부 잘못되어 있음
    이미지 링크
    왜 이런 걸 홍보 이미지로 썼는지 의문임

    • GPT‑5.2의 비전 성능이 향상됐지만 완벽하지 않음을 보여주려는 의도였음. 완벽한 결과만 고르면 오히려 오해를 줄 수 있음
    • USB Type‑A 포트도 2개 쌍으로 쌓인 게 아니라 4개임
    • 기사 본문에도 “두 모델 모두 오류가 있지만 GPT‑5.2가 더 나은 이해를 보였다”고 명시되어 있음
    • 요즘 AI 커뮤니티 문화가 결과 검증 없이 생성물만 양산하는 경향이 있어서 이런 실수가 생긴다고 봄
    • 그래도 이미지 해상도가 2003년 폴더폰 수준이라 오류가 생길 만함
  • Extended NYT Connections 벤치마크에서 GPT‑5.2의 고추론 버전이 69.9→77.9로 향상됨
    벤치마크 링크
    중간·저추론 버전도 모두 개선되었지만, Gemini 3 Pro와 Grok 4.1 Fast Reasoning이 여전히 더 높음

    • Gemini 3 Pro Preview가 같은 테스트에서 96.8%라니 인상적임
    • 다른 사람이 Clues by Sam 퍼즐로 테스트했는데 GPT‑5 Pro가 이미 1위를 차지했음
    • Grok 4.1 reasoning 결과는 빠졌는지 궁금함
  • “자전거 타는 펠리컨” 테스트가 흥미로움
    이미지 예시

    • 변동성이 너무 커서 테스트 가치가 낮음. 10번 돌려봤는데 절반은 완벽한 결과였음
    • 아마 5.1 버전이 너무 단조롭다는 피드백을 반영한 듯함. POV‑Ray 버전에서도 같은 경험이 있었음
    • 점점 공기역학적으로 진화하는 걸 보니 AI가 똑똑해지는 느낌임
    • “이게 내가 신뢰하는 유일한 벤치마크”라는 농담이 나올 정도임
    • 하지만 같은 벤치마크를 너무 오래 쓰는 건 바람직하지 않음
  • ARC‑AGI‑2 점수 향상이 놀라움. 일반화 능력이 크게 개선된 듯함
    이전 모델들은 과적합된 느낌이었는데, 이제는 자기 수정(self‑correction) 이 잘 됨
    새로운 데이터센터나 대규모 모델 확장 없이 이 정도 개선이 가능하다면 미래가 기대됨

    • 나도 ARC‑AGI‑2 결과에 주목했음. 정말 큰 도약임
  • 이제 벤치마크보다 사용자 경험이 더 중요하다고 느낌
    내가 ChatGPT를 계속 구독하는 이유는 프로젝트별 채팅 정리 기능 덕분임
    하지만 모든 플랫폼이 공통적으로

    • 자신감 있게 거짓말
    • 프롬프트를 제대로 따르지 않음
    • 불확실성을 표현하지 않음
    • 불필요한 칭찬과 장황한 답변을 멈추지 않음
    • 출처 인용이 일관되지 않음
    • 원문을 봤는지 요약본을 봤는지 명확히 밝히지 않음
      이런 기본적인 사용성 문제를 해결해야 함
    • 객관적 지표를 벗어나면 측정의 타당성을 설득하기 어려워지지만, 측정 가능한 지표는 쉽게 조작될 수 있음
      그래서 벤치마크는 일종의 고양이와 쥐의 게임이 되어버림
  • r/Codex에서 불만 글이 검열되는 것 같아 여기서 솔직히 말함
    속도는 빨라졌지만 Opus 4.5보단 느리고, 5.1 대비 체감 개선이 거의 없음
    토큰 비용이 40%나 올랐는데 가치가 느껴지지 않음
    Gemini 3는 무료로 ChatGPT Pro 수준이고, Claude Code $100/월도 강력함
    OpenAI가 존재론적 위기를 맞고 있는 듯함

    • Gemini 2.5에서 3으로 갈 때도 큰 개선이 없었음. 전반적으로 실질적 진보가 정체된 느낌임
  • 지식 컷오프가 2025년 8월”이라는 점과 가격 인상은 새로운 사전학습(pretrain) 모델을 의미하는 듯함
    GPT‑5.1은 GPT‑4o와 같은 사전학습을 썼다고 알려져 있었음

    • 새로운 프리트레인은 비용이 막대하므로 단순한 0.1 버전 상승으로 끝나진 않을 것임
    • 혹은 5.1이 더 오래된 체크포인트이거나 양자화(quantization) 가 더 심했을 수도 있음
    • 아니면 그냥 같은 모델에 품질 낮은 데이터(slop) 를 한 번 더 먹인 걸 수도 있음