6P by GN⁺ 3일전 | ★ favorite | 댓글 5개
  • GPT-5의 기대와 달리 실제 공개 후 커뮤니티의 실망감이 크게 높아짐
  • GPT-5는 기존 모델과 실질적으로 큰 차별성 없으며, 오히려 일부 벤치마크에서는 오히려 악화된 성능도 확인됨
  • 최신 연구에서 대형 언어 모델(LLM)들의 일반화 한계와 분포 이동 문제가 여전히 심각함이 증명됨
  • OpenAI의 기술 리더십 상실, 주요 인력 이탈, 경쟁사 추격 등으로 기업 가치 유지가 불투명해짐
  • AGI 실현 주장에 대한 회의감이 커지며, 업계 전반적으로 ‘순수한 스케일링’ 접근법에 한계 인식 확산

GPT-5 출시와 기대감

  • OpenAI가 오랜 시간 동안 예고해왔던 GPT-5 공개가 마침내 이루어졌음
  • CEO Sam Altman은 공개 전후로 자신감 넘치는 발언과 마케팅 이미지를 적극 활용했음
  • 그러나 GPT-5 출시 후, 일부 인플루언서를 제외하고는 대다수 커뮤니티에서 실망감이 주를 이뤘음
  • 사용자들은 새 모델에 대해 크게 실망, 오히려 구 버전 요청 청원이 성사되는 현상도 발생했음
  • Altman의 마케팅과 주장과 달리 실제 사용 후기는 극명하게 부정 평가로 기울었음

커뮤니티와 미디어 반응

  • OpenAI Reddit, Hacker News 등 여러 커뮤니티에서 오류, 환각(hallucination) 등 GPT-5의 문제점을 집중적으로 제기함
  • 주요 성능 벤치마크에서는 Grok 4 등 경쟁 모델 대비 열세를 보이기도 했음
  • 자동 라우팅 등 신규 기능 역시 혼란과 미흡함을 드러냄
  • 커뮤니티 기대치가 급격히 높아진 상황에서, GPT-5는 오히려 큰 실망을 남김
  • 공개 당일 Polymarket 설문에서 OpenAI AI 리더십 신뢰도가 1시간 사이 75%에서 14%로 급락함

구조적 한계: 체스, 시각 이해, 추론 문제

  • 저자와 여러 전문가가 지적해온 기본적 추론 오류와 체스 규칙 준수 실패 문제가 여전히 존재함
  • 이미지 생성 등 분야에서는 부분-전체 관계, 시각적 일관성 등에서 뚜렷한 한계가 드러남
  • 기계공학 박사 및 일반인도 실수하지 않을 수준의 문제에서 GPT-5가 오류를 범함
  • 요약 및 독해 등 기본 과제에서도 다수의 실수 사례가 보고됨
  • GPT-5는 괜찮은 점진적 개선 모델이지만, 작년과 비교해 눈에 띄는 혁신은 드묾

오픈AI의 현재 상황과 전망

  • GPT-5는 전작들에 비해 점진적 개선 수준에 머물렀고, 치명적인 단점이 반복됨
  • 시장과 업계에서 OpenAI의 기술 리더십에 대한 신뢰가 하락 중임
  • 여러 주요 인력이 이탈해 경쟁사를 설립하거나 이직하였고, Anthropic, Google, Elon Musk 등이 빠르게 추격 중임
  • 가격 인하 압박, 수익성 문제, Microsoft와의 관계 악화 등 구조적 리스크가 커짐
  • LLM 기반의 AGI 실현 가능성에 대한 회의론과 CEO Sam Altman에 대한 신뢰 저하 심화됨

LLM 근본적 한계: 일반화와 분포 이동 문제

  • Arizona State University에서 나온 최신 논문에서 Chain of Thought 추론조차 훈련 분포를 벗어나면 무너지는 현상이 확인됨
  • Apple 등 타사에서 이미 지적한 분포 이동(distribution shift)에 취약한 구조가 최신 모델에서도 동일하게 발견됨
  • 이는 LLM이 지속적으로 정성적 한계에 부딪히는 근본 원인으로, 대규모 파라미터만으로는 극복 불가임이 드러남
  • 수십억 달러가 투입된 스케일링 전략이 본질적 문제 해결엔 실패함을 보여줌
  • 새로운 패러다임 모색이 필요하다는 인식이 확산됨

AI 업계 전반과 ‘스케일링’의 한계

  • AGI, 운전 자동화, 허황된 타임라인 등 과장된 마케팅이 만연함
  • 성능을 왜곡한 벤치마크, 블랙박스식 평가, 투명성 부족이 심각함
  • 많은 사람들이 ‘AGI’ 용어가 투자자와 대중을 현혹하는 수단임을 인식하기 시작함
  • AI에 대한 낙관적 기대와 채찍질이 동시에 증가함
  • 순수 스케일링 접근법이 막다른 벽에 부딪힌 것이 현실임

대안과 결론

  • GPT-5는 더 저렴해졌을 수 있으나, 체스, 추론, 시각 및 수리 능력 등 질적 한계는 여전함
  • Grok, Claude, Gemini 등 경쟁 모델들 역시 유사한 문제를 반복함
  • 분포 이동(distribution shift) 문제는 여전히 미해결로 남아 있음
  • 이제는 신경-기호(neurosymbolic) AI 및 세계모델 기반 방식 등 새로운 접근이 필요하다는 주장 제기됨
  • 순수 스케일링이 아닌 복합적 알고리듬 혁신이 AGI 실현의 필수 요소임을 재확인함

후속 이슈 예고 및 PS

  • 이번 주 발견된 LLM 한계 외에도 또 다른 심각한 과학적 이슈가 밝혀질 예정임을 시사함
  • 다음 후속 포스트에서 별도의 내용 공유 예고

요약

  • GPT-5 출시 전후로 업계와 커뮤니티의 기대와 반응, LLM의 구조적 한계, OpenAI의 미래, AGI 프레임의 현실 등이 폭넓게 논의됨
  • 전체 내용은 LLM, GPT-5의 실질적 한계, AI 투자/기대/실망, 혁신 이슈, 연구 동향 등 스타트업과 IT 실무자에게 중요한 시사점 제시함

구글처럼 그냥 조용히 show&prove 했으면 이정도까진 아니었을것 같은데, 그동안 너무 두렵다느니 죽음의별이 어떻다느니 핵폭탄을 만들어버린것 같다느니 하입이란 하입을 잔뜩 해놨던 자업자득 아닐까 싶어요

그리고 발표에서 벤치 보여줄때 정말 어처구니 없는 실수를 했던것도 전체적인 인상을 안좋게 하는데 기여했던거 같아요

과한 비관론인듯.
우려점은 이해하나, 기술 발전 과정이 무조건 우상향일 수가 없음

하필 포스트 쓴 사람이 헛소리만하던 Gary Marcus라서 영...

Hacker News 의견
  • 나는 여전히 GPT-5가 실질적으로 비용 절감 전략이라고 생각함, GPU가 필요한 제품에서 10억 명 유저를 확보하려는 성장 지향 회사라는 점 때문임

    • GPT-5 Pro에 대해 아무도 얘기하지 않는데, 나는 직접 테스트해 봤고 Grok 4 Heavy, Opus 4.1보다 월등히 뛰어남

    • 완전히 최신 기술이며, 진짜 최대 성능대로 모델을 돌린다면 한 사람당 월 수천 달러까지 이를 수 있음

    • 그래서 실제로는 제한된 수준으로 제공되고 있음, OpenAI는 이런 시장 세그먼트가 아니라, 성장에 집중해 구글과 맞서려는 전략임

    • Pro 모델 언급이 한 번도 없어서 이 사람 의견은 아예 신뢰하지 않음

    • 내 생각에는 GPT-5 Pro가 o3-pro보다 훨씬 낫다는 인상은 아님(혹은 전혀 아닐 수도 있음), 훨씬 느리고 출력 품질은 비슷함

      • 여전히 속기도 하고 요점을 놓침
      • 다만, 문제 해결에 대해 새로운 접근법 제시에선 약간 더 우수해 보임
      • 내 첫 인상은 5-pro가 o3-pro보다 지식은 0-2% 더 많고 창의성이나 독창성은 5-10% 정도 더 높음
      • 모델의 "톤"이나 성격은 완전히 똑같음
      • 특정 작업(형식 논리, 데이터 분석, 짧은 분석적 과제)에선 진짜 초인적인 수준이고 Grok이나 Gemini 어떤 버전보다 뛰어남
      • 하지만 산문 작성, 일반적인 글쓰기 용도로는 Kimi K2, Deepseek R1보다 확실히 떨어짐
      • 특히 놀라운 건, 최고의 영어 산문을 쓰는 모델이 중국계들이라는 점임, 단순히 GPT의 ‘AI 스타일’을 안 쓰는 게 아니라 Kimi 수준은 실제 출판된 시인들과 동급임
    • 내 네트워크 확인해봤는데 GPT-5 Pro 쓰는 사람 아무도 없음

      • 특히 o3와의 비교 피드백이 정말 궁금함!
    • 이 의견 동의함, 하지만 더 나은 모델을 대중에 공개하기 위한 의도도 있다고 봄

      • o3가 엄청나게 좋았지만, 많은 사람들이 여전히 쓰지 않았음
      • ChatGPT 매일 쓰는 친구들한테 o3 썼냐고 물으면 멍한 표정
      • 그래서 추론 모델을 대중화시키는 목적도 있다고 생각함, 이건 OpenAI의 비용 올라가는 요인
      • 하지만 루팅 계층 때문에 강력 유저 입장(대부분 HN 이용자)에서는 비용 절약 측면도 있음
      • 단, 파워유저는 reasoning 모델 강제 사용 방법을 곧 잘 익힘
    • Pro 모델이 API로 쓸 수 없는 걸로 아는데, 맞는지?

      • 혹시 Codex CLI 통해 구독 연동해서 쓸 수 있는지 궁금함
    • 동의함

      • 이 결정의 또 다른 배경엔, 대부분 유저한테는 기존 모델만으로도 충분하다는 점이 있음
      • HN 이용자와 달리 일반 유저는 최신 기술에 관심이 크지 않음
  • 이런 류의 기사가 특히 짜증난다고 느끼는 편임

    • 왜 직접 분석해서 본인이 왜 GPT-5가 별로라고 생각하는지 글을 쓰는 대신, 소셜 미디어 반응만 긁어서, 모든 비판을 “충격적” 혹은 “맹공”으로 과장해서 내 의견을 설득하려고 함

    • 너무 한쪽으로 치우쳐서 저널리즘도 아니고, 오리지널 분석도 아님

    • 왠지 AI 관련 기사들은 근본적으로 호기심이 부족하고, 조롱이나 깎아내림에 더 집중하는 경향이 있는 듯함

      • 나는 AI를 좋아하지만, 생각이 다른 사람의 진지한 글이라면 언제든 읽음
      • 하지만 이런 식의 글은 종류가 다름, 상대편 비판 외에는 아무 가치가 없음
      • HN의 모더레이션이 나쁘지 않다고 생각하는데, 이런 호기심 없는 글들은 메인에서 사라졌으면 함
    • Gary Marcus는 항상 분석이 얕은 편임

      • 그의 의견은 Jim Cramer의 주식 해설과 꽤 비슷함
      • 진지하게 ‘Reverse Gary Marcus’ 전략에 베팅할 수도 있을 정도임
    • Gary Marcus는 항상, 진짜 항상 AI가 실제로 동작하지 않는다고 주장함—그가 맞은 의견은 거의 우연 수준임

      • 원댓글 보기
      • 이런 현상이 넓게 퍼진 문제라는 의견에 완전히 동의함
    • GPT-5가 과대광고에 부응했는지, 그리고 어떤 반응을 받고 있는지에 대한 블로그 포스트임

      • 이건 완전히 합법적 주제임
      • Gary Marcus 블로그니까 당연히 자기 의견으로 편향될 수밖에 없음, BBC 기사와는 다름
    • 점점 진짜 의견을 찾기 힘들어진 게 현실 문제라고 생각함

      • 온라인에선 대부분 남 의견을 재해석해서 떠드는 수준이고, 쓸데없이 시끄럽고 얕은 콘텐츠가 넘침
  • 내 경험상 이번 "업그레이드"는 Plus 사용자에겐 큰 다운그레이드임

    • GPT-5는 O3에 비해 답변 품질이 부족함, 충분히 사고하는 회수도 적고 O3처럼 웹 검색도 사용하지 않음

    • 직접 ‘thinking' 선택하고 명확하게 지시해도 해결 안 됨

    • 지금은 Gemini 써야 비슷한 품질 출력이 나옴

    • 그리고 커스텀 GPT들(관련정보)도 고장남, 내 맞춤 문법 검사 GPT가 모델 상관없이 명령을 무시함

    • Deep research 옵션도 이상함, 선택해도 그대로 답하고 지시해도 특별히 안 달라짐

    • Projects도 마찬가지로 고장난 듯함

      • 지시를 제대로 따르지 않고, 스페인어로 응답하거나 내 질문을 무시함
      • 가끔은 마치 자기랑 대화하는 느낌이고, 내가 아무 키나 입력해도 계속 똑같이 원하지 않은 답을 내놓음, 심지어 스페인어로
    • 일부러 무료 플랜으로 몰거나, 내년 초부터 광고 넣을 것 같고, 아니면 200달러짜리 요금제로 유도하려는 것 같음

      • 앞으로는 광고 없는 20달러 요금제는 없을 거라는 생각임
    • 환각(거짓 정보)이 정말 심함

      • 많이 실망스러움
  • AI 커뮤니티는 Marcus 같은 독립 전문가가 더 필요함

    • 산업에 대한 과장이나 내부 기준 변화(예: "내부적으로 AGI 도달" 등)에 휘둘리지 않고 진실성과 투명성을 유지해야 함

    • 본인 스타일에 상관없이, Marcus가 scaling law의 한계나 LLM류 AI의 진정한 추론 부족(분포 밖 일반화) 등 여러 문제를 정확하게 지적한 전례 있음

    • 업계는 초기에 부정하다가, 시간이 지난 뒤 새로운 무언가(Prompt Chain, RL 기반 LLM 등)를 팔 때 자기 발견이라고ㅋㅋ 주장하기 일쑤였음

    • 과장된 흐름에는 비판적 목소리가 반드시 필요함

      • LLM 관련 가장 큰 목소리는 경제적으로 이득 보는 쪽임
      • 나도 AI에 반대하지 않지만, 모든 경제 현상이 이 기술로 모두 실업될 것처럼 호도하는 분위기는 정말 어이없음(경제가 힘든 진짜 이유는 따로 있음, 대개 각국 리더십 때문임)
      • 혁신 속도가 둔화되면 적어도 내가 쓰는 제품들이 억지로 AI 기능 끼워넣기 대신 진짜 기능이나 버그 수정에 다시 집중할 수 있기를 바람
    • 강하게 반대함

      • 이 에세이는 Reddit 불만글 짜깁기에 가깝고 직접적인 테스트 결과도 없으며, 출시 과정(5억명 동시 론칭)에서의 문제만 다룸
      • 이런 비판글은 5 출시에서 진짜 중요한 포인트를 놓치는데, 사실 이게 최초의 ‘AI 풀 프로덕트’ 출시임, 이제 모델 개선에서 실제 서비스 구상 단계로 넘어감
      • 중요한 건 더 빨라졌고, 통합됐고, 점진적 혁신(멀티 모달 인터랙션, 이미지 생성 등)을 가능하게 했다는 점임
      • 특히 긴 컨텍스트와 장기 목표 유지 능력에서 큰 발전임
      • Willison도 본인 코드 작업 주력으로 쓴다고 했고, 나 역시 더 긴/복잡한 코드 과제에선 Claude뿐 아니라 기존 최고 모델(o3-pro, Gemini)보다 확실히 낫다고 느낌
      • o3-pro보다 코딩 속도도 훨씬 빠름
      • "Reddit 이용자들이 4o에 애착을 느껴서 이 론칭이 싫다 → oAI 망함" 식 분석은 약하고 의미 없는 주장임
    • 이런 AI의 한계나 잘못된 인식 대부분을 Marcus와 연결하지 않음

      • Marcus 때문이라고 생각하지 않음
  • 지금 GPT에 진짜 필요한 가장 큰 개선점은, ‘모르면 모른다고 말하는 것’임

    • 오늘 Cyberpunk 2077 모드에서 redscript로 NPC를 자동 생성하는 방법을 찾으려 했는데, 정말 어렵게 알아냄

    • ChatGPT 5는 ‘리서치’한다고 해놓고 API를 지어내거나, 몇 번이나 사실이 아님을 지적해도 환각만 반복함

    • 30분간 내 시간만 낭비, 그냥 자기가 모른다고 했으면 1분이면 알았을 일임

    • ChatGPT가 뭔가 안다고 착각하지 말아야 함

      • 훈련 데이터 기반으로 통계적으로 가장 가능성 높은 답변만 산출함
      • 내부 지식 시스템을 참조하지 않고, 단지 언어 패턴만 출력함
      • 특정 아이디어를 강조하는 식(프로파간다 등)으로 훈련은 가능해도, 지식을 직접 참조할 순 없음
    • 맞음!

      • 마치 전체 확신을 가지고 주장하는 동료같아서 별다른 의심 없이 믿게 됨
      • 그런데 사실은 다 거짓말일 때가 너무 많음, 정말 짜증나는 상황임
    • 사실 아무것도 "알지" 못함

      • 모든 결과는 프롬프트에 근거한 환각에 가까움
    • “모르면 모른다고 말하는 것”이 가장 필요하다는 데 동의함

      • 프론티어 AI 연구소 내부적으로도 검토와 실험이 있었을 것임
      • 이런 현상이 드문 건, 모델 한계가 명확하다는 방증일지도 모름
    • 이런 개선 작업이 실제로 진행되고 있음, OpenAI 공식자료에도 언급

      • 관련 링크
      • GPT‑5(‘thinking’ 옵션)에서 불가능하거나, 정보 부족하거나, 도구가 없는 작업에 대해 더 솔직히 한계와 행동을 드러내려 노력함
      • 예컨대 CharXiv 멀티모달 벤치마크에서 이미지가 없는 프롬프트 실험시, o3는 존재하지 않는 이미지에 86.7% 확률로 자신만만한 답을 했지만, GPT‑5는 9%로 줄어듦
      • 불가능한 코딩, 멀티모달 자산 결여 상황 등에서도 GPT‑5 reasoning이 o3 대비 훨씬 덜 오답임
      • 실제 ChatGPT 트래픽 기반 긴 대화셋에서, deception 비율을 4.8%→2.1%로 줄였음
      • 아직 더 개선이 필요하며 연구 지속 중임, 시스템 카드 참고
  • 그의 “꼭 맞아떨어지려는 집착”이 올바른 사실 자체를 흐린다고 느낌

    • 하이브리드 symbolic/transformer 시스템에 대한 논의가 흥미로움

    • 링크된 포스트에선 수학은 파이썬에게 위임해서 Grok 4가 수학에서 성공할 수 있었던 예시를 보여줌

    • 개인적으로 symbolic 우선 시스템, 즉 진짜 ‘하드’ 수학은 심볼릭 방식으로, 추론이 필요한 영역만 monad로 다루는 접근을 더 보고 싶음

    • Aloe의 뉴로심볼릭 시스템이 OpenAI의 deep research GAIA 벤치마크 점수를 20점 차이로 앞섬

      • Gary가 말수 많고 과장도 있지만, LLM 한계에 대해서는 확실히 아는 편임 (aloe.inc)
  • GPT-5에서 독특한 문제가 생겼음, GPT-4에서는 없던 현상임

    • 대화 스레드에서 맥락이 갑자기 끊기거나, 다음 답변에 대해 제대로 파악을 못함

    • 뭔가 컨텍스트 청소 프로세스가 개입한 듯, 지금까지 대화 요점을 정리하지 않고 넘어가는 느낌임

    • 그렇다면 실제 사용 가능한 컨텍스트가 매우 작아진 걸 수도 있음, 이 현상이 자주 발생함

    • ‘최근 대화 내용을 검토해 달라’고 요청하면 조금 나아짐

    • 내 경우 답변이 훨씬 더 짧아진 것 같음

  • “사람들은 기적을 기대하게 되었지만, GPT-5는 그냥 최신 incremental 발전에 불과함”

    • 이 부분이 이 기사에서 쓸 가치가 있던 유일한 내용임
    • 사람들은 점진적 발전을 기대하는 게 맞음
    • 제공자들은 기적을 약속하지 말아야 함
    • 기대치 관리가 중요함
    • 점진적 발전도 확실한 발전임
    • 단 “AGI는 GPT 시리즈 뒷단에서 계속 나올 거다”라는 식엔 동의 안 함
  • 이제 훈련 데이터는 남아있지 않음

    • AI의 모든 개선은 여기서부턴 구조 변형에 달렸음

    • 모든 최신 모델들은 새로운 정보에 대해 로컬 최대점을 찍음

    • 선행 연구들을 보면, 의도적으로 심은 실제 데이터와 주로 합성 데이터를 결합해서 frontier LLM 훈련하는 게 효과적임이 결론남

    • 이 말을 2년 전에 여기서 한 번 했었음

      • 고품질 컨텐츠로 약탈할 만한 ‘세컨드 인터넷’도 없음
      • 기존 정보도 점점 강하게 잠기기 시작함
    • 정말 GPT-5가 이미 전 세계의 비디오 데이터를 전부 학습했다는 얘기인가?

    • 신규 훈련 데이터는 매일 새로 만들어지지 않나?

      • YouTube, Facebook, TikTok 등
      • 인간은 콘텐츠 생성 머신임
  • OpenAI가 최고의 모델을 만든다 해도, ‘GPT-5’라는 이름에 이미 커뮤니티와 OpenAI가 하이프를 얹어 실패가 예정된 셈임

    • 오히려 OpenAI가 밈과 과대광고를 거부하고 점진적 개선을 택했어야 하지만, 그럼 투자자/스토리/AI 생태계 유지에 불리했을 것

    • 우리는 이미 ‘정점’에 다다름

    • sam altman이 직접 그런 기대를 만들고 부추기는 역할 했다는 것도 사실임

    • 진짜 AGI가 도래하면, 사람들이 어떻게 “기대에 못 미쳤다”는 논리를 펼치게 될지 궁금함