GPT-5: 출시 지연, 과대평가됐고, 기대에 못미침 그리고 그보다 더 심각한 문제는
(garymarcus.substack.com)- GPT-5의 기대와 달리 실제 공개 후 커뮤니티의 실망감이 크게 높아짐
- GPT-5는 기존 모델과 실질적으로 큰 차별성 없으며, 오히려 일부 벤치마크에서는 오히려 악화된 성능도 확인됨
- 최신 연구에서 대형 언어 모델(LLM)들의 일반화 한계와 분포 이동 문제가 여전히 심각함이 증명됨
- OpenAI의 기술 리더십 상실, 주요 인력 이탈, 경쟁사 추격 등으로 기업 가치 유지가 불투명해짐
- AGI 실현 주장에 대한 회의감이 커지며, 업계 전반적으로 ‘순수한 스케일링’ 접근법에 한계 인식 확산
GPT-5 출시와 기대감
- OpenAI가 오랜 시간 동안 예고해왔던 GPT-5 공개가 마침내 이루어졌음
- CEO Sam Altman은 공개 전후로 자신감 넘치는 발언과 마케팅 이미지를 적극 활용했음
- 그러나 GPT-5 출시 후, 일부 인플루언서를 제외하고는 대다수 커뮤니티에서 실망감이 주를 이뤘음
- 사용자들은 새 모델에 대해 크게 실망, 오히려 구 버전 요청 청원이 성사되는 현상도 발생했음
- Altman의 마케팅과 주장과 달리 실제 사용 후기는 극명하게 부정 평가로 기울었음
커뮤니티와 미디어 반응
- OpenAI Reddit, Hacker News 등 여러 커뮤니티에서 오류, 환각(hallucination) 등 GPT-5의 문제점을 집중적으로 제기함
- 주요 성능 벤치마크에서는 Grok 4 등 경쟁 모델 대비 열세를 보이기도 했음
- 자동 라우팅 등 신규 기능 역시 혼란과 미흡함을 드러냄
- 커뮤니티 기대치가 급격히 높아진 상황에서, GPT-5는 오히려 큰 실망을 남김
- 공개 당일 Polymarket 설문에서 OpenAI AI 리더십 신뢰도가 1시간 사이 75%에서 14%로 급락함
구조적 한계: 체스, 시각 이해, 추론 문제
- 저자와 여러 전문가가 지적해온 기본적 추론 오류와 체스 규칙 준수 실패 문제가 여전히 존재함
- 이미지 생성 등 분야에서는 부분-전체 관계, 시각적 일관성 등에서 뚜렷한 한계가 드러남
- 기계공학 박사 및 일반인도 실수하지 않을 수준의 문제에서 GPT-5가 오류를 범함
- 요약 및 독해 등 기본 과제에서도 다수의 실수 사례가 보고됨
- GPT-5는 괜찮은 점진적 개선 모델이지만, 작년과 비교해 눈에 띄는 혁신은 드묾
오픈AI의 현재 상황과 전망
- GPT-5는 전작들에 비해 점진적 개선 수준에 머물렀고, 치명적인 단점이 반복됨
- 시장과 업계에서 OpenAI의 기술 리더십에 대한 신뢰가 하락 중임
- 여러 주요 인력이 이탈해 경쟁사를 설립하거나 이직하였고, Anthropic, Google, Elon Musk 등이 빠르게 추격 중임
- 가격 인하 압박, 수익성 문제, Microsoft와의 관계 악화 등 구조적 리스크가 커짐
- LLM 기반의 AGI 실현 가능성에 대한 회의론과 CEO Sam Altman에 대한 신뢰 저하 심화됨
LLM 근본적 한계: 일반화와 분포 이동 문제
- Arizona State University에서 나온 최신 논문에서 Chain of Thought 추론조차 훈련 분포를 벗어나면 무너지는 현상이 확인됨
- Apple 등 타사에서 이미 지적한 분포 이동(distribution shift)에 취약한 구조가 최신 모델에서도 동일하게 발견됨
- 이는 LLM이 지속적으로 정성적 한계에 부딪히는 근본 원인으로, 대규모 파라미터만으로는 극복 불가임이 드러남
- 수십억 달러가 투입된 스케일링 전략이 본질적 문제 해결엔 실패함을 보여줌
- 새로운 패러다임 모색이 필요하다는 인식이 확산됨
AI 업계 전반과 ‘스케일링’의 한계
- AGI, 운전 자동화, 허황된 타임라인 등 과장된 마케팅이 만연함
- 성능을 왜곡한 벤치마크, 블랙박스식 평가, 투명성 부족이 심각함
- 많은 사람들이 ‘AGI’ 용어가 투자자와 대중을 현혹하는 수단임을 인식하기 시작함
- AI에 대한 낙관적 기대와 채찍질이 동시에 증가함
- 순수 스케일링 접근법이 막다른 벽에 부딪힌 것이 현실임
대안과 결론
- GPT-5는 더 저렴해졌을 수 있으나, 체스, 추론, 시각 및 수리 능력 등 질적 한계는 여전함
- Grok, Claude, Gemini 등 경쟁 모델들 역시 유사한 문제를 반복함
- 분포 이동(distribution shift) 문제는 여전히 미해결로 남아 있음
- 이제는 신경-기호(neurosymbolic) AI 및 세계모델 기반 방식 등 새로운 접근이 필요하다는 주장 제기됨
- 순수 스케일링이 아닌 복합적 알고리듬 혁신이 AGI 실현의 필수 요소임을 재확인함
후속 이슈 예고 및 PS
- 이번 주 발견된 LLM 한계 외에도 또 다른 심각한 과학적 이슈가 밝혀질 예정임을 시사함
- 다음 후속 포스트에서 별도의 내용 공유 예고
요약
- GPT-5 출시 전후로 업계와 커뮤니티의 기대와 반응, LLM의 구조적 한계, OpenAI의 미래, AGI 프레임의 현실 등이 폭넓게 논의됨
- 전체 내용은 LLM, GPT-5의 실질적 한계, AI 투자/기대/실망, 혁신 이슈, 연구 동향 등 스타트업과 IT 실무자에게 중요한 시사점 제시함
구글처럼 그냥 조용히 show&prove 했으면 이정도까진 아니었을것 같은데, 그동안 너무 두렵다느니 죽음의별이 어떻다느니 핵폭탄을 만들어버린것 같다느니 하입이란 하입을 잔뜩 해놨던 자업자득 아닐까 싶어요
Hacker News 의견
-
나는 여전히 GPT-5가 실질적으로 비용 절감 전략이라고 생각함, GPU가 필요한 제품에서 10억 명 유저를 확보하려는 성장 지향 회사라는 점 때문임
-
GPT-5 Pro에 대해 아무도 얘기하지 않는데, 나는 직접 테스트해 봤고 Grok 4 Heavy, Opus 4.1보다 월등히 뛰어남
-
완전히 최신 기술이며, 진짜 최대 성능대로 모델을 돌린다면 한 사람당 월 수천 달러까지 이를 수 있음
-
그래서 실제로는 제한된 수준으로 제공되고 있음, OpenAI는 이런 시장 세그먼트가 아니라, 성장에 집중해 구글과 맞서려는 전략임
-
Pro 모델 언급이 한 번도 없어서 이 사람 의견은 아예 신뢰하지 않음
-
내 생각에는 GPT-5 Pro가 o3-pro보다 훨씬 낫다는 인상은 아님(혹은 전혀 아닐 수도 있음), 훨씬 느리고 출력 품질은 비슷함
- 여전히 속기도 하고 요점을 놓침
- 다만, 문제 해결에 대해 새로운 접근법 제시에선 약간 더 우수해 보임
- 내 첫 인상은 5-pro가 o3-pro보다 지식은 0-2% 더 많고 창의성이나 독창성은 5-10% 정도 더 높음
- 모델의 "톤"이나 성격은 완전히 똑같음
- 특정 작업(형식 논리, 데이터 분석, 짧은 분석적 과제)에선 진짜 초인적인 수준이고 Grok이나 Gemini 어떤 버전보다 뛰어남
- 하지만 산문 작성, 일반적인 글쓰기 용도로는 Kimi K2, Deepseek R1보다 확실히 떨어짐
- 특히 놀라운 건, 최고의 영어 산문을 쓰는 모델이 중국계들이라는 점임, 단순히 GPT의 ‘AI 스타일’을 안 쓰는 게 아니라 Kimi 수준은 실제 출판된 시인들과 동급임
-
내 네트워크 확인해봤는데 GPT-5 Pro 쓰는 사람 아무도 없음
- 특히 o3와의 비교 피드백이 정말 궁금함!
-
이 의견 동의함, 하지만 더 나은 모델을 대중에 공개하기 위한 의도도 있다고 봄
- o3가 엄청나게 좋았지만, 많은 사람들이 여전히 쓰지 않았음
- ChatGPT 매일 쓰는 친구들한테 o3 썼냐고 물으면 멍한 표정
- 그래서 추론 모델을 대중화시키는 목적도 있다고 생각함, 이건 OpenAI의 비용 올라가는 요인
- 하지만 루팅 계층 때문에 강력 유저 입장(대부분 HN 이용자)에서는 비용 절약 측면도 있음
- 단, 파워유저는 reasoning 모델 강제 사용 방법을 곧 잘 익힘
-
Pro 모델이 API로 쓸 수 없는 걸로 아는데, 맞는지?
- 혹시 Codex CLI 통해 구독 연동해서 쓸 수 있는지 궁금함
-
동의함
- 이 결정의 또 다른 배경엔, 대부분 유저한테는 기존 모델만으로도 충분하다는 점이 있음
- HN 이용자와 달리 일반 유저는 최신 기술에 관심이 크지 않음
-
-
이런 류의 기사가 특히 짜증난다고 느끼는 편임
-
왜 직접 분석해서 본인이 왜 GPT-5가 별로라고 생각하는지 글을 쓰는 대신, 소셜 미디어 반응만 긁어서, 모든 비판을 “충격적” 혹은 “맹공”으로 과장해서 내 의견을 설득하려고 함
-
너무 한쪽으로 치우쳐서 저널리즘도 아니고, 오리지널 분석도 아님
-
왠지 AI 관련 기사들은 근본적으로 호기심이 부족하고, 조롱이나 깎아내림에 더 집중하는 경향이 있는 듯함
- 나는 AI를 좋아하지만, 생각이 다른 사람의 진지한 글이라면 언제든 읽음
- 하지만 이런 식의 글은 종류가 다름, 상대편 비판 외에는 아무 가치가 없음
- HN의 모더레이션이 나쁘지 않다고 생각하는데, 이런 호기심 없는 글들은 메인에서 사라졌으면 함
-
Gary Marcus는 항상 분석이 얕은 편임
- 그의 의견은 Jim Cramer의 주식 해설과 꽤 비슷함
- 진지하게 ‘Reverse Gary Marcus’ 전략에 베팅할 수도 있을 정도임
-
Gary Marcus는 항상, 진짜 항상 AI가 실제로 동작하지 않는다고 주장함—그가 맞은 의견은 거의 우연 수준임
- 원댓글 보기
- 이런 현상이 넓게 퍼진 문제라는 의견에 완전히 동의함
-
GPT-5가 과대광고에 부응했는지, 그리고 어떤 반응을 받고 있는지에 대한 블로그 포스트임
- 이건 완전히 합법적 주제임
- Gary Marcus 블로그니까 당연히 자기 의견으로 편향될 수밖에 없음, BBC 기사와는 다름
-
점점 진짜 의견을 찾기 힘들어진 게 현실 문제라고 생각함
- 온라인에선 대부분 남 의견을 재해석해서 떠드는 수준이고, 쓸데없이 시끄럽고 얕은 콘텐츠가 넘침
-
-
내 경험상 이번 "업그레이드"는 Plus 사용자에겐 큰 다운그레이드임
-
GPT-5는 O3에 비해 답변 품질이 부족함, 충분히 사고하는 회수도 적고 O3처럼 웹 검색도 사용하지 않음
-
직접 ‘thinking' 선택하고 명확하게 지시해도 해결 안 됨
-
지금은 Gemini 써야 비슷한 품질 출력이 나옴
-
그리고 커스텀 GPT들(관련정보)도 고장남, 내 맞춤 문법 검사 GPT가 모델 상관없이 명령을 무시함
-
Deep research 옵션도 이상함, 선택해도 그대로 답하고 지시해도 특별히 안 달라짐
-
Projects도 마찬가지로 고장난 듯함
- 지시를 제대로 따르지 않고, 스페인어로 응답하거나 내 질문을 무시함
- 가끔은 마치 자기랑 대화하는 느낌이고, 내가 아무 키나 입력해도 계속 똑같이 원하지 않은 답을 내놓음, 심지어 스페인어로
-
일부러 무료 플랜으로 몰거나, 내년 초부터 광고 넣을 것 같고, 아니면 200달러짜리 요금제로 유도하려는 것 같음
- 앞으로는 광고 없는 20달러 요금제는 없을 거라는 생각임
-
환각(거짓 정보)이 정말 심함
- 많이 실망스러움
-
-
AI 커뮤니티는 Marcus 같은 독립 전문가가 더 필요함
-
산업에 대한 과장이나 내부 기준 변화(예: "내부적으로 AGI 도달" 등)에 휘둘리지 않고 진실성과 투명성을 유지해야 함
-
본인 스타일에 상관없이, Marcus가 scaling law의 한계나 LLM류 AI의 진정한 추론 부족(분포 밖 일반화) 등 여러 문제를 정확하게 지적한 전례 있음
-
업계는 초기에 부정하다가, 시간이 지난 뒤 새로운 무언가(Prompt Chain, RL 기반 LLM 등)를 팔 때 자기 발견이라고ㅋㅋ 주장하기 일쑤였음
-
과장된 흐름에는 비판적 목소리가 반드시 필요함
- LLM 관련 가장 큰 목소리는 경제적으로 이득 보는 쪽임
- 나도 AI에 반대하지 않지만, 모든 경제 현상이 이 기술로 모두 실업될 것처럼 호도하는 분위기는 정말 어이없음(경제가 힘든 진짜 이유는 따로 있음, 대개 각국 리더십 때문임)
- 혁신 속도가 둔화되면 적어도 내가 쓰는 제품들이 억지로 AI 기능 끼워넣기 대신 진짜 기능이나 버그 수정에 다시 집중할 수 있기를 바람
-
강하게 반대함
- 이 에세이는 Reddit 불만글 짜깁기에 가깝고 직접적인 테스트 결과도 없으며, 출시 과정(5억명 동시 론칭)에서의 문제만 다룸
- 이런 비판글은 5 출시에서 진짜 중요한 포인트를 놓치는데, 사실 이게 최초의 ‘AI 풀 프로덕트’ 출시임, 이제 모델 개선에서 실제 서비스 구상 단계로 넘어감
- 중요한 건 더 빨라졌고, 통합됐고, 점진적 혁신(멀티 모달 인터랙션, 이미지 생성 등)을 가능하게 했다는 점임
- 특히 긴 컨텍스트와 장기 목표 유지 능력에서 큰 발전임
- Willison도 본인 코드 작업 주력으로 쓴다고 했고, 나 역시 더 긴/복잡한 코드 과제에선 Claude뿐 아니라 기존 최고 모델(o3-pro, Gemini)보다 확실히 낫다고 느낌
- o3-pro보다 코딩 속도도 훨씬 빠름
- "Reddit 이용자들이 4o에 애착을 느껴서 이 론칭이 싫다 → oAI 망함" 식 분석은 약하고 의미 없는 주장임
-
이런 AI의 한계나 잘못된 인식 대부분을 Marcus와 연결하지 않음
- Marcus 때문이라고 생각하지 않음
-
-
지금 GPT에 진짜 필요한 가장 큰 개선점은, ‘모르면 모른다고 말하는 것’임
-
오늘 Cyberpunk 2077 모드에서 redscript로 NPC를 자동 생성하는 방법을 찾으려 했는데, 정말 어렵게 알아냄
-
ChatGPT 5는 ‘리서치’한다고 해놓고 API를 지어내거나, 몇 번이나 사실이 아님을 지적해도 환각만 반복함
-
30분간 내 시간만 낭비, 그냥 자기가 모른다고 했으면 1분이면 알았을 일임
-
ChatGPT가 뭔가 안다고 착각하지 말아야 함
- 훈련 데이터 기반으로 통계적으로 가장 가능성 높은 답변만 산출함
- 내부 지식 시스템을 참조하지 않고, 단지 언어 패턴만 출력함
- 특정 아이디어를 강조하는 식(프로파간다 등)으로 훈련은 가능해도, 지식을 직접 참조할 순 없음
-
맞음!
- 마치 전체 확신을 가지고 주장하는 동료같아서 별다른 의심 없이 믿게 됨
- 그런데 사실은 다 거짓말일 때가 너무 많음, 정말 짜증나는 상황임
-
사실 아무것도 "알지" 못함
- 모든 결과는 프롬프트에 근거한 환각에 가까움
-
“모르면 모른다고 말하는 것”이 가장 필요하다는 데 동의함
- 프론티어 AI 연구소 내부적으로도 검토와 실험이 있었을 것임
- 이런 현상이 드문 건, 모델 한계가 명확하다는 방증일지도 모름
-
이런 개선 작업이 실제로 진행되고 있음, OpenAI 공식자료에도 언급
- 관련 링크
- GPT‑5(‘thinking’ 옵션)에서 불가능하거나, 정보 부족하거나, 도구가 없는 작업에 대해 더 솔직히 한계와 행동을 드러내려 노력함
- 예컨대 CharXiv 멀티모달 벤치마크에서 이미지가 없는 프롬프트 실험시, o3는 존재하지 않는 이미지에 86.7% 확률로 자신만만한 답을 했지만, GPT‑5는 9%로 줄어듦
- 불가능한 코딩, 멀티모달 자산 결여 상황 등에서도 GPT‑5 reasoning이 o3 대비 훨씬 덜 오답임
- 실제 ChatGPT 트래픽 기반 긴 대화셋에서, deception 비율을 4.8%→2.1%로 줄였음
- 아직 더 개선이 필요하며 연구 지속 중임, 시스템 카드 참고
-
-
그의 “꼭 맞아떨어지려는 집착”이 올바른 사실 자체를 흐린다고 느낌
-
하이브리드 symbolic/transformer 시스템에 대한 논의가 흥미로움
-
링크된 포스트에선 수학은 파이썬에게 위임해서 Grok 4가 수학에서 성공할 수 있었던 예시를 보여줌
-
개인적으로 symbolic 우선 시스템, 즉 진짜 ‘하드’ 수학은 심볼릭 방식으로, 추론이 필요한 영역만 monad로 다루는 접근을 더 보고 싶음
-
Aloe의 뉴로심볼릭 시스템이 OpenAI의 deep research GAIA 벤치마크 점수를 20점 차이로 앞섬
- Gary가 말수 많고 과장도 있지만, LLM 한계에 대해서는 확실히 아는 편임 (aloe.inc)
-
-
GPT-5에서 독특한 문제가 생겼음, GPT-4에서는 없던 현상임
-
대화 스레드에서 맥락이 갑자기 끊기거나, 다음 답변에 대해 제대로 파악을 못함
-
뭔가 컨텍스트 청소 프로세스가 개입한 듯, 지금까지 대화 요점을 정리하지 않고 넘어가는 느낌임
-
그렇다면 실제 사용 가능한 컨텍스트가 매우 작아진 걸 수도 있음, 이 현상이 자주 발생함
-
‘최근 대화 내용을 검토해 달라’고 요청하면 조금 나아짐
-
내 경우 답변이 훨씬 더 짧아진 것 같음
-
-
“사람들은 기적을 기대하게 되었지만, GPT-5는 그냥 최신 incremental 발전에 불과함”
- 이 부분이 이 기사에서 쓸 가치가 있던 유일한 내용임
- 사람들은 점진적 발전을 기대하는 게 맞음
- 제공자들은 기적을 약속하지 말아야 함
- 기대치 관리가 중요함
- 점진적 발전도 확실한 발전임
- 단 “AGI는 GPT 시리즈 뒷단에서 계속 나올 거다”라는 식엔 동의 안 함
-
이제 훈련 데이터는 남아있지 않음
-
AI의 모든 개선은 여기서부턴 구조 변형에 달렸음
-
모든 최신 모델들은 새로운 정보에 대해 로컬 최대점을 찍음
-
선행 연구들을 보면, 의도적으로 심은 실제 데이터와 주로 합성 데이터를 결합해서 frontier LLM 훈련하는 게 효과적임이 결론남
-
이 말을 2년 전에 여기서 한 번 했었음
- 고품질 컨텐츠로 약탈할 만한 ‘세컨드 인터넷’도 없음
- 기존 정보도 점점 강하게 잠기기 시작함
-
정말 GPT-5가 이미 전 세계의 비디오 데이터를 전부 학습했다는 얘기인가?
-
신규 훈련 데이터는 매일 새로 만들어지지 않나?
- YouTube, Facebook, TikTok 등
- 인간은 콘텐츠 생성 머신임
-
-
OpenAI가 최고의 모델을 만든다 해도, ‘GPT-5’라는 이름에 이미 커뮤니티와 OpenAI가 하이프를 얹어 실패가 예정된 셈임
-
오히려 OpenAI가 밈과 과대광고를 거부하고 점진적 개선을 택했어야 하지만, 그럼 투자자/스토리/AI 생태계 유지에 불리했을 것
-
우리는 이미 ‘정점’에 다다름
-
sam altman이 직접 그런 기대를 만들고 부추기는 역할 했다는 것도 사실임
-
진짜 AGI가 도래하면, 사람들이 어떻게 “기대에 못 미쳤다”는 논리를 펼치게 될지 궁금함
-