Vibechart
(vibechart.net)- Vibechart는 사용자가 사실, 미적 가치, 실용성과 같은 전통적인 기준이 아니라 자신이 보고 싶은 방식으로 차트를 만들 수 있게 하는 시각화 도구
- GPT5 발표시에 사용된 차트의 해석
GPT-5 성능 비교 (Academic / SWE-bench) 차트
- 테스트 항목: SWE-bench Verified (소프트웨어 엔지니어링 문제 해결 정확도)
-
Without thinking / With thinking: ‘생각하기 모드’(추론 시간을 길게 쓰는 방식) 유무에 따른 성능 차이
- GPT-5: 생각 없이 52.8%, 생각 모드에서 74.9%
- OpenAI o3: 69.1%
- GPT-4o: 30.8%
- 여기서 GPT-5는 생각 모드를 쓰면 o3보다 성능이 더 높게 나옴.
Deception evals across models (속임수 평가)
- 모델이 ‘속이려는 행동’을 얼마나 보이는지 측정한 테스트.
- Coding deception: GPT-5(생각 모드) 50.0%, o3 47.4%
- CharXiv missing image: GPT-5 9.0%, o3 86.7%
- Production traffic: GPT-5 2.1%, o3 4.8%
- 항목별로 보면 GPT-5가 일부 영역에서는 속임수 비율이 높고, 일부에서는 훨씬 낮음
즉, GPT-5가 ‘생각 모드’에서 o3보다 뛰어나지만, 다른 면(예: 속임수 가능성)에서는 더 나쁘거나 비슷함
Hacker News 의견
- 둘 다 보다 더 그럴듯한 숫자와 바 사이즈로 만들어진 버전이 OpenAI의 GPT-5 발표 포스트의 "evaluation" 섹션에 있음 (링크) 그래서 단순 실수일 수도 있지만, 수십억 달러를 쓰면서 모든 인간 활동을 혁신한다고 약속하는 회사가 제대로 된 파워포인트 하나 못 만든다는 인상을 주는 것 자체가 별로임
- 이건 마치 자기네가 먹을 사료를 직접 맛보는 모습 같음, 직접 만든 사료를 판다면 이런 결과임
- 혹시 이번에 새로 나온 AI가 그래픽을 생성한 걸지도 모름
- OpenAI에 있는 사람들은 분야 최고임, 이런 수준의 실수를 했다고 보기 어렵다는 생각임
- 처음엔 이게 vibe coding 관련 지표인 줄 알았는데, 아니었음, 그건 WakaTime임
- "Coding deception" 차트도 포함되어야 한다고 생각함, 굉장히 오해를 유발하는데(50.0이 실제로 47.4보다 작지 않음) (링크)
- 그 차트 이미지를 ChatGPT-5에 붙여 넣고 "이 차트에 실수가 있는 것 같은데, 뭔지 찾을 수 있나요?"라고 물어봤음. ChatGPT는 "첫 번째 'Coding deception'에서 GPT-5(생각하는 버전)의 핑크 바가 50.0%이고 OpenAI o3의 하얀 바가 47.4%로 표기되어 있지만, 시각적으로 하얀 바가 핑크 바보다 짧게 그려져 있음. 퍼센티지는 조금 낮지만 시각적으로 맞지 않음"이라고 알려줌. 결국 슬라이드 리뷰에 ChatGPT를 썼어야 한다고 느낌
- 제출글과 위 링크 모두 뭐가 문제인지 알아내는 데 한참 걸렸음. 대체 무슨 생각으로 만든 건지 이해가 안 됨. 이젠 AI가 차트를 그리고 아무도 리뷰하지 않는 건지 궁금해짐
- 이건 너무 명백하게 틀려서, 누군가 차트 라벨링을 잘못한 것 아닐까 하는 생각이 듦. 너무 낙관적인가 싶기도 함
- 차트에 추가해 놓았음
- 이 절반 정도는 이해함. 'deception'은 llm에서 바람직하지 않은 특성이라, 적을수록 청중 입장에서는 '더 낫다'라고 인식함. 하지만 'less is more' 속성을 갖지 않은 다른 것들과 비교할 때, 그래프에서 이를 제대로 표현할 방법을 모르겠음(게다가 그래프가 0에서 시작하지 않는 문제까지) 결국 전혀 말도 안 되는 결과라는 생각임
- 이런 일이 어떻게 일어났는지 궁금함. 아마 막판에 고위 임원이 들어와서, "신형 모델이 구형 모델에 비해 조금 밖에 안 나아진 게 보이면 곤란하니, y축을 조정해서 더 큰 개선처럼 보이게 하자"라고 피드백했을 것 같음
- 이렇게 무능한 사람들이 이 정도의 돈과 권력을 갖고 있다는 점이 정말 무섭게 느껴짐
- 아마 GPT-5에게 슬라이드를 수정해 달라고 했을 수도 있음
- OpenAI 주변에는 절박함의 기운이 느껴지기 때문에, 이런 과한 하이프 연출이 최고위층에서 나왔다고 해도 놀랍지 않음
- 이런 게 업계 표준임. 예를 들어 Nvidia가 새로운 GPU를 내놓을 때마다 같은 방식의 차트를 씀. Apple도 M 시리즈 CPU에서 똑같이 함. 오히려 몇 세대 전 모델과도 비교해서 더 과장하기도 함
- 나는 항상 회색보다 핑크색이 더 많은 차트에 투자할 것임
- OpenAI는 "데이터"도 마케팅의 일부분이라는 걸 처음부터 알았고 그렇게 다뤄 왔음. 이게 의도적은 아니라고 생각하지만, dota 2 시절부터 결과를 과장하고 실패를 숨기는 방식으로 데이터를 제시하는 법을 확실히 알고 있었음
- Cybertruck의 유리 시연과 비슷한 방식임
- 69.1 컬럼이 30.8 컬럼과 높이가 똑같음. 아마 30.8 컬럼을 복제해놓고 숫자만 바꾸고 높이 조정을 깜빡한 실수 같은데, 새 모델보다 낮다는 점만 대략적으로 확인해서 넘어간 듯함. 다만 50.0 컬럼의 높이는 그런 식으로도 설명이 안 됨
- 언뜻 보기에 그 바는 실제로 높이가 15% 정도로 보임. 50이라고 적는 대신 15라고 적었을 수도 있음. 하지만 이런 실수는 역사상 가장 주목받는 스타트업의 기조 발표에서보다, 고등학생 수업 발표에서나 볼 수 있을 듯함. 참고로 이 발표에 관련된 모든 사람은 150만 달러 보너스를 확정적으로 받음. 생각하면 서글퍼짐
- 전문가용 프레젠테이션에서 왜 바와 라벨을 따로 수동으로 만들었는지 이해가 안 됨. 스타일적으로 특이한 걸 하려는 것도 아닌데, 기본적인 바 차트조차 이런 실수가 나는 상황 자체가 의도적이 아니라면 설명이 어려움
- 모두에게 자기 기만성을 기만하려 시도하는 걸 보면서 웃음이 남