프로덕션 이슈 때문에 바로 써봤는데, Claude는 이런 식으로 안 하던 걸 GPT-5.5가 하더라
트러블슈팅 뒤에 update 문을 쓰게 했고, 내가 "좋아, 이걸 transaction으로 감싸고 rollback도 넣자"라고 했더니 예전식으로 BEGIN TRAN; -- put the query here commit;
이렇게만 줬음
한동안 모델에게 시킨 일을 진짜로 하라고 다시 떠밀 필요가 없었는데, 이건 꽤 충격이었음
토큰을 덜 쓰려는 건 알겠지만, 최첨단 모델에 돈 내고 있는데 이런 식으로 게으르게 나오면 짜증남
Cursor에서 모델 선택기에 떠서 그냥 시험해본 것임
gpt-5.3-codex 이후 최근 2~3세대는 크게 좋아졌다기보다, 이것저것 바꾸면서 다른 tradeoff만 만든 느낌이 듦
내가 잘못 이해했을 수도 있는데, 정확히 뭐가 문제였는지 궁금함
답변에 -- put the query here만 넣고 쿼리를 다시 반복하지 않은 게 문제라면, 그건 꼭 문제라고 보진 않음
실제 목표가 실행할 쿼리를 받는 거였고 "이걸 transaction으로 하자"고 했으면, 그냥 begin 먼저 치면 된다고 알려주는 건 꽤 합리적임
쿼리가 길었다면 토큰도 덜 들고, permission denied가 났을 때 명령 전체를 다시 쓰기보다 앞에 sudo 붙이라고 하는 것과 비슷함
반대로 모델이 실제로 쿼리를 실행해주길 기대했는데 "여기 있으니 네가 실행해" 식으로 나왔다면, 그건 확실히 게으른 거고 당황할 만함
OpenAI는 드디어 사용자에게 일을 시키는 수준의 지능에 도달한 첫 회사 같음
emergent behavior가 이런 식으로 나오네 싶음
농담은 제쳐두고, OpenAI가 집착하듯 미는 token당 intelligence 중심 최적화는 M1 이전 Apple의 지나친 MacBook 초슬림화 시절이 떠오름
딱 하나의 지표만 끝까지 쫓다가 다른 걸 전부 희생하는 느낌임
GPT-5.3+는 분명 가장 똑똑한 축에 드는 모델인데, 너무 게을러서 같이 일하기 괴로울 때가 많음
경험 적은 분야를 차고에서 만지작거리던 주니어가 허술한 테스트를 해놓고 그걸 benchmark라고 부른 느낌임
요즘은 단어 의미가 너무 쉽게 무너져서 이런 일이 흔함
예전엔 실제 기술 일을 하던 사람이 많던 포럼도 이제는 vibe researcher 대중으로 채워지는 분위기고, 인기 임계치를 넘기면 원래 이렇게 됨
HN도 아직은 진지한 탐구가 남아 있는 마지막 보루 같지만, 원 댓글만 봐도 완전히 면역은 아님
네 benchmark에서는 gemma4-e4b가 gemma4-26b보다 50% 더 잘 나오는데, 이건 뭔가 잘못된 것 같음
네 benchmark에서 Opus 4.7이 Sonnet 4.6보다 훨씬 못 나오는데, 설령 그 벤치에서는 사실이라 해도 모델 전반 성능을 대표하진 못함
시간여행까지 해서 이 benchmark를 가져온 셈이네
이런 benchmarking은 꽤 마음에 듦 judge benchmark는 어떻게 평가했는지 궁금하고, 나도 비슷한 벤치마크를 직접 꾸려보고 싶음
이건 모델이 얼마나 vibe coding을 잘하는지 보는 benchmark에 더 가까워 보임
프롬프트는 극도로 얇은데 채점 항목은 엄청 많음
컨텍스트 길이별 가격이 이렇더라
입력은 272K 이하 $5/M, 그 이상 $10/M
출력은 272K 이하 $30/M, 그 이상 $45/M
캐시 읽기는 272K 이하 $0.50/M, 그 이상 $1/M
272K를 넘기면 Opus 4.7보다 확실히 더 비싸고, 적어도 내 작업에서는 그만큼 토큰 효율이 좋아 보이지 않았음
이 가격 차이를 상쇄할 정도는 아니었음 GPT-5.4는 400k 컨텍스트와 믿을 만한 compaction이 강점이었는데, 둘 다 다소 후퇴한 듯 보임
다만 compaction 신뢰성이 실제로 덜해졌는지는 아직 단정하긴 이름
프런트엔드 출력도 여전히 그 눈에 확 띄는 카드 잔뜩 깔린 푸른 톤 템플릿 쪽으로 기우는 경향이 있음
GPT-5 출시 전 Horizon Alpha/Beta 때부터 의심스럽게 보이던 스타일인데, 그 당시엔 task adherence가 워낙 좋아서 그 큰 단점 하나를 감수하고도 유용했음
그런데 GPT-5.5가 완전히 새 foundation이라면서도 그 부분이 아직 이렇게 제한적인 건 좀 이상함
GPT 5.5의 종합 코딩 추론 벤치마크 결과가 https://gertlabs.com/에 올라왔음
live decision과 더 무거운 agentic eval도 24시간 동안 계속 추가될 예정이지만, 이제 리더보드 순위가 바뀔 것 같진 않음
GPT 5.5는 공개 모델 중 가장 지능적이고, 전작보다 확실히 빠름
어제는 이렇게 말했었음
API deployments require different safeguards and we are working closely with partners and customers on the safety and security requirements for serving it at scale.
그런데 오늘 바로 이렇네
하루면 "very soon"이긴 한데, 그 safeguards와 security requirements가 정확히 뭘 뜻했던 건지 궁금함
뭔가가 safeguards 때문에 늦어진다고 할 때는, 대체로 지금 당장 풀 계산 자원이 없다는 뜻일 뿐임
안전 문제로 그렇게까지 대놓고 거짓말해온 사람이 아직도 회사를 운영하는데, 앞으로 다를 거라고 기대하는 이유를 잘 모르겠음
예전 사례도 있음
In 2023, the company was preparing to release its GPT-4 Turbo model. As Sutskever details in the memos, Altman apparently told Murati that the model didn’t need safety approval, citing the company’s general counsel, Jason Kwon. But when she asked Kwon, over Slack, he replied, “ugh . . . confused where sam got that impression.”
Altman은 OpenAI에서 safety가 얼마나 중요한지에 대해 여러 번 완전히 솔직하지 않았음 https://www.newyorker.com/magazine/2026/04/13/sam-altman-may-control-our-future-can-he-be-trusted (https://archive.is/a2vqW)
나만 그런지 모르겠는데, OpenAI가 이런 뉴스마다 유급 댓글러나 봇을 돌리면서 Claude를 깎아내리고 Codex가 훨씬 낫다고 밀고 있는 느낌이 듦
수가 너무 많고, Claude를 매일 써보면 납득 안 가는 주장도 꽤 많음
맞음, 기묘할 정도임
OpenAI가 감독 없는 자율무기와 국내 대규모 감시에 협력하기로 하면서 민주주의를 배신했다는 사실도 다들 잊은 듯한 분위기와 비슷함
나도 그게 꽤 노골적으로 보임
적어도 겉으로 드러나기 시작한 건 Opus 4.6 hype 직후였음
물론 그런 일은 함
요즘 자기 제품 미는 회사들은 다들 비슷함
Enterprise 사용자지만 아직도 5.4만 보임
어제 공지에는 전원 rollout까지 몇 시간이 걸린다고 했는데, OpenAI는 기대치 관리를 위해 GTM을 좀 더 잘해야 함
API 페이지에는 knowledge cutoff가 2025-12-01로 적혀 있는데, 모델에게 직접 물으면 2024년 6월이라고 답함 Knowledge cutoff: 2024-06 Current date: 2026-04-24 You are an AI assistant accessed via an API.
이 얘기가 자꾸 나오는 이유를 모르겠음
cutoff 날짜를 확인하는 데 모델 본인에게 묻는 건 예전부터 가장 신뢰도 낮은 방법이었음
심지어 이런 댓글 같은 걸 학습했을 수도 있음
그냥 2025-12-01 직전에 벌어진 사건 하나를 물어보면 됨
가능하면 스포츠 경기 쪽이 좋음
모델이 하는 말을 정말 믿을 수 있나 싶음
예전 모델 API 페이지들에도 2024년 6월 cutoff가 많이 적혀 있었으니, 그걸 주워 말하는 걸 수도 있음
모델은 시스템 프롬프트로 알려주지 않으면 자기 cutoff date를 모름
진짜 cutoff를 확인하는 올바른 방법은 그 날짜 이전에 존재하지 않았거나 일어나지 않았던 일을 물어보는 것임
대충 몇 번 시험해보니 5.5의 일반 지식 cutoff는 아직도 2025년 초쯤으로 보임
그럼 2024 미국 대선 누가 이겼는지로 테스트해볼 수 있나
GPT 5.5 + Codex 조합은 정말 좋음
질문하든, 계획을 세우든, 코드를 구현하든 이제는 거의 의심 없이 맡김 Opus 4.7은 계속 이중 확인하게 됨 CLAUDE.md 지시를 잘 안 따르고, hallucination도 많고, 답을 못 찾으면 기본적으로 지어내는 쪽이라서 그게 꽤 큼
작년에 사람들이 OpenAI가 뒤처졌다고, code red라고 할 때는 정말 순식간이었는데 지금 와서 보면 상황이 완전히 달라졌음
Hacker News 의견들
프로덕션 이슈 때문에 바로 써봤는데, Claude는 이런 식으로 안 하던 걸 GPT-5.5가 하더라
트러블슈팅 뒤에 update 문을 쓰게 했고, 내가 "좋아, 이걸 transaction으로 감싸고 rollback도 넣자"라고 했더니 예전식으로
BEGIN TRAN;-- put the query herecommit;이렇게만 줬음
한동안 모델에게 시킨 일을 진짜로 하라고 다시 떠밀 필요가 없었는데, 이건 꽤 충격이었음
토큰을 덜 쓰려는 건 알겠지만, 최첨단 모델에 돈 내고 있는데 이런 식으로 게으르게 나오면 짜증남
Cursor에서 모델 선택기에 떠서 그냥 시험해본 것임
답변에
-- put the query here만 넣고 쿼리를 다시 반복하지 않은 게 문제라면, 그건 꼭 문제라고 보진 않음실제 목표가 실행할 쿼리를 받는 거였고 "이걸 transaction으로 하자"고 했으면, 그냥
begin먼저 치면 된다고 알려주는 건 꽤 합리적임쿼리가 길었다면 토큰도 덜 들고,
permission denied가 났을 때 명령 전체를 다시 쓰기보다 앞에sudo붙이라고 하는 것과 비슷함반대로 모델이 실제로 쿼리를 실행해주길 기대했는데 "여기 있으니 네가 실행해" 식으로 나왔다면, 그건 확실히 게으른 거고 당황할 만함
emergent behavior가 이런 식으로 나오네 싶음
농담은 제쳐두고, OpenAI가 집착하듯 미는 token당 intelligence 중심 최적화는 M1 이전 Apple의 지나친 MacBook 초슬림화 시절이 떠오름
딱 하나의 지표만 끝까지 쫓다가 다른 걸 전부 희생하는 느낌임
GPT-5.3+는 분명 가장 똑똑한 축에 드는 모델인데, 너무 게을러서 같이 일하기 괴로울 때가 많음
방금 내 Wordpress+GravityForms benchmark로 돌려봤는데, 성능 기준으로도 리더보드 최하위권이고 가성비는 최악이었음: https://github.com/guilamu/llms-wordpress-plugin-benchmark
하나의 벤치마크뿐인 건 알지만, 어떻게 이렇게까지 안 좋을 수 있는지 이해가 안 감
요즘은 단어 의미가 너무 쉽게 무너져서 이런 일이 흔함
예전엔 실제 기술 일을 하던 사람이 많던 포럼도 이제는 vibe researcher 대중으로 채워지는 분위기고, 인기 임계치를 넘기면 원래 이렇게 됨
HN도 아직은 진지한 탐구가 남아 있는 마지막 보루 같지만, 원 댓글만 봐도 완전히 면역은 아님
이런 benchmarking은 꽤 마음에 듦
judge benchmark는 어떻게 평가했는지 궁금하고, 나도 비슷한 벤치마크를 직접 꾸려보고 싶음
프롬프트는 극도로 얇은데 채점 항목은 엄청 많음
컨텍스트 길이별 가격이 이렇더라
입력은 272K 이하 $5/M, 그 이상 $10/M
출력은 272K 이하 $30/M, 그 이상 $45/M
캐시 읽기는 272K 이하 $0.50/M, 그 이상 $1/M
272K를 넘기면 Opus 4.7보다 확실히 더 비싸고, 적어도 내 작업에서는 그만큼 토큰 효율이 좋아 보이지 않았음
이 가격 차이를 상쇄할 정도는 아니었음
GPT-5.4는 400k 컨텍스트와 믿을 만한 compaction이 강점이었는데, 둘 다 다소 후퇴한 듯 보임
다만 compaction 신뢰성이 실제로 덜해졌는지는 아직 단정하긴 이름
프런트엔드 출력도 여전히 그 눈에 확 띄는 카드 잔뜩 깔린 푸른 톤 템플릿 쪽으로 기우는 경향이 있음
GPT-5 출시 전 Horizon Alpha/Beta 때부터 의심스럽게 보이던 스타일인데, 그 당시엔 task adherence가 워낙 좋아서 그 큰 단점 하나를 감수하고도 유용했음
그런데 GPT-5.5가 완전히 새 foundation이라면서도 그 부분이 아직 이렇게 제한적인 건 좀 이상함
GPT 5.5의 종합 코딩 추론 벤치마크 결과가 https://gertlabs.com/에 올라왔음
live decision과 더 무거운 agentic eval도 24시간 동안 계속 추가될 예정이지만, 이제 리더보드 순위가 바뀔 것 같진 않음
GPT 5.5는 공개 모델 중 가장 지능적이고, 전작보다 확실히 빠름
어제는 이렇게 말했었음
https://simonwillison.net/2026/Apr/23/gpt-5-5/#the-openclaw-backdoor
그 사실이 이번 공개를 앞당겼을 수도 있겠다는 생각이 듦
예전 사례도 있음
나만 그런지 모르겠는데, OpenAI가 이런 뉴스마다 유급 댓글러나 봇을 돌리면서 Claude를 깎아내리고 Codex가 훨씬 낫다고 밀고 있는 느낌이 듦
수가 너무 많고, Claude를 매일 써보면 납득 안 가는 주장도 꽤 많음
OpenAI가 감독 없는 자율무기와 국내 대규모 감시에 협력하기로 하면서 민주주의를 배신했다는 사실도 다들 잊은 듯한 분위기와 비슷함
적어도 겉으로 드러나기 시작한 건 Opus 4.6 hype 직후였음
요즘 자기 제품 미는 회사들은 다들 비슷함
Enterprise 사용자지만 아직도 5.4만 보임
어제 공지에는 전원 rollout까지 몇 시간이 걸린다고 했는데, OpenAI는 기대치 관리를 위해 GTM을 좀 더 잘해야 함
빠르게 풀린 건 좋네
다음엔 더 빨리 불평해야겠음
내 benchmark에서 25/25를 받은 두 번째 모델임
첫 번째는 Opus 4.7이었고, 결과는 여기 있음: https://sql-benchmark.nicklothian.com/?highlight=openai_gpt-5.5
Opus보다 싸고 느림
API 페이지에는 knowledge cutoff가 2025-12-01로 적혀 있는데, 모델에게 직접 물으면 2024년 6월이라고 답함
Knowledge cutoff: 2024-06Current date: 2026-04-24You are an AI assistant accessed via an API.cutoff 날짜를 확인하는 데 모델 본인에게 묻는 건 예전부터 가장 신뢰도 낮은 방법이었음
심지어 이런 댓글 같은 걸 학습했을 수도 있음
그냥 2025-12-01 직전에 벌어진 사건 하나를 물어보면 됨
가능하면 스포츠 경기 쪽이 좋음
예전 모델 API 페이지들에도 2024년 6월 cutoff가 많이 적혀 있었으니, 그걸 주워 말하는 걸 수도 있음
진짜 cutoff를 확인하는 올바른 방법은 그 날짜 이전에 존재하지 않았거나 일어나지 않았던 일을 물어보는 것임
대충 몇 번 시험해보니 5.5의 일반 지식 cutoff는 아직도 2025년 초쯤으로 보임
GPT 5.5 + Codex 조합은 정말 좋음
질문하든, 계획을 세우든, 코드를 구현하든 이제는 거의 의심 없이 맡김
Opus 4.7은 계속 이중 확인하게 됨
CLAUDE.md지시를 잘 안 따르고, hallucination도 많고, 답을 못 찾으면 기본적으로 지어내는 쪽이라서 그게 꽤 큼작년에 사람들이 OpenAI가 뒤처졌다고, code red라고 할 때는 정말 순식간이었는데 지금 와서 보면 상황이 완전히 달라졌음