사용해봤는데 gpt-5.4 자체가 성능은 너무 만족스럽지만 가끔 직전 메세지가 아니라 이전 메세지에 대한 대답을 생성하는 등 아주 안정적이진 않고 long context 쓰면 needle in the haystack task에서 성능이 50% 이하로 떨어진다는 리포트도 있어서 굳이 추천하진 않고싶습니다. 근데 needle in the haystack task 자체가 long-context 성능 측정에 적당한 벤치마큰지는 모르겠습니다. 여튼 Codex는 compaction 도 오래 안 걸리고 compact 이후에 맥락도 잘 안 까먹기도 해서 그냥 써도 큰 불편 없더라구요.
사용해봤는데 gpt-5.4 자체가 성능은 너무 만족스럽지만 가끔 직전 메세지가 아니라 이전 메세지에 대한 대답을 생성하는 등 아주 안정적이진 않고 long context 쓰면 needle in the haystack task에서 성능이 50% 이하로 떨어진다는 리포트도 있어서 굳이 추천하진 않고싶습니다. 근데 needle in the haystack task 자체가 long-context 성능 측정에 적당한 벤치마큰지는 모르겠습니다. 여튼 Codex는 compaction 도 오래 안 걸리고 compact 이후에 맥락도 잘 안 까먹기도 해서 그냥 써도 큰 불편 없더라구요.