이 비교가 좋고 5.4와의 비교도 보고 싶음
지금까지의 체감으로는 5.5가 추가 비용만큼 가치 있지 않음. 5.4-high가 5.5의 대부분 추론 단계보다 더 잘하고, 비용은 절반이며, 실제 소요 시간은 훨씬 짧음. 5.5-medium은 작업을 끝까지 완료하지 못했고, 5.5-high는 과설계로 버그와 회귀를 만들었음
진지한 작업 대부분에는 high가 적당해 보임
그보다 높은 단계에서 얻는 개선은 비용 대비 수확 체감에 가까움
Pro 계정에서 5.5 xHigh Codex Terminal CLI를 주 리드로, Codex Desktop App 5.5 xhigh를 보조 리드로 돌리고 있음
둘 다 위험한 전체 접근 권한을 주고 같은 프로젝트에서 작업함. 각각 평균 6개의 5.5 하위 에이전트를 붙이며, CLI나 앱이 어떤 단계의 하위 에이전트를 쓸지 결정함. 섞여 나오지만 CLI는 대체로 5.5 Medium을 붙임
CLI에는 관리자 권한이 있고 GitHub, Supabase, Vercel, Clerk, Linear, Symphony 같은 것과 push, merge, PR, deploy는 CLI만 처리함. 직접 하는 일은 0이고 P0/P1/P2 이슈도 0임. GitHub, Vercel, Supabase 모두 초록이고, 이슈 없고, 코드와 제품이 깔끔하며, 레퍼런스 이미지 하나만으로 프런트엔드가 놀랍게 나옴
단점은 하루에 주간 한도의 30% 를 태울 수 있다는 것
이 실험을 보고 몇몇 작업에 xhigh를 써봤는데 꽤 효과적이지만 토큰을 미친 듯이 씀
지금은 다시 high로 돌아감
5.5 xhigh에 대한 가장 큰 불만은 물어보지도 않고 그냥 스스로 일을 진행한다는 것임
덕분에 수명 몇 년과 상당한 토큰을 아낀 느낌
주로 high를 쓰는데 똑같이 행동함
agents.md에 어떤 문구를 넣어야 멋대로 가정하지 않게 할지 계속 찾고 있음. 뭔가에 대해 코딩 지시를 주기 전에 더 알아야 해서 질문하면, 답변 대신 코딩부터 해버릴 때가 있음. 끝나고 나서 응답 안에 질문에 대한 답도 넣어주긴 하는데, 내가 한 말에는 주의를 기울였지만 질문이 있으면 아직 코딩하지 말라는 의미라는 걸 이해하지 못한 듯함
같은 PR에 대해 여러 번 실행해봤는지 궁금함
모델의 실행별 변동성이 어느 정도인지 알고 싶음. 위 사례에서 high가 코딩을 더 잘했더라도 실행별 변동성이 크다면 xhigh를 쓰는 편이 더 나을 수도 있음
또 실험으로는 실행 후 작업 결과에 피드백을 주고, 사람이 수정한 내용과 비교해서 AGENTS.md, skills, rules 등을 업데이트하게 한 다음 fresh session에서 high/xhigh로 다시 돌려보면 좋겠음. 몇 번 반복해 개선한 뒤 모든 노력 수준에서 다시 실험하면, AGENTS.md와 skills/rules를 제대로 조이면 전체 출력 품질을 끌어올릴 수 있을 듯함
각 변형을 여러 번 실행해보지는 않았음. 주된 이유는 비용과 토큰 제약 때문임. 지갑이 무한하진 않지만, 후속 연구로는 좋은 아이디어임 AGENTS.md 최적화는 정말 마음에 들고, 실제로 실험을 돌리기 위해 만든 Stet에 이걸 하게 해봤음. Codex를 몇 개 작업에 돌리고 점수와 실패 양상을 본 뒤, AGENTS.md를 수정하게 하고 다시 실행하는 식으로 전부 자율적으로 돌림. AGENTS.md용 자동 연구처럼 동작하며, 데이터 기반 개선안을 AGENTS.md에 반영해 돌아오는 걸 볼 수 있어서 꽤 흥미로움
Reddit 의견들
지금까지의 체감으로는 5.5가 추가 비용만큼 가치 있지 않음. 5.4-high가 5.5의 대부분 추론 단계보다 더 잘하고, 비용은 절반이며, 실제 소요 시간은 훨씬 짧음. 5.5-medium은 작업을 끝까지 완료하지 못했고, 5.5-high는 과설계로 버그와 회귀를 만들었음
요약하면 5.5는 5.4보다 약간 개선됐고 가격도 조금 올랐음. 토큰 효율이 좀 더 좋아 보여서 추가 입력 비용을 어느 정도 상쇄하는 듯함
그보다 높은 단계에서 얻는 개선은 비용 대비 수확 체감에 가까움
둘 다 위험한 전체 접근 권한을 주고 같은 프로젝트에서 작업함. 각각 평균 6개의 5.5 하위 에이전트를 붙이며, CLI나 앱이 어떤 단계의 하위 에이전트를 쓸지 결정함. 섞여 나오지만 CLI는 대체로 5.5 Medium을 붙임
CLI에는 관리자 권한이 있고 GitHub, Supabase, Vercel, Clerk, Linear, Symphony 같은 것과 push, merge, PR, deploy는 CLI만 처리함. 직접 하는 일은 0이고 P0/P1/P2 이슈도 0임. GitHub, Vercel, Supabase 모두 초록이고, 이슈 없고, 코드와 제품이 깔끔하며, 레퍼런스 이미지 하나만으로 프런트엔드가 놀랍게 나옴
단점은 하루에 주간 한도의 30% 를 태울 수 있다는 것
지금은 다시 high로 돌아감
덕분에 수명 몇 년과 상당한 토큰을 아낀 느낌
agents.md에 어떤 문구를 넣어야 멋대로 가정하지 않게 할지 계속 찾고 있음. 뭔가에 대해 코딩 지시를 주기 전에 더 알아야 해서 질문하면, 답변 대신 코딩부터 해버릴 때가 있음. 끝나고 나서 응답 안에 질문에 대한 답도 넣어주긴 하는데, 내가 한 말에는 주의를 기울였지만 질문이 있으면 아직 코딩하지 말라는 의미라는 걸 이해하지 못한 듯함
모델의 실행별 변동성이 어느 정도인지 알고 싶음. 위 사례에서 high가 코딩을 더 잘했더라도 실행별 변동성이 크다면 xhigh를 쓰는 편이 더 나을 수도 있음
또 실험으로는 실행 후 작업 결과에 피드백을 주고, 사람이 수정한 내용과 비교해서 AGENTS.md, skills, rules 등을 업데이트하게 한 다음 fresh session에서 high/xhigh로 다시 돌려보면 좋겠음. 몇 번 반복해 개선한 뒤 모든 노력 수준에서 다시 실험하면, AGENTS.md와 skills/rules를 제대로 조이면 전체 출력 품질을 끌어올릴 수 있을 듯함
AGENTS.md 최적화는 정말 마음에 들고, 실제로 실험을 돌리기 위해 만든 Stet에 이걸 하게 해봤음. Codex를 몇 개 작업에 돌리고 점수와 실패 양상을 본 뒤, AGENTS.md를 수정하게 하고 다시 실행하는 식으로 전부 자율적으로 돌림. AGENTS.md용 자동 연구처럼 동작하며, 데이터 기반 개선안을 AGENTS.md에 반영해 돌아오는 걸 볼 수 있어서 꽤 흥미로움