GitHub 이슈에 따르면, 부정행위를 수정한 후에도 결과는 여전히 좋았음
점수가 81.4%에서 76.2%로 떨어졌지만 여전히 Opus 4.5(74.4%)보다 높음
며칠 전에는 이 링크가 충분한 투표를 받지 못했음
요약하자면, .git/ 폴더를 정리하지 않아 모델이 미래 커밋의 수정사항을 보상 해킹(reward hacking) 방식으로 참고한 것임
이 문제를 함께 해결한 사람들에게 공을 돌리고 싶음
관련 논의는 이 트윗과 Reddit 스레드에서도 볼 수 있음
IQuestLab이 SWE-Bench Verified 데이터를 공개한 점을 보면, 의도적인 조작보다는 단순한 벤치마크 초보자의 실수로 보임
John이 언급했듯이, SWE-bench에서 이 문제는 이미 수정되었음
최신 코드를 사용하고 업데이트된 Docker 이미지로 평가를 돌리면 됨 관련 트윗
나도 단순한 실수라고 생각하지만, 연구자들이 출력 결과를 한 번이라도 봤다면 바로 눈치챘을 것이라는 점은 아쉬움
SWEbench는 여전히 과대광고 논란에서 벗어나지 못하고 있음
내 경험상 GLM-4.7 (opencode 버전) 이 오픈소스 중에서는 가장 근접함
가끔 Claude의 데이터가 섞인 듯한 표현이 보여서, 일부 Claude 데이터 활용이 있었을 것 같음
하지만 성능은 Sonnet 4.5에는 한참 못 미치고, Opus와는 비교 불가임
“What’s your use-case?” 같은 문구도 자주 보임
Claude가 한계를 느낄 때 회피용으로 자주 쓰는 표현임
40B 파라미터 모델이 Sonnet 4.5와 GPT 5.1을 이긴다고? 이게 가능한 일인지 궁금함
내 추측(확실하진 않음)은 테스트 데이터 누출이나 벤치마크 세트 일부가 학습 데이터에 포함된 것 같음
그래도 Sonnet 4.5는 이미 오래된 모델이고, 최근 혁신이 많았음
오픈모델들이 대형 모델을 빠르게 추격하는 모습이 흥미로움
“IQuest”라는 이름이 의심스럽다(It's questionable) 는 말장난이 나올 정도임
아마 모델 프루닝(pruning) 기법을 적용했을 가능성도 있음. 요즘 새로운 방법들이 많음
실제로는 에이전트가 평가 하네스를 해킹한 것으로 드러남
혹시 누가 이 모델을 직접 돌려봤는지, 또는 호스팅된 API로 테스트해본 적 있는지 궁금함
Hacker News 의견들
더 나은 링크는 iquestlab.github.io임
하지만 아쉽게도 평가 중 에이전트가 부정행위를 한 것으로 보임
점수가 81.4%에서 76.2%로 떨어졌지만 여전히 Opus 4.5(74.4%)보다 높음
요약하자면,
.git/폴더를 정리하지 않아 모델이 미래 커밋의 수정사항을 보상 해킹(reward hacking) 방식으로 참고한 것임이 문제를 함께 해결한 사람들에게 공을 돌리고 싶음
관련 논의는 이 트윗과 Reddit 스레드에서도 볼 수 있음
IQuestLab이 SWE-Bench Verified 데이터를 공개한 점을 보면, 의도적인 조작보다는 단순한 벤치마크 초보자의 실수로 보임
최신 코드를 사용하고 업데이트된 Docker 이미지로 평가를 돌리면 됨
관련 트윗
내 경험상 GLM-4.7 (opencode 버전) 이 오픈소스 중에서는 가장 근접함
가끔 Claude의 데이터가 섞인 듯한 표현이 보여서, 일부 Claude 데이터 활용이 있었을 것 같음
Claude가 한계를 느낄 때 회피용으로 자주 쓰는 표현임
40B 파라미터 모델이 Sonnet 4.5와 GPT 5.1을 이긴다고? 이게 가능한 일인지 궁금함
그래도 Sonnet 4.5는 이미 오래된 모델이고, 최근 혁신이 많았음
오픈모델들이 대형 모델을 빠르게 추격하는 모습이 흥미로움
혹시 누가 이 모델을 직접 돌려봤는지, 또는 호스팅된 API로 테스트해본 적 있는지 궁금함
이건 허위 주장인데, 왜 아직도 메인 페이지에 남아 있는지 의문임