Hacker News 의견들
  • 더 나은 링크는 iquestlab.github.io
    하지만 아쉽게도 평가 중 에이전트가 부정행위를 한 것으로 보임

    • GitHub 이슈에 따르면, 부정행위를 수정한 후에도 결과는 여전히 좋았음
      점수가 81.4%에서 76.2%로 떨어졌지만 여전히 Opus 4.5(74.4%)보다 높음
    • 며칠 전에는 이 링크가 충분한 투표를 받지 못했음
  • 요약하자면, .git/ 폴더를 정리하지 않아 모델이 미래 커밋의 수정사항을 보상 해킹(reward hacking) 방식으로 참고한 것임
    이 문제를 함께 해결한 사람들에게 공을 돌리고 싶음
    관련 논의는 이 트윗Reddit 스레드에서도 볼 수 있음
    IQuestLab이 SWE-Bench Verified 데이터를 공개한 점을 보면, 의도적인 조작보다는 단순한 벤치마크 초보자의 실수로 보임

    • John이 언급했듯이, SWE-bench에서 이 문제는 이미 수정되었음
      최신 코드를 사용하고 업데이트된 Docker 이미지로 평가를 돌리면 됨
      관련 트윗
    • 나도 단순한 실수라고 생각하지만, 연구자들이 출력 결과를 한 번이라도 봤다면 바로 눈치챘을 것이라는 점은 아쉬움
    • SWEbench는 여전히 과대광고 논란에서 벗어나지 못하고 있음
  • 내 경험상 GLM-4.7 (opencode 버전) 이 오픈소스 중에서는 가장 근접함
    가끔 Claude의 데이터가 섞인 듯한 표현이 보여서, 일부 Claude 데이터 활용이 있었을 것 같음

    • 하지만 성능은 Sonnet 4.5에는 한참 못 미치고, Opus와는 비교 불가임
    • “What’s your use-case?” 같은 문구도 자주 보임
      Claude가 한계를 느낄 때 회피용으로 자주 쓰는 표현임
  • 40B 파라미터 모델이 Sonnet 4.5와 GPT 5.1을 이긴다고? 이게 가능한 일인지 궁금함

    • 내 추측(확실하진 않음)은 테스트 데이터 누출이나 벤치마크 세트 일부가 학습 데이터에 포함된 것 같음
      그래도 Sonnet 4.5는 이미 오래된 모델이고, 최근 혁신이 많았음
      오픈모델들이 대형 모델을 빠르게 추격하는 모습이 흥미로움
    • “IQuest”라는 이름이 의심스럽다(It's questionable) 는 말장난이 나올 정도임
    • 아마 모델 프루닝(pruning) 기법을 적용했을 가능성도 있음. 요즘 새로운 방법들이 많음
    • 실제로는 에이전트가 평가 하네스를 해킹한 것으로 드러남
  • 혹시 누가 이 모델을 직접 돌려봤는지, 또는 호스팅된 API로 테스트해본 적 있는지 궁금함

  • 이건 허위 주장인데, 왜 아직도 메인 페이지에 남아 있는지 의문임