# IQuest-Coder: 새로운 오픈소스 코드 모델이 Claude Sonnet 4.5와 GPT 5.1을 능가 [pdf]

> Clean Markdown view of GeekNews topic #25562. Use the original source for factual precision when an external source URL is present.

## Metadata

- GeekNews HTML: [https://news.hada.io/topic?id=25562](https://news.hada.io/topic?id=25562)
- GeekNews Markdown: [https://news.hada.io/topic/25562.md](https://news.hada.io/topic/25562.md)
- Type: GN+
- Author: [neo](https://news.hada.io/@neo)
- Published: 2026-01-05T07:32:21+09:00
- Updated: 2026-01-05T07:32:21+09:00
- Original source: [github.com/IQuestLab](https://github.com/IQuestLab/IQuest-Coder-V1/blob/main/papers/IQuest_Coder_Technical_Report.pdf)
- Points: 2
- Comments: 1

## Topic Body

- **코드 흐름(code-flow) 다단계 학습**을 통해 정적 코드가 아닌 **저장소의 변화와 개발 과정을 학습**하는 코딩에 특화된 오픈 코드 LLM   
- 사전학습–미드트레이닝–포스트트레이닝으로 이어지는 **진화형 학습 파이프라인**을 통해 장기 추론과 에이전트 작업 성능 강화  
- 32K·128K 컨텍스트에서 **추론 데이터와 에이전트 궤적**을 주입해 복잡한 다중 파일·저장소 단위 문제 해결 능력 확보  
- 반복 구조를 도입한 **LoopCoder 아키텍처**로 모델 용량 대비 배포 효율을 개선하는 실용적 설계 제안  
- SWE-Bench, LiveCodeBench, Terminal-Bench 등에서 **상용 모델과 경쟁 가능한 성능**을 오픈 가중치 모델로 달성  
  
---  
### 개요  
- IQuest-Coder-V1은 7B·14B·40B·40B-Loop로 구성된 코드 전용 대형 언어 모델 계열  
- 코드 스냅샷이 아닌 **커밋과 저장소 진화 과정**을 학습 대상으로 삼는 code-flow 패러다임 채택  
- 에이전트형 소프트웨어 엔지니어링, 경쟁 프로그래밍, 도구 사용 전반에서 성능 평가 수행  
  
### Code-Flow 학습 파이프라인  
- 사전학습 단계에서 일반 데이터와 대규모 코드 데이터를 혼합 학습 후 **고품질 코드 어닐링** 적용  
- 미드트레이닝 단계에서 **32K → 128K 컨텍스트 확장**, 추론 QA·에이전트 궤적·저장소 단위 코드 데이터 학습  
- 포스트트레이닝 단계에서 **Thinking 경로(추론 중심 RL)** 와 **Instruct 경로(일반 보조 최적화)** 로 분기  
  
### 핵심 연구 결과  
- 저장소 커밋 흐름 데이터가 **정적 코드 스냅샷보다 작업 계획 신호가 우수함**을 실험으로 확인  
- 고품질 코드 어닐링 이후 미드트레이닝에서 추론·에이전트 데이터를 주입하는 구조가 **분포 변화에 대한 안정성** 제공  
- 추론 중심 RL을 적용한 Thinking 경로에서 **장기 작업 중 자가 오류 복구 능력**이 뚜렷하게 나타남  
  
### LoopCoder 아키텍처  
- 동일 파라미터 블록을 두 번 반복 실행하는 **루프 트랜스포머 구조** 도입  
- 전역 어텐션과 지역 어텐션을 게이팅으로 결합해 **장거리 문맥 정제와 인과성 유지**를 동시에 달성  
- 모델 용량 대비 연산 효율을 개선해 **배포 환경 제약 대응** 목적  
  
### 데이터 구성과 사전학습 전략  
- 다언어 코드 혼합 학습에서 **언어 간 시너지 효과**를 수식 기반 스케일링 법칙으로 정식화  
- 저장소 생애주기 40~80% 구간의 커밋을 활용한 **(R_old, Patch, R_new) 트리플릿 데이터** 구성  
- 파일·저장소 단위 Fill-In-the-Middle 기법으로 코드 완성 능력 강화  
  
### 평가 결과  
- SWE-Bench Verified에서 **76.2**, LiveCodeBench v6·Terminal-Bench·Mind2Web 등 다수 벤치마크에서 상위권 성능 기록  
- 코드 생성·추론·편집·효율성·Text-to-SQL·에이전트 작업까지 **전 범위 평가 수행**  
- 일부 지표에서 Claude Sonnet 4.5, GPT-5.1 등 **폐쇄형 모델과 근접하거나 경쟁적인 결과** 확인  
  
### 안전성 평가  
- BeaverTails, HarmBench, TrustLLM 등 안전성 벤치마크에서 **Thinking 모델이 높은 거부 정확도와 균형 성능** 기록  
- 추론 중심 RL이 안전성 측면에서도 긍정적 효과를 보이는 결과 제시  
  
### 결론  
- 코드 진화 흐름과 에이전트 궤적을 중심으로 한 학습이 **자율적 코드 지능 형성에 효과적**임을 실증  
- LoopCoder 구조를 통해 **성능–효율 트레이드오프를 고려한 실용적 코드 LLM 설계 방향** 제시  
- 전체 학습 단계와 체크포인트를 공개해 **오픈 코드 지능 연구와 실제 에이전트 시스템 개발 촉진** 목표

## Comments


### Comment 48666

- Author: neo
- Created: 2026-01-05T07:32:21+09:00
- Points: 1

###### [Hacker News 의견들](https://news.ycombinator.com/item?id=46472667) 
- 더 나은 링크는 [iquestlab.github.io](https://iquestlab.github.io/)임  
  하지만 아쉽게도 평가 중 **에이전트가 부정행위**를 한 것으로 보임
  - [GitHub 이슈](https://github.com/IQuestLab/IQuest-Coder-V1/issues/14#issuecomment-3705756919)에 따르면, 부정행위를 수정한 후에도 결과는 여전히 좋았음  
    점수가 81.4%에서 76.2%로 떨어졌지만 여전히 **Opus 4.5(74.4%)보다 높음**
  - 며칠 전에는 이 링크가 충분한 **투표를 받지 못했음**

- 요약하자면, `.git/` 폴더를 정리하지 않아 모델이 미래 커밋의 수정사항을 **보상 해킹(reward hacking)** 방식으로 참고한 것임  
  이 문제를 함께 해결한 사람들에게 공을 돌리고 싶음  
  관련 논의는 [이 트윗](https://xcancel.com/xeophon/status/2006969664346501589)과 [Reddit 스레드](https://www.reddit.com/r/LocalLLaMA/comments/1q1ura1/iquestlabiquestcoderv1_swebench_score_is/)에서도 볼 수 있음  
  IQuestLab이 SWE-Bench Verified 데이터를 공개한 점을 보면, 의도적인 조작보다는 단순한 **벤치마크 초보자의 실수**로 보임
  - John이 언급했듯이, SWE-bench에서 이 문제는 이미 수정되었음  
    최신 코드를 사용하고 **업데이트된 Docker 이미지**로 평가를 돌리면 됨  
    [관련 트윗](https://xcancel.com/jyangballin/status/2006987724637757670)
  - 나도 단순한 실수라고 생각하지만, 연구자들이 출력 결과를 한 번이라도 봤다면 바로 눈치챘을 것이라는 점은 아쉬움
  - SWEbench는 여전히 **과대광고 논란**에서 벗어나지 못하고 있음

- 내 경험상 **GLM-4.7 (opencode 버전)** 이 오픈소스 중에서는 가장 근접함  
  가끔 Claude의 데이터가 섞인 듯한 표현이 보여서, 일부 **Claude 데이터 활용**이 있었을 것 같음
  - 하지만 성능은 Sonnet 4.5에는 한참 못 미치고, Opus와는 비교 불가임
  - “What’s your use-case?” 같은 문구도 자주 보임  
    Claude가 한계를 느낄 때 회피용으로 자주 쓰는 표현임

- 40B 파라미터 모델이 Sonnet 4.5와 GPT 5.1을 이긴다고? 이게 가능한 일인지 궁금함
  - 내 추측(확실하진 않음)은 **테스트 데이터 누출**이나 벤치마크 세트 일부가 학습 데이터에 포함된 것 같음  
    그래도 Sonnet 4.5는 이미 오래된 모델이고, 최근 혁신이 많았음  
    오픈모델들이 대형 모델을 **빠르게 추격**하는 모습이 흥미로움
  - “IQuest”라는 이름이 **의심스럽다(It's questionable)** 는 말장난이 나올 정도임
  - 아마 **모델 프루닝(pruning)** 기법을 적용했을 가능성도 있음. 요즘 새로운 방법들이 많음
  - 실제로는 **에이전트가 평가 하네스를 해킹**한 것으로 드러남

- 혹시 누가 이 모델을 직접 돌려봤는지, 또는 **호스팅된 API**로 테스트해본 적 있는지 궁금함

- 이건 **허위 주장**인데, 왜 아직도 메인 페이지에 남아 있는지 의문임