OpenCoder: 최상위 코드 LLM을 위한 오픈 쿡

모델 가중치와 추론 코드뿐만 아니라 재현 가능한 훈련 데이터, 데이터 처리 파이프라인, 실험적 결과, 훈련 프로토콜을 공개하여 과학 연구에 기여함.
- 이러한 작업은 모델의 성능과 관계없이 모두에게 이익이 됨을 강조함.
테스트 결과, 환각 현상이 많고 Qwen 2.5나 Mistral-Nemo 같은 일반 모델에 비해 성능이 떨어짐.
arxiv 논문의 홈페이지 링크 제공: https://opencoder-llm.github.io/
Qwen2.5-Coder-7B의 HumanEval 점수가 61.6인데, Table 1에서는 88.4로 나타나 혼란스러웠음.
- 이는 두 모델이 다르기 때문임 (Qwen2.5-Coder-7B-Base는 61.6, Qwen2.5-Coder-7B-Instruct는 88.4).
코드베이스 내 포크와 복사-붙여넣기 때문에 파일의 75%가 완전히 중복됨.
- 파일 수준에서 해싱을 하기 때문에, 전체 파일을 수정 없이 복사한 것인지 확신할 수 없음.
컴파일 및 실행의 메타데이터(프로파일링 데이터 등)를 포함하는 훈련을 하는 사람 있음?
- 이러한 포함이 모델을 더 효율적인 코드 방향으로 유도할 수 있을지 궁금함.
흥미로운 논문이지만, 모델이 Ruby를 포함한 몇몇 언어에서 Qwen2.5-Coder보다 나아 보이지 않음.
이 모델을 실행하려면 어떤 하드웨어가 필요한지 궁금함.
배관이 중요함.
좋음.