OpenCoder: 최상위 코드 LLM을 위한 오픈 쿡북

(opencoder-llm.github.io)

OpenCoder는 오픈 소스 코드 대형 언어 모델(LLM)로, 1.5B 및 8B 기본 및 채팅 모델을 포함하며 영어와 중국어를 지원
- 2.5조 개의 토큰으로 구성된 데이터로 학습되었으며, 이 중 90%는 원시 코드, 10%는 코드 관련 웹 데이터로 구성
- 최상위 코드 LLM의 성능에 도달하며, 모델 가중치, 추론 코드, 재현 가능한 학습 데이터, 데이터 처리 파이프라인, 실험적 절단 결과 및 상세한 학습 프로토콜을 제공
- 연구자들이 코드 AI를 발전시키고 혁신할 수 있도록 지원하는 오픈 플랫폼
OpenCoder의 특징
- 완전한 오픈 소스 코드 LLM으로, 투명한 데이터 처리 파이프라인과 재현 가능한 데이터셋을 기반으로 구축되어 여러 코드 LLM 평가 벤치마크에서 최상위 성능을 달성
- RefineCode: 607개의 프로그래밍 언어에 걸쳐 9600억 개의 토큰으로 구성된 고품질의 재현 가능한 코드 사전 학습 코퍼스
- 유의미한 절제(Ablation) 연구: 다양한 설계 선택 및 코드 LLM의 학습 전략에 대한 유의미한 통찰을 제공하기 위한 여러 절제 실험을 포함
- 공개된 리소스: 최종 모델 가중치, 완전한 데이터 처리 파이프라인, 효율적인 평가 파이프라인, 재현 가능한 사전 학습 데이터셋, 대규모 SFT 데이터셋 및 중간 체크포인트

모델 가중치와 추론 코드뿐만 아니라 재현 가능한 훈련 데이터, 데이터 처리 파이프라인, 실험적 결과, 훈련 프로토콜을 공개하여 과학 연구에 기여함.
- 이러한 작업은 모델의 성능과 관계없이 모두에게 이익이 됨을 강조함.
테스트 결과, 환각 현상이 많고 Qwen 2.5나 Mistral-Nemo 같은 일반 모델에 비해 성능이 떨어짐.
arxiv 논문의 홈페이지 링크 제공: https://opencoder-llm.github.io/
Qwen2.5-Coder-7B의 HumanEval 점수가 61.6인데, Table 1에서는 88.4로 나타나 혼란스러웠음.
- 이는 두 모델이 다르기 때문임 (Qwen2.5-Coder-7B-Base는 61.6, Qwen2.5-Coder-7B-Instruct는 88.4).
코드베이스 내 포크와 복사-붙여넣기 때문에 파일의 75%가 완전히 중복됨.
- 파일 수준에서 해싱을 하기 때문에, 전체 파일을 수정 없이 복사한 것인지 확신할 수 없음.
컴파일 및 실행의 메타데이터(프로파일링 데이터 등)를 포함하는 훈련을 하는 사람 있음?
- 이러한 포함이 모델을 더 효율적인 코드 방향으로 유도할 수 있을지 궁금함.
흥미로운 논문이지만, 모델이 Ruby를 포함한 몇몇 언어에서 Qwen2.5-Coder보다 나아 보이지 않음.
이 모델을 실행하려면 어떤 하드웨어가 필요한지 궁금함.
배관이 중요함.
좋음.