# OpenCoder: 최상위 코드 LLM을 위한 오픈 쿡북

> Clean Markdown view of GeekNews topic #17675. Use the original source for factual precision when an external source URL is present.

## Metadata

- GeekNews HTML: [https://news.hada.io/topic?id=17675](https://news.hada.io/topic?id=17675)
- GeekNews Markdown: [https://news.hada.io/topic/17675.md](https://news.hada.io/topic/17675.md)
- Type: GN+
- Author: [neo](https://news.hada.io/@neo)
- Published: 2024-11-10T09:48:39+09:00
- Updated: 2024-11-10T09:48:39+09:00
- Original source: [opencoder-llm.github.io](https://opencoder-llm.github.io/)
- Points: 12
- Comments: 1

## Summary

OpenCoder는 1.5B 및 8B 모델을 포함한 오픈 소스 코드 대형 언어 모델로, 영어와 중국어를 지원하며 2.5조 개의 토큰으로 학습되었습니다. 이 모델은 최상위 코드 LLM의 성능을 달성하며, 연구자들이 코드 AI를 발전시키고 혁신할 수 있도록 다양한 리소스를 공개합니다. 또한, OpenCoder는 투명한 데이터 처리 파이프라인과 재현 가능한 데이터셋을 기반으로 구축되어 여러 코드 LLM 평가 벤치마크에서 우수한 성능을 보입니다.

## Topic Body

- OpenCoder는 오픈 소스 코드 대형 언어 모델(LLM)로, 1.5B 및 8B 기본 및 채팅 모델을 포함하며 영어와 중국어를 지원  
  - 2.5조 개의 토큰으로 구성된 데이터로 학습되었으며, 이 중 90%는 원시 코드, 10%는 코드 관련 웹 데이터로 구성  
  - 최상위 코드 LLM의 성능에 도달하며, 모델 가중치, 추론 코드, 재현 가능한 학습 데이터, 데이터 처리 파이프라인, 실험적 절단 결과 및 상세한 학습 프로토콜을 제공  
  - 연구자들이 코드 AI를 발전시키고 혁신할 수 있도록 지원하는 오픈 플랫폼  
- **OpenCoder의 특징**  
  - 완전한 오픈 소스 코드 LLM으로, 투명한 데이터 처리 파이프라인과 재현 가능한 데이터셋을 기반으로 구축되어 여러 코드 LLM 평가 벤치마크에서 최상위 성능을 달성  
  - RefineCode: 607개의 프로그래밍 언어에 걸쳐 9600억 개의 토큰으로 구성된 고품질의 재현 가능한 코드 사전 학습 코퍼스  
  - 유의미한 절제(Ablation) 연구: 다양한 설계 선택 및 코드 LLM의 학습 전략에 대한 유의미한 통찰을 제공하기 위한 여러 절제 실험을 포함  
  - 공개된 리소스: 최종 모델 가중치, 완전한 데이터 처리 파이프라인, 효율적인 평가 파이프라인, 재현 가능한 사전 학습 데이터셋, 대규모 SFT 데이터셋 및 중간 체크포인트

## Comments


### Comment 31095

- Author: neo
- Created: 2024-11-10T09:48:39+09:00
- Points: 1

###### [Hacker News 의견](https://news.ycombinator.com/item?id=42095580) 
- 모델 가중치와 추론 코드뿐만 아니라 재현 가능한 훈련 데이터, 데이터 처리 파이프라인, 실험적 결과, 훈련 프로토콜을 공개하여 과학 연구에 기여함.
  - 이러한 작업은 모델의 성능과 관계없이 모두에게 이익이 됨을 강조함.

- 테스트 결과, 환각 현상이 많고 Qwen 2.5나 Mistral-Nemo 같은 일반 모델에 비해 성능이 떨어짐.

- arxiv 논문의 홈페이지 링크 제공: [https://opencoder-llm.github.io/](https://opencoder-llm.github.io/)

- Qwen2.5-Coder-7B의 HumanEval 점수가 61.6인데, Table 1에서는 88.4로 나타나 혼란스러웠음.
  - 이는 두 모델이 다르기 때문임 (Qwen2.5-Coder-7B-Base는 61.6, Qwen2.5-Coder-7B-Instruct는 88.4).

- 코드베이스 내 포크와 복사-붙여넣기 때문에 파일의 75%가 완전히 중복됨.
  - 파일 수준에서 해싱을 하기 때문에, 전체 파일을 수정 없이 복사한 것인지 확신할 수 없음.

- 컴파일 및 실행의 메타데이터(프로파일링 데이터 등)를 포함하는 훈련을 하는 사람 있음?
  - 이러한 포함이 모델을 더 효율적인 코드 방향으로 유도할 수 있을지 궁금함.

- 흥미로운 논문이지만, 모델이 Ruby를 포함한 몇몇 언어에서 Qwen2.5-Coder보다 나아 보이지 않음.

- 이 모델을 실행하려면 어떤 하드웨어가 필요한지 궁금함.

- 배관이 중요함.

- 좋음.