▲GN⁺ 2024-11-10 | parent | ★ favorite | on: OpenCoder: 최상위 코드 LLM을 위한 오픈 쿡북(opencoder-llm.github.io)Hacker News 의견 모델 가중치와 추론 코드뿐만 아니라 재현 가능한 훈련 데이터, 데이터 처리 파이프라인, 실험적 결과, 훈련 프로토콜을 공개하여 과학 연구에 기여함. 이러한 작업은 모델의 성능과 관계없이 모두에게 이익이 됨을 강조함. 테스트 결과, 환각 현상이 많고 Qwen 2.5나 Mistral-Nemo 같은 일반 모델에 비해 성능이 떨어짐. arxiv 논문의 홈페이지 링크 제공: https://opencoder-llm.github.io/ Qwen2.5-Coder-7B의 HumanEval 점수가 61.6인데, Table 1에서는 88.4로 나타나 혼란스러웠음. 이는 두 모델이 다르기 때문임 (Qwen2.5-Coder-7B-Base는 61.6, Qwen2.5-Coder-7B-Instruct는 88.4). 코드베이스 내 포크와 복사-붙여넣기 때문에 파일의 75%가 완전히 중복됨. 파일 수준에서 해싱을 하기 때문에, 전체 파일을 수정 없이 복사한 것인지 확신할 수 없음. 컴파일 및 실행의 메타데이터(프로파일링 데이터 등)를 포함하는 훈련을 하는 사람 있음? 이러한 포함이 모델을 더 효율적인 코드 방향으로 유도할 수 있을지 궁금함. 흥미로운 논문이지만, 모델이 Ruby를 포함한 몇몇 언어에서 Qwen2.5-Coder보다 나아 보이지 않음. 이 모델을 실행하려면 어떤 하드웨어가 필요한지 궁금함. 배관이 중요함. 좋음.
Hacker News 의견
모델 가중치와 추론 코드뿐만 아니라 재현 가능한 훈련 데이터, 데이터 처리 파이프라인, 실험적 결과, 훈련 프로토콜을 공개하여 과학 연구에 기여함.
테스트 결과, 환각 현상이 많고 Qwen 2.5나 Mistral-Nemo 같은 일반 모델에 비해 성능이 떨어짐.
arxiv 논문의 홈페이지 링크 제공: https://opencoder-llm.github.io/
Qwen2.5-Coder-7B의 HumanEval 점수가 61.6인데, Table 1에서는 88.4로 나타나 혼란스러웠음.
코드베이스 내 포크와 복사-붙여넣기 때문에 파일의 75%가 완전히 중복됨.
컴파일 및 실행의 메타데이터(프로파일링 데이터 등)를 포함하는 훈련을 하는 사람 있음?
흥미로운 논문이지만, 모델이 Ruby를 포함한 몇몇 언어에서 Qwen2.5-Coder보다 나아 보이지 않음.
이 모델을 실행하려면 어떤 하드웨어가 필요한지 궁금함.
배관이 중요함.
좋음.