- CodeLlama-34B 와 CodeLlama-34B-Python 을 Phind의 내부 데이터셋으로 파인튜닝, 각각 HumanEval에서 67.6%와 69.5%의 pass@1을 달성하여 GPT-4의 67%를 능가함
- 최근 공개된 CodeLlama 모델들은 HumanEval에서 인상적인 성능을 보였으며, CodeLlama-34B는 48.8%의 pass@1을, CodeLlama-34B-Python은 53.7%의 pass@1을 달성함
- 두 모델 모두 약 80k의 고품질 프로그래밍 문제와 해결책을 포함하는 독점 데이터셋에서 미세조정되었으며, 이는 코드 완성 예시 대신 지시-답변 쌍을 특징으로 하는 HumanEval과 구조적으로 다름
- 모델들은 DeepSpeed ZeRO 3와 Flash Attention 2를 사용하여 두 Epoch 동안 총 160k의 예시를 학습하였으며, 이는 32개의 A100-80GB GPU와 4096 토큰의 시퀀스 길이로 세 시간 동안 이루어짐
- OpenAI의 오염 제거 방법론이 데이터셋에 적용되어 유효한 결과를 보장하였으며, 오염된 예시는 발견되지 않았음. 이 방법론은 각 평가 예시에서 50개의 문자로 구성된 세 개의 부분 문자열을 무작위로 샘플링하거나, 전체 예시가 50개 문자 미만인 경우 전체 예시를 사용하고, 샘플링된 부분 문자열 중 하나가 처리된 학습 예시의 부분 문자열인 경우 일치하는 것으로 식별함.
- 미세조정된 모델들은 HumanEval에서 Phind-CodeLlama-34B-v1에 대해 67.6%, Phind-CodeLlama-34B-Python-v1에 대해 69.5%의 pass@1 점수를 달성함
- 두 모델 모두 Huggingface에서 공개되어 검증 가능성을 보장하고 오픈소스 커뮤니티를 지원하며, 결과의 독립적인 검증이 권장됨