BigCode - 오픈소스로 만드는 코드 생성용 AI 제작 프로젝트
(bigcode-project.org)- GitHub의 Copilot에 사용되는 OpenAI의 Codex 와 같은 기능을 제공하는 소스코드용 LLM(Large Language Model)을 만드는 오픈 프로젝트
- Hugging Face와 ServiceNow R&D가 협업해서 만들 예정
- 코드 생성 시스템을 훈련하기 위한 규모의 데이터셋을 제공하는게 목표
- Codex 보다도 큰 150억개 파라미터 셋
Stable Diffusion처럼 로컬에서도 동작하면 좋을 것 같아요. 아무래도 Copliot은 (아무리 코드 프라이버시를 잘지키고, 암호화도 한다고 해도) 외부 통신이 필요하고. 그 통신에 소스코드가 포함되서 꺼리짐하더라고요.
그렇긴 하네요.
현실적으로는 LLM(Large Language Model)이라 그냥 로컬로 직접으로는 안될거 같고 on-prem에 넣을 수 있는 사이즈 정도만 되도 쓸만할거 같아요. 150억개 파라미터면, GPT-2(15억개)와 GPT-3(1750억개) 사이 사이즈의 파라미터를 가지고 있는데 되려나...ㅠ
GPT-2는 로컬로 돌릴 수 있.. 었던 걸로 알고 있답니다. Tabnine이 그 모델 기반인데, 로컬 모델을 제공해주고 있거든요.