▲AI2 Dolma: 언어모델을 위한 3T 토큰 오픈 코퍼스 (blog.allenai.org)6P by xguru 2023-08-25 | favorite | 댓글과 토론 Allen Institute for AI 가 만드는 데이터셋 웹 콘텐츠, 학술 간행물, 코드, 서적 및 백과사전 자료의 믹스 3조(Trillion)개로 현재까지 공개된 것중 가장 큰 규모의 데이터 셋 HuggingFace 허브에서 다운로드 가능 AI2 ImpACT 라이센스(Artifact의 Risk에 따라 Low/Medium/High로 구분) 인증 이메일 클릭후 다시 체크박스를 눌러주세요