Yi - 차세대 오픈소스 이중언어 LLM

xguru · 2024-03-12T10:03:02+09:00

개발자들에 의해 처음부터 훈련된 차세대 오픈소스 대규모 언어 모델 이중 언어 모델로 목표를 두고 3T 다국어 코퍼스로 훈련되어, 언어 이해, 상식 추론, 독해 능력 등에서 강력한 성능을 보여줌 6B와 34B 사전 훈련된 언어 모델을 기반으로 하며, 챗봇 모델, 200K 긴 컨텍스트 모델, 깊이 업스케일 모델, 비전-언어 모델로 확장 Yi-34B-Chat 모델은 AlpacaEval 리더보드에서 GPT-4 Turbo에 이어 2위를 차지하며 다른 LLM들을 능가 영어와 중국어 모두에서 기존의 오픈소스 모델들을 능가하며 다양한 벤치마크에서 1위를 차지 Llama와 동일한 모델 아키텍처를 채택하고 있지만 Llama의 파생 모델이 아님. Llama의 가중치를 사용하지 않음 다양한 크기로 제공되며, 특정 요구 사항에 맞게 모델을 미세 조정할 수 있음 채팅 모델 Yi-34B-Chat, Yi-34B-Chat-4bits, Yi-34B-Chat-8bits Yi-6B-Chat, Yi-6B-Chat-4bits, Yi-6B-Chat-8bits 베이스 모델 Yi-34B, Yi-34B-200K Yi-9B Yi-6B, Yi-6B-200K

(github.com/01-ai)

9P by xguru 2024-03-12 | ★ favorite | 댓글 1개

개발자들에 의해 처음부터 훈련된 차세대 오픈소스 대규모 언어 모델
이중 언어 모델로 목표를 두고 3T 다국어 코퍼스로 훈련되어, 언어 이해, 상식 추론, 독해 능력 등에서 강력한 성능을 보여줌
6B와 34B 사전 훈련된 언어 모델을 기반으로 하며, 챗봇 모델, 200K 긴 컨텍스트 모델, 깊이 업스케일 모델, 비전-언어 모델로 확장
Yi-34B-Chat 모델은
- AlpacaEval 리더보드에서 GPT-4 Turbo에 이어 2위를 차지하며 다른 LLM들을 능가
- 영어와 중국어 모두에서 기존의 오픈소스 모델들을 능가하며 다양한 벤치마크에서 1위를 차지
Llama와 동일한 모델 아키텍처를 채택하고 있지만 Llama의 파생 모델이 아님. Llama의 가중치를 사용하지 않음
다양한 크기로 제공되며, 특정 요구 사항에 맞게 모델을 미세 조정할 수 있음
- 채팅 모델
  - Yi-34B-Chat, Yi-34B-Chat-4bits, Yi-34B-Chat-8bits
  - Yi-6B-Chat, Yi-6B-Chat-4bits, Yi-6B-Chat-8bits
- 베이스 모델
  - Yi-34B, Yi-34B-200K
  - Yi-9B
  - Yi-6B, Yi-6B-200K

xguru 2024-03-12 [-]

Hacker News 의견

Yi-34B-Chat 모델은 GPT-4 Turbo에 이어 AlpacaEval 리더보드에서 2위를 차지하며 GPT-4, Mixtral, Claude 등 다른 LLM들을 능가함.
Yi-34B 모델은 오픈 소스 모델 중에서 영어와 중국어 벤치마크에서 1위를 차지함. 이는 Hugging Face Open LLM Leaderboard (사전 훈련된 모델)와 C-Eval을 기준으로 함.
저장소의 소스 코드는 Apache 2.0 라이선스를 따르지만, 가중치는 그렇지 않음.
Yi 모델은 특정 테스트 프롬프트에서 실패함. 여러 번 시도했지만, Yi는 매번 다른 답 중 하나를 승자로 선택함.
"01.ai"라는 이름은 영화 '매트릭스'에서 인류와 전쟁을 벌이고 인간을 노예로 만든 첫 번째 AI 국가의 이름과 같아서 길조가 아님을 암시함.
Yi 모델의 성능은 데이터 엔지니어링 노력으로 인한 데이터 품질에 기인함.
Yi 34B Chat 모델은 NYT Connections 벤치마크에서 좋은 성적을 내지 못하고 LMSYS Elo 기반 리더보드에서 22위를 기록함. 중국어에서는 더 나은 성능을 보임.
이러한 모델들의 성능이 향상되는 것을 보며, 2-3년 내에 모바일 우선 LLM이 텍스트 음성 변환과 타이핑 예측을 개선하고 배터리 소모도 크게 줄일 것이라는 희망을 갖게 됨.
Yi-9B라는 새로운 모델도 있음.

답변달기

Yi - 차세대 오픈소스 이중언어 LLM

함께 보면 좋은 글 β

댓글과 토론

Hacker News 의견