Eagle 7B - Transformer를 뛰어넘은 모델

(blog.rwkv.com)

6P by GN⁺ 2024-01-30 | ★ favorite | 댓글 2개

RWKV-v5 아키텍처를 기반으로 한 7.52B 파라미터 모델
세계에서 가장 친환경적인 7B 모델로, 토큰당 비용이 낮음
100개 이상의 언어로 1.1조 토큰에 대해 훈련됨
다국어 벤치마크에서 모든 7B 클래스 모델을 능가함
영어 평가에서 Falcon (1.5T), LLaMA2 (2T), Mistral (>2T?) 수준의 성능에 근접함
매우 작은 명령어 튜닝만 한 파운데이션 모델로, 다양한 유스케이스를 위한 파인 튜닝 필요
Attention이 필요 없는 트랜스포머로
아파치 2.0 라이선스로, 개인적이거나 상업적으로 제한 없이 사용 가능함

다국어 성능 세부사항

다국어 성능은 xLAMBDA, xStoryCloze, xWinograd, xCopa 등 총 23개 언어를 대상으로 평가됨.
이러한 벤치마크는 각 언어의 상식적 추론을 다룸.
RWKV v4에서 v5 아키텍처로 전환하면서 다국어 성능이 크게 향상됨.
다국어 벤치마크가 부족하여, 훈련된 100개 이상의 언어 중 나머지 75개 이상의 언어에 대한 모델의 언어 성능을 직접 평가하기 어려움.

영어 성능 세부사항

영어 성능은 상식적 추론과 세계 지식을 다루는 12개의 별도 벤치마크를 통해 측정됨.
RWKV v4에서 v5 아키텍처로 전환하면서 영어 성능이 크게 향상됨.
v5 모델은 주어진 토큰 훈련량에 대해 예상되는 트랜스포머 성능 수준에 부합함.
추가적인 1조 토큰 훈련을 통해 LLaMA2 수준에 도달하고 Mistral 수준에 근접할 것으로 기대됨.

좋은 데이터셋 + 확장 가능한 아키텍처: 모두가 필요한 것일까?

3000억 토큰 지점에서의 체크포인트는 pythia-6.9b와 유사한 성능을 보임.
RWKV-v4 아키텍처에서의 이전 실험과 일관되게, RWKV와 같은 선형 트랜스포머는 훈련된 토큰 수가 같을 때 트랜스포머와 유사한 성능 수준으로 확장됨.
모델 평가 성능에 있어서 정확한 아키텍처보다 데이터가 더 중요한지에 대한 질문이 반복됨.
RWKV 기반 아키텍처와 트랜스포머 모델 간의 CUDA 계산 비용을 비교할 때, 선형 대비 2차원의 확장성이 중요함.

모두를 위한 포괄적인 AI 구축 - 영어만이 아닌

RWKV 다국어 접근 방식에 대한 일반적인 피드백은 영어 평가 점수에 영향을 미치고 선형 트랜스포머의 성장을 늦춘다는 것임.
그러나 RWKV 팀은 이 접근 방식을 변경할 계획이 없으며, 영어만 사용하는 세계가 아닌 전 세계를 위한 AI를 구축하고자 함.
2023년 기준으로 세계 인구의 17%만이 영어를 구사함.
상위 25개 언어와 그 이상을 지원함으로써 약 40억 명, 즉 세계 인구의 50%를 커버할 수 있음.
RWKV 팀은 다국어 데이터셋을 확장하고, 지원 언어를 늘려 전 세계 100%를 커버하고자 함.

미래 계획

이번 릴리스는 현재까지 가장 강력한 선형 트랜스포머를 표시함.
LLaMA2와 Mistral을 넘어서진 못했지만, RWKV-v5 모델 아키텍처가 유사한 토큰 수로 트랜스포머 성능과 유사하게 확장됨을 보여줌.
2024년 2월에는 RWKV v5에 대한 업데이트된 논문을 발표하고, 3월에는 v5 Eagle 2T 모델을 기반으로 한 MoE 모델과 RWKV-v6 "Finch" 1.5B, 3B 월드 모델을 출시할 계획임.

감사의 말

이 기초 모델을 훈련하기 위해 대부분의 컴퓨팅을 제공한 StabilityAI에 감사함.
논문 작성 과정에서 지원을 아끼지 않은 EleutherAI에 감사함.
RWKV 프로젝트를 지원하고 호스팅하는 Linux Foundation AI & Data 그룹에 감사함.

GN⁺의 의견:

Eagle 7B는 다양한 언어를 지원하며, 효율적인 비용으로 높은 성능을 제공하는 선형 트랜스포머 모델임.
이 모델은 AI의 접근성을 높이고 환경에 미치는 영향을 줄이는 데 기여할 수 있음.
RWKV 팀은 AI가 전 세계 모든 사람들을 지원하고, 모든 언어를 포괄하는 방향으로 기술을 발전시키고자 하는 명확한 비전을 가지고 있음.

▲

cosine20 2024-01-31 [-]

어제 밤에 잠깐 데모를 써봤는데 꽤 빠르고 결과도 잘 내더라구요. 한국어랑 일본어도 자연스럽게 인식하고 대답했습니다.

답변달기

▲

GN⁺ 2024-01-30 [-]

Hacker News 의견

대체 LLM(대규모 언어 모델) 아키텍처에 대한 진전이 이루어지고 있어 흥미롭지만, 해당 기사는 모델의 품질만을 다루고 있어 아쉬움
- 기사가 갑자기 끝나버려서, 새로운 아키텍처를 채택하려는 동기 부여가 부족함
- 성능과 컨텍스트 크기에 대한 논의가 필요함
- 기사에서는 컨텍스트에 대한 언급이 없어 실망스러움
- RWKV-4의 차트를 재사용했지만, 차트가 무엇을 보여주는지 명확하지 않음
모델 아키텍처는 트랜스포머, Mamba, SSM, RWKV 등이 중요하지 않으며, 훈련 데이터 세트의 영향이 더 중요함
- 언어 데이터는 인간 경험의 저장소이며, 이를 통해 AI가 다양한 능력을 획득하는 것은 지능이 뇌에만 국한되지 않음을 시사함
RWKV-v5 Eagle 7B가 Apache 2.0 라이선스로 릴리스되어 개인적이거나 상업적으로 제한 없이 사용할 수 있음
- 팀이 테스트와 채택을 위한 올바른 동기를 설정한 것은 긍정적임
현재 주로 디코더 전용 다음 토큰 예측 모델에 초점이 맞춰져 있음
- BERT와 T5의 인코더는 여전히 검색이나 분류 작업을 위한 임베딩 생성에 유용함
- 임베딩 사용 사례를 위한 더 나은 사전 훈련 아키텍처에 대한 연구가 더 필요함
RWKV 모델이 일반적인 트랜스포머 모델과 어떻게 비교되는지, 벤치마크를 어떻게 해석해야 하는지에 대한 설명 요청
- Mistral 7B/mistral-tiny와 비슷한 성능을 보이는 것 같음
필요한 RAM의 양과 CPU만 사용할 때의 토큰 처리 속도에 대한 정보가 불확실함
프로젝트 멤버가 Reddit에서 질문에 답변하고 있으니 참고할 것을 제안함
- 해당 Reddit 사용자 링크 제공
RWKV 모델을 시도하고 싶지만 기다리고 싶지 않다면 rwkv-demo-api.recursal.ai 사용 권장
2024년 3월에 기반한 MoE 모델 v5 Eagle 2T에 대한 기대감 표현
- 성능과 환경/토큰 비용의 균형을 기대함
- 스칸디나비아 언어의 개선도 기대하지만, 결과를 지켜봐야 함
- 훈련 데이터의 가치와 최적의 훈련을 위한 내용 구조 및 균형에 대한 인식이 진정한 혁명을 가져올 것임
RWKV-4 실험에서 추론 속도는 빠르지만 토큰화 속도가 매우 느린 것을 경험함
- RWKV-5에 대한 구체적인 지침이 필요함

답변달기