GN⁺: Eagle 7B - Transformer를 뛰어넘은 모델
(blog.rwkv.com)- RWKV-v5 아키텍처를 기반으로 한 7.52B 파라미터 모델
- 세계에서 가장 친환경적인 7B 모델로, 토큰당 비용이 낮음
- 100개 이상의 언어로 1.1조 토큰에 대해 훈련됨
- 다국어 벤치마크에서 모든 7B 클래스 모델을 능가함
- 영어 평가에서 Falcon (1.5T), LLaMA2 (2T), Mistral (>2T?) 수준의 성능에 근접함
- 매우 작은 명령어 튜닝만 한 파운데이션 모델로, 다양한 유스케이스를 위한 파인 튜닝 필요
- Attention이 필요 없는 트랜스포머로
- 아파치 2.0 라이선스로, 개인적이거나 상업적으로 제한 없이 사용 가능함
다국어 성능 세부사항
- 다국어 성능은 xLAMBDA, xStoryCloze, xWinograd, xCopa 등 총 23개 언어를 대상으로 평가됨.
- 이러한 벤치마크는 각 언어의 상식적 추론을 다룸.
- RWKV v4에서 v5 아키텍처로 전환하면서 다국어 성능이 크게 향상됨.
- 다국어 벤치마크가 부족하여, 훈련된 100개 이상의 언어 중 나머지 75개 이상의 언어에 대한 모델의 언어 성능을 직접 평가하기 어려움.
영어 성능 세부사항
- 영어 성능은 상식적 추론과 세계 지식을 다루는 12개의 별도 벤치마크를 통해 측정됨.
- RWKV v4에서 v5 아키텍처로 전환하면서 영어 성능이 크게 향상됨.
- v5 모델은 주어진 토큰 훈련량에 대해 예상되는 트랜스포머 성능 수준에 부합함.
- 추가적인 1조 토큰 훈련을 통해 LLaMA2 수준에 도달하고 Mistral 수준에 근접할 것으로 기대됨.
좋은 데이터셋 + 확장 가능한 아키텍처: 모두가 필요한 것일까?
- 3000억 토큰 지점에서의 체크포인트는 pythia-6.9b와 유사한 성능을 보임.
- RWKV-v4 아키텍처에서의 이전 실험과 일관되게, RWKV와 같은 선형 트랜스포머는 훈련된 토큰 수가 같을 때 트랜스포머와 유사한 성능 수준으로 확장됨.
- 모델 평가 성능에 있어서 정확한 아키텍처보다 데이터가 더 중요한지에 대한 질문이 반복됨.
- RWKV 기반 아키텍처와 트랜스포머 모델 간의 CUDA 계산 비용을 비교할 때, 선형 대비 2차원의 확장성이 중요함.
모두를 위한 포괄적인 AI 구축 - 영어만이 아닌
- RWKV 다국어 접근 방식에 대한 일반적인 피드백은 영어 평가 점수에 영향을 미치고 선형 트랜스포머의 성장을 늦춘다는 것임.
- 그러나 RWKV 팀은 이 접근 방식을 변경할 계획이 없으며, 영어만 사용하는 세계가 아닌 전 세계를 위한 AI를 구축하고자 함.
- 2023년 기준으로 세계 인구의 17%만이 영어를 구사함.
- 상위 25개 언어와 그 이상을 지원함으로써 약 40억 명, 즉 세계 인구의 50%를 커버할 수 있음.
- RWKV 팀은 다국어 데이터셋을 확장하고, 지원 언어를 늘려 전 세계 100%를 커버하고자 함.
미래 계획
- 이번 릴리스는 현재까지 가장 강력한 선형 트랜스포머를 표시함.
- LLaMA2와 Mistral을 넘어서진 못했지만, RWKV-v5 모델 아키텍처가 유사한 토큰 수로 트랜스포머 성능과 유사하게 확장됨을 보여줌.
- 2024년 2월에는 RWKV v5에 대한 업데이트된 논문을 발표하고, 3월에는 v5 Eagle 2T 모델을 기반으로 한 MoE 모델과 RWKV-v6 "Finch" 1.5B, 3B 월드 모델을 출시할 계획임.
감사의 말
- 이 기초 모델을 훈련하기 위해 대부분의 컴퓨팅을 제공한 StabilityAI에 감사함.
- 논문 작성 과정에서 지원을 아끼지 않은 EleutherAI에 감사함.
- RWKV 프로젝트를 지원하고 호스팅하는 Linux Foundation AI & Data 그룹에 감사함.
GN⁺의 의견:
- Eagle 7B는 다양한 언어를 지원하며, 효율적인 비용으로 높은 성능을 제공하는 선형 트랜스포머 모델임.
- 이 모델은 AI의 접근성을 높이고 환경에 미치는 영향을 줄이는 데 기여할 수 있음.
- RWKV 팀은 AI가 전 세계 모든 사람들을 지원하고, 모든 언어를 포괄하는 방향으로 기술을 발전시키고자 하는 명확한 비전을 가지고 있음.
Hacker News 의견
-
대체 LLM(대규모 언어 모델) 아키텍처에 대한 진전이 이루어지고 있어 흥미롭지만, 해당 기사는 모델의 품질만을 다루고 있어 아쉬움
- 기사가 갑자기 끝나버려서, 새로운 아키텍처를 채택하려는 동기 부여가 부족함
- 성능과 컨텍스트 크기에 대한 논의가 필요함
- 기사에서는 컨텍스트에 대한 언급이 없어 실망스러움
- RWKV-4의 차트를 재사용했지만, 차트가 무엇을 보여주는지 명확하지 않음
-
모델 아키텍처는 트랜스포머, Mamba, SSM, RWKV 등이 중요하지 않으며, 훈련 데이터 세트의 영향이 더 중요함
- 언어 데이터는 인간 경험의 저장소이며, 이를 통해 AI가 다양한 능력을 획득하는 것은 지능이 뇌에만 국한되지 않음을 시사함
-
RWKV-v5 Eagle 7B가 Apache 2.0 라이선스로 릴리스되어 개인적이거나 상업적으로 제한 없이 사용할 수 있음
- 팀이 테스트와 채택을 위한 올바른 동기를 설정한 것은 긍정적임
-
현재 주로 디코더 전용 다음 토큰 예측 모델에 초점이 맞춰져 있음
- BERT와 T5의 인코더는 여전히 검색이나 분류 작업을 위한 임베딩 생성에 유용함
- 임베딩 사용 사례를 위한 더 나은 사전 훈련 아키텍처에 대한 연구가 더 필요함
-
RWKV 모델이 일반적인 트랜스포머 모델과 어떻게 비교되는지, 벤치마크를 어떻게 해석해야 하는지에 대한 설명 요청
- Mistral 7B/mistral-tiny와 비슷한 성능을 보이는 것 같음
-
필요한 RAM의 양과 CPU만 사용할 때의 토큰 처리 속도에 대한 정보가 불확실함
-
프로젝트 멤버가 Reddit에서 질문에 답변하고 있으니 참고할 것을 제안함
- 해당 Reddit 사용자 링크 제공
-
RWKV 모델을 시도하고 싶지만 기다리고 싶지 않다면 rwkv-demo-api.recursal.ai 사용 권장
-
2024년 3월에 기반한 MoE 모델 v5 Eagle 2T에 대한 기대감 표현
- 성능과 환경/토큰 비용의 균형을 기대함
- 스칸디나비아 언어의 개선도 기대하지만, 결과를 지켜봐야 함
- 훈련 데이터의 가치와 최적의 훈련을 위한 내용 구조 및 균형에 대한 인식이 진정한 혁명을 가져올 것임
-
RWKV-4 실험에서 추론 속도는 빠르지만 토큰화 속도가 매우 느린 것을 경험함
- RWKV-5에 대한 구체적인 지침이 필요함