▲GN⁺ 2024-01-30 | parent | ★ favorite | on: Eagle 7B - Transformer를 뛰어넘은 모델(blog.rwkv.com)Hacker News 의견 대체 LLM(대규모 언어 모델) 아키텍처에 대한 진전이 이루어지고 있어 흥미롭지만, 해당 기사는 모델의 품질만을 다루고 있어 아쉬움 기사가 갑자기 끝나버려서, 새로운 아키텍처를 채택하려는 동기 부여가 부족함 성능과 컨텍스트 크기에 대한 논의가 필요함 기사에서는 컨텍스트에 대한 언급이 없어 실망스러움 RWKV-4의 차트를 재사용했지만, 차트가 무엇을 보여주는지 명확하지 않음 모델 아키텍처는 트랜스포머, Mamba, SSM, RWKV 등이 중요하지 않으며, 훈련 데이터 세트의 영향이 더 중요함 언어 데이터는 인간 경험의 저장소이며, 이를 통해 AI가 다양한 능력을 획득하는 것은 지능이 뇌에만 국한되지 않음을 시사함 RWKV-v5 Eagle 7B가 Apache 2.0 라이선스로 릴리스되어 개인적이거나 상업적으로 제한 없이 사용할 수 있음 팀이 테스트와 채택을 위한 올바른 동기를 설정한 것은 긍정적임 현재 주로 디코더 전용 다음 토큰 예측 모델에 초점이 맞춰져 있음 BERT와 T5의 인코더는 여전히 검색이나 분류 작업을 위한 임베딩 생성에 유용함 임베딩 사용 사례를 위한 더 나은 사전 훈련 아키텍처에 대한 연구가 더 필요함 RWKV 모델이 일반적인 트랜스포머 모델과 어떻게 비교되는지, 벤치마크를 어떻게 해석해야 하는지에 대한 설명 요청 Mistral 7B/mistral-tiny와 비슷한 성능을 보이는 것 같음 필요한 RAM의 양과 CPU만 사용할 때의 토큰 처리 속도에 대한 정보가 불확실함 프로젝트 멤버가 Reddit에서 질문에 답변하고 있으니 참고할 것을 제안함 해당 Reddit 사용자 링크 제공 RWKV 모델을 시도하고 싶지만 기다리고 싶지 않다면 rwkv-demo-api.recursal.ai 사용 권장 2024년 3월에 기반한 MoE 모델 v5 Eagle 2T에 대한 기대감 표현 성능과 환경/토큰 비용의 균형을 기대함 스칸디나비아 언어의 개선도 기대하지만, 결과를 지켜봐야 함 훈련 데이터의 가치와 최적의 훈련을 위한 내용 구조 및 균형에 대한 인식이 진정한 혁명을 가져올 것임 RWKV-4 실험에서 추론 속도는 빠르지만 토큰화 속도가 매우 느린 것을 경험함 RWKV-5에 대한 구체적인 지침이 필요함
Hacker News 의견
대체 LLM(대규모 언어 모델) 아키텍처에 대한 진전이 이루어지고 있어 흥미롭지만, 해당 기사는 모델의 품질만을 다루고 있어 아쉬움
모델 아키텍처는 트랜스포머, Mamba, SSM, RWKV 등이 중요하지 않으며, 훈련 데이터 세트의 영향이 더 중요함
RWKV-v5 Eagle 7B가 Apache 2.0 라이선스로 릴리스되어 개인적이거나 상업적으로 제한 없이 사용할 수 있음
현재 주로 디코더 전용 다음 토큰 예측 모델에 초점이 맞춰져 있음
RWKV 모델이 일반적인 트랜스포머 모델과 어떻게 비교되는지, 벤치마크를 어떻게 해석해야 하는지에 대한 설명 요청
필요한 RAM의 양과 CPU만 사용할 때의 토큰 처리 속도에 대한 정보가 불확실함
프로젝트 멤버가 Reddit에서 질문에 답변하고 있으니 참고할 것을 제안함
RWKV 모델을 시도하고 싶지만 기다리고 싶지 않다면 rwkv-demo-api.recursal.ai 사용 권장
2024년 3월에 기반한 MoE 모델 v5 Eagle 2T에 대한 기대감 표현
RWKV-4 실험에서 추론 속도는 빠르지만 토큰화 속도가 매우 느린 것을 경험함