9P by xguru 6달전 | favorite | 댓글과 토론
  • 매우 긴(Ultra Long) 컨텍스트를 지원하기 위해 Transformer를 대체할 새로운 아키텍처인 Hyena를 이용
    • Hyena 는 신호처리에서 영감을 받은 시퀀스 모델 기반
  • 짧은/긴 컨텍스트 평가에서 Transformers와 경쟁하는 최초의 대체 모델
  • OpenLLM 리더보드 작업에서 Llama-2, Yi 및 Mistral 7B와 비슷한 성능을 발휘하며, 긴 컨텍스트 요약에서 우수한 성능을 냄
  • StripedHyena는 긴 시퀀스 훈련, 미세 조정 및 생성에 더 빠르고 메모리 효율이 높음
  • 새로운 모델 접목(Model Grafting) 기법을 사용해 최적화되어 훈련 중에 모델 아키텍처를 변경할 수 있음
    • StripedHyena는 트랜스포머와 하이에나의 아키텍처 구성 요소를 접목하여 얻은 것으로, 더 긴 컨텍스트 데이터로 보강된 RedPajama 데이터 세트를 혼합하여 학습시킴