▲GN⁺ 2024-10-16 | parent | ★ favorite | on: Zyphra Zamba2-7B, Llama3를 뛰어넘는 소형 언어 모델 공개 (zyphra.com)Hacker News 의견 기사에 연결되지 않은 가중치를 찾는 사람들을 위해 링크를 제공함 기본 모델: Zyphra/Zamba2-7B Instruct 튜닝: Zyphra/Zamba2-7B-Instruct 성능 향상이 데이터셋 개선 덕분인지 아키텍처 덕분인지 궁금함. 이는 비용이 많이 드는 실험일 것임 LLM 릴리스가 벤치마크를 선택적으로 사용하는 것에 피로감을 느낌. SOTA qwen2.5/phi3.5와 비교가 궁금함 최신 독립 리더보드를 아는 사람 있는지 질문함. Lmsys와 livebench는 최근 주요 모델을 대부분 건너뜀 Apache 라이선스 모델이 더 많이 나오는 것이 좋음, 특히 다양한 아키텍처와 함께 Mamba2 블록에 대한 이론적 작업의 양에 비해 성능 향상이 매우 미미함 주의(attention)가 여전히 중요함 두 개의 주의 헤드를 사용할 때, 각 주의 헤드가 데이터의 다른 측면에 집중하는지 궁금함 기억 연구에서 사건의 이중 표현 개념이 있음. 하나는 더 정확한 표현이고, 다른 하나는 더 문맥 가중된 표현임 LLM에서 주의가 한 헤드는 정확한 표현에, 다른 헤드는 더 거친 정보에 집중하는 시스템을 상상할 수 있음. 그러나 LLM에 대해 잘 알지 못해 이것이 단순한 비유인지 확신할 수 없음 7B가 특별한 이유가 무엇인지 궁금함. 왜 8B, 9B, 11.234B가 아닌지 질문함. 7B가 2의 거듭제곱으로 해석되는 것인지 궁금함 또 다른 날, AI에서 또 다른 세계 기록이 세워짐 Sergey Bubka가 생각남. 그는 남자 장대높이뛰기 세계 기록을 35번 경신했음 이 모델이 어떤 언어를 지원하는지에 대한 아이디어가 있는지 질문함
Hacker News 의견
기사에 연결되지 않은 가중치를 찾는 사람들을 위해 링크를 제공함
성능 향상이 데이터셋 개선 덕분인지 아키텍처 덕분인지 궁금함. 이는 비용이 많이 드는 실험일 것임
LLM 릴리스가 벤치마크를 선택적으로 사용하는 것에 피로감을 느낌. SOTA qwen2.5/phi3.5와 비교가 궁금함
Apache 라이선스 모델이 더 많이 나오는 것이 좋음, 특히 다양한 아키텍처와 함께
Mamba2 블록에 대한 이론적 작업의 양에 비해 성능 향상이 매우 미미함
두 개의 주의 헤드를 사용할 때, 각 주의 헤드가 데이터의 다른 측면에 집중하는지 궁금함
7B가 특별한 이유가 무엇인지 궁금함. 왜 8B, 9B, 11.234B가 아닌지 질문함. 7B가 2의 거듭제곱으로 해석되는 것인지 궁금함
또 다른 날, AI에서 또 다른 세계 기록이 세워짐
이 모델이 어떤 언어를 지원하는지에 대한 아이디어가 있는지 질문함