Hacker News 의견
  • 기사에 연결되지 않은 가중치를 찾는 사람들을 위해 링크를 제공함

  • 성능 향상이 데이터셋 개선 덕분인지 아키텍처 덕분인지 궁금함. 이는 비용이 많이 드는 실험일 것임

  • LLM 릴리스가 벤치마크를 선택적으로 사용하는 것에 피로감을 느낌. SOTA qwen2.5/phi3.5와 비교가 궁금함

    • 최신 독립 리더보드를 아는 사람 있는지 질문함. Lmsys와 livebench는 최근 주요 모델을 대부분 건너뜀
  • Apache 라이선스 모델이 더 많이 나오는 것이 좋음, 특히 다양한 아키텍처와 함께

  • Mamba2 블록에 대한 이론적 작업의 양에 비해 성능 향상이 매우 미미함

    • 주의(attention)가 여전히 중요함
  • 두 개의 주의 헤드를 사용할 때, 각 주의 헤드가 데이터의 다른 측면에 집중하는지 궁금함

    • 기억 연구에서 사건의 이중 표현 개념이 있음. 하나는 더 정확한 표현이고, 다른 하나는 더 문맥 가중된 표현임
    • LLM에서 주의가 한 헤드는 정확한 표현에, 다른 헤드는 더 거친 정보에 집중하는 시스템을 상상할 수 있음. 그러나 LLM에 대해 잘 알지 못해 이것이 단순한 비유인지 확신할 수 없음
  • 7B가 특별한 이유가 무엇인지 궁금함. 왜 8B, 9B, 11.234B가 아닌지 질문함. 7B가 2의 거듭제곱으로 해석되는 것인지 궁금함

  • 또 다른 날, AI에서 또 다른 세계 기록이 세워짐

    • Sergey Bubka가 생각남. 그는 남자 장대높이뛰기 세계 기록을 35번 경신했음
  • 이 모델이 어떤 언어를 지원하는지에 대한 아이디어가 있는지 질문함