1P by neo 2023-08-07 | favorite | 댓글 1개
  • MK-1은 OpenAI, Anthropic, Google과 같은 엘리트 AI 강자들과 동등하거나 더 나은 능력을 가진 AI 모델을 제공하려는 새로운 회사입니다.
  • 회사의 첫 번째 제품인 MKML은 몇 줄의 Python 코드만으로 GPU에서 큰 언어 모델(LLM) 추론 비용을 2배 줄일 수 있는 추론 런타임입니다.
  • MKML은 Hugging Face와 PyTorch와 같은 인기 있는 생태계와 호환됩니다.
  • MKML은 현재 폐쇄 베타 릴리스 단계에 있으며 초기 파트너를 찾고 있습니다.
  • MKML은 AI 모델의 메모리 사용량을 줄이고 속도를 높여 최적화하는 데 도움이 될 수 있습니다. 예를 들어, Llama-2 13B 모델을 26GB에서 10.5GB로 줄이고 전달 패스의 추론 시간을 최대 2.3배 줄일 수 있습니다.
  • MKML은 비용이나 속도에 따라 AI 모델을 최적화하는 데 사용될 수 있습니다. 비용 최적화 시나리오에서는 모델이 덜 비싼 GPU 인스턴스에 적합하게 만들 수 있으며, 더 비싼 인스턴스에서 기본 모델보다 빠르게 실행될 수 있습니다. 속도 최적화 시나리오에서는 MKML이 모델을 최대 2.0배 더 빠르게 만들어 더 많은 사용자에게 서비스를 제공할 수 있습니다.
  • MKML은 기존 작업 흐름에 쉽게 통합할 수 있습니다. 이는 MKML의 모델 코덱 중 하나를 사용하여 모델을 한 번 압축하고, 압축된 모델을 디스크에 저장한 다음 추론을 위해 로드하는 과정을 포함합니다.
  • MKML은 다양한 모델 크기와 시스템 구성을 지원하며, 속도 테스트에서 일관되게 기본선보다 빠릅니다.
  • MKML은 또한 원래 모델에 대한 높은 충실도를 유지하며, 표준 혼란도 측정에서 무시할 수 있는 차이를 보입니다.
  • MK-1의 장기 비전은 전체 추론 스택에서 AI의 성능을 한계까지 끌어올리는 것입니다. 그들은 미래 개발을 위한 야심찬 로드맵을 가지고 있습니다.
Hacker News 의견
  • 기사에서는 새로운 기술인 MK-1에 대해 논의하지만, 기존 양자화 방법과의 결과 비교를 하지 않아 일부 독자들이 중요한 누락으로 보고 있다.
  • 한 독자는 Llama 1에 사용 가능한 다른 양자화들에 대한 비교 차트를 제공하며, MK-1의 성능이 Q5_1과 유사하며, 약간의 복잡도 감소와 2배 이상의 속도 향상이 있다고 제안한다.
  • 일부 독자들은 MK-1에 대한 회의감을 표현하며, 이것이 bitsandbytes나 ggml과 같은 기존 기술을 둘러싼 래퍼일 수 있다고 제안한다.
  • MK-1이 오픈 소스가 아닌 점에 대한 우려가 제기되며, 일부 독자들은 이 분야의 빠른 속도와 편의성 부족 때문에 이를 사용하지 않겠다고 밝힌다.
  • 한 독자는 ML 모델 양자화 작업에 참여했었으며, 오픈 소스 4비트 또는 8비트 양자화가 최선이 아니라고 주장하며, 더 고급 기술을 암시한다.
  • MK-1과 4비트 양자화를 가진 mlc-llm 간의 비교가 요청되며, 후자가 Llama2 13B를 놀랍도록 빠르게 실행한다고 보고된다.
  • 일부 독자들은 기술 스택에서 독점적인 의존성에 대해 불만을 표현하며, OpenAI와 Anthropic와 같은 최고 수준의 옵션을 선호하거나 자체 솔루션을 만드는 것을 선호한다.
  • 회사가 인기 있는 모델을 최적화하고 실제 OSS 라이선스로 판매하며, 가중치에 대한 라이선스 제한을 걱정하지 않는 결정은 전략적인 움직임으로 보인다.
  • 일부 독자들은 MK-1을 또 다른 AI 스타트업 사기로 규정하며, 이것이 GGML을 사용하고, 닫히고, VC 현금을 찾는 것을 비난한다.
  • MK-1의 오픈 소스 부재와 폐쇄적인 성격은 주요한 단점으로 보이며, 일부 독자들은 이를 "물에 빠진 사람"으로 선언한다.