- MK-1은 OpenAI, Anthropic, Google과 같은 엘리트 AI 강자들과 동등하거나 더 나은 능력을 가진 AI 모델을 제공하려는 새로운 회사입니다.
- 회사의 첫 번째 제품인 MKML은 몇 줄의 Python 코드만으로 GPU에서 큰 언어 모델(LLM) 추론 비용을 2배 줄일 수 있는 추론 런타임입니다.
- MKML은 Hugging Face와 PyTorch와 같은 인기 있는 생태계와 호환됩니다.
- MKML은 현재 폐쇄 베타 릴리스 단계에 있으며 초기 파트너를 찾고 있습니다.
- MKML은 AI 모델의 메모리 사용량을 줄이고 속도를 높여 최적화하는 데 도움이 될 수 있습니다. 예를 들어, Llama-2 13B 모델을 26GB에서 10.5GB로 줄이고 전달 패스의 추론 시간을 최대 2.3배 줄일 수 있습니다.
- MKML은 비용이나 속도에 따라 AI 모델을 최적화하는 데 사용될 수 있습니다. 비용 최적화 시나리오에서는 모델이 덜 비싼 GPU 인스턴스에 적합하게 만들 수 있으며, 더 비싼 인스턴스에서 기본 모델보다 빠르게 실행될 수 있습니다. 속도 최적화 시나리오에서는 MKML이 모델을 최대 2.0배 더 빠르게 만들어 더 많은 사용자에게 서비스를 제공할 수 있습니다.
- MKML은 기존 작업 흐름에 쉽게 통합할 수 있습니다. 이는 MKML의 모델 코덱 중 하나를 사용하여 모델을 한 번 압축하고, 압축된 모델을 디스크에 저장한 다음 추론을 위해 로드하는 과정을 포함합니다.
- MKML은 다양한 모델 크기와 시스템 구성을 지원하며, 속도 테스트에서 일관되게 기본선보다 빠릅니다.
- MKML은 또한 원래 모델에 대한 높은 충실도를 유지하며, 표준 혼란도 측정에서 무시할 수 있는 차이를 보입니다.
- MK-1의 장기 비전은 전체 추론 스택에서 AI의 성능을 한계까지 끌어올리는 것입니다. 그들은 미래 개발을 위한 야심찬 로드맵을 가지고 있습니다.