MK-1은 OpenAI, Anthropic, Google과 같은 엘리트 AI 강자들과 동등하거나 더 나은 능력을 가진 AI 모델을 제공하려는 새로운 회사입니다.
회사의 첫 번째 제품인 MKML은 몇 줄의 Python 코드만으로 GPU에서 큰 언어 모델(LLM) 추론 비용을 2배 줄일 수 있는 추론 런타임입니다.
MKML은 Hugging Face와 PyTorch와 같은 인기 있는 생태계와 호환됩니다.
MKML은 현재 폐쇄 베타 릴리스 단계에 있으며 초기 파트너를 찾고 있습니다.
MKML은 AI 모델의 메모리 사용량을 줄이고 속도를 높여 최적화하는 데 도움이 될 수 있습니다. 예를 들어, Llama-2 13B 모델을 26GB에서 10.5GB로 줄이고 전달 패스의 추론 시간을 최대 2.3배 줄일 수 있습니다.
MKML은 비용이나 속도에 따라 AI 모델을 최적화하는 데 사용될 수 있습니다. 비용 최적화 시나리오에서는 모델이 덜 비싼 GPU 인스턴스에 적합하게 만들 수 있으며, 더 비싼 인스턴스에서 기본 모델보다 빠르게 실행될 수 있습니다. 속도 최적화 시나리오에서는 MKML이 모델을 최대 2.0배 더 빠르게 만들어 더 많은 사용자에게 서비스를 제공할 수 있습니다.
MKML은 기존 작업 흐름에 쉽게 통합할 수 있습니다. 이는 MKML의 모델 코덱 중 하나를 사용하여 모델을 한 번 압축하고, 압축된 모델을 디스크에 저장한 다음 추론을 위해 로드하는 과정을 포함합니다.
MKML은 다양한 모델 크기와 시스템 구성을 지원하며, 속도 테스트에서 일관되게 기본선보다 빠릅니다.
MKML은 또한 원래 모델에 대한 높은 충실도를 유지하며, 표준 혼란도 측정에서 무시할 수 있는 차이를 보입니다.
MK-1의 장기 비전은 전체 추론 스택에서 AI의 성능을 한계까지 끌어올리는 것입니다. 그들은 미래 개발을 위한 야심찬 로드맵을 가지고 있습니다.