1P by wedding 3시간전 | ★ favorite | 댓글과 토론

안드로이드 온디바이스 LLM을 개발하고 있습니다.

기존엔 whisper.cpp를 쓰고 있는데 GPU 가속이 되지 않아 속도에 대한 갈증이 있었습니다.
LiteRT-LM이 공개되고 특히 MTP까지 적용되면서 속도가 상당히 빠르다고 판단하여 포팅 작업을 진행하였고,
만족스런 결과를 얻게 되었습니다.

LiteRT Community에 공개된 다양한 모델의 벤치마크 결과도 진행하였습니다.

혹시 도움이 되실까 하여 공개해봅니다