애플의 FastVLM - 비전 언어 모델을 위한 효율적인 비전 인코딩
(github.com/apple)- 애플이 CVPR 2025에 발표한 "FastVLM: Efficient Vision Encoding for Vision Language Models"의 공식 Repo
- FastViTHD는 토큰 수 감소와 고해상도 이미지의 인코딩 시간 단축 성능을 보임
- 가장 작은 모델은 LLaVA-OneVision-0.5B보다 85배 빠른 결과와 3.4배 작은 인코더 크기를 달성함
- 대형 모델은 Cambrian-1-8B보다 탁월한 성능과 7.9배 빠른 속도를 보임
- iPhone 등 모바일 기기에서 동작하는 데모 앱이 제공됨
FastVLM 프로젝트의 의의와 장점
- FastVLM은 비전 언어 모델(Vision Language Model, VLM)을 위한 공식 구현 오픈소스임
- 기존 비전 인코더 대비 속도와 효율성 면에서 탁월한 이점을 제공함
- 여러 하드웨어, 특히 Apple Silicon 및 모바일 환경에서 활용도가 높음
- 다양한 크기 및 성능의 프리트레인 모델을 직접 선택해 사용할 수 있음
- 타 프로젝트 대비 작은 모델 사이즈로 최적화된 실시간 응답과 적은 하드웨어 자원을 보장함
주요 특징
- FastViTHD는 하이브리드 구조의 혁신적인 비전 인코더로, 출력 토큰 개수를 줄여 고해상도 이미지 인코딩 시간을 크게 단축함
- 가장 작은 FastVLM-0.5B 모델은 LLaVA-OneVision-0.5B보다 85배 빠른 TTFT(최초 토큰 생성 시간) 및 3.4배 작은 인코더 크기를 가짐
- Qwen2-7B LLM과 결합된 대형 FastVLM-7B 모델은 Cambrian-1-8B 등 최근 SOTA와 비교 시 7.9배 빠른 TTFT에 단일 이미지 인코더로 우수한 성능을 보임
- 실제 모바일 환경(iOS)에서 동작하는 데모 앱까지 함께 제공되어 기술 활용도를 즉시 검증 가능함
모델 정보 (Model Zoo)
- 다양한 크기의 FastVLM 모델(FastVLM-0.5B, FastVLM-1.5B, FastVLM-7B)이 2단계와 3단계 버전으로 제공됨
- 각 모델별로 PyTorch 체크포인트 파일을 공식적으로 제공함
- 사용자는 공식 제공되는 명령어를 활용해 여러 모델을
checkpoints
디렉터리에 일괄 다운로드할 수 있음
활용 예시 (Usage Example)
- 이미 훈련된 PyTorch 체크포인트를 predict.py 스크립트로 쉽고 빠르게 추론 테스트 가능함
- 예시 커맨드를 통해 이미지를 입력하고 프롬프트(질문)를 던지면, 해당 이미지에 대한 묘사 혹은 질문의 답을 얻을 수 있음
Apple Silicon 및 모바일 기기 지원
- Apple Silicon에서의 추론을 위해 별도의 모델 내보내기 및 양자화 과정을 설명하는 가이드가 제공됨
- Apple Silicon에 직접 최적화된 버전의 체크포인트 파일이 공식적으로 배포됨
- iPhone, iPad, Mac 등에서 바로 사용할 수 있는 앱 개발 가이드 및 소스 코드가
/app
폴더에 안내됨
추가 정보 및 오픈소스 안내
- FastVLM 논문의 공식 arXiv 링크와 CVPR 2025 학회 논문 인용 양식 제공됨
- 코드베이스는 다양한 오픈소스 프로젝트에 기반하고 있으며, 기여 내역과 라이선스 정보가 별도 안내되어 있음
- 모델 및 코드 활용 전 반드시 라이선스(라이선스 파일 및 모델 라이선스) 를 확인해야 함
Hacker News 의견
- 2GB 용량의 0.5B 최상위 모델, 각 앱이 이걸 따로 다운로드하게 하는 건 말이 안 된다는 생각임. Apple이 분명히 OS 수준에서 이 모델들을 미리 올려두고, 모든 앱에서 이 모델들을 로컬로 호출할 수 있게 SDK를 제공할 계획이 있을 것 같음. 정말 기대되는 시기임. 이 부분을 확인하려고 이슈도 열어봤음
- 공개 가중치에 기반한 OS 표준화 파운데이션 모델이 있다면 엄청난 가능성이 있다고 생각함. 만약 API가 앱 개발자가 런타임에 맞춤형 LoRa 파인튜닝을 OS 표준 모델에 로드할 수 있게 해준다면, 이상적으로는 앱 특화 모델이면서도 인기 앱 사이즈를 유지할 수 있는 이점과 파운데이션 모델의 이점을 동시에 누릴 수 있을 것 같음
- f16이나 심지어 int8로 양자화하면 모델 크기를 더 작게 만들 수도 있겠지만, 너가 한 말이 핵심임. 사용자 입장에서도 앱 하나에 500MB 파일을 받는 건 달갑지 않은 경험임
- 작년 WWDC에서 LLM과 관련해서도 비슷한 얘기를 했던 기억이 있음. OS가 기본 모델을 제공하고, 각 앱이 LORAs로 그 모델을 미세 조정하거나 커스텀 헤드를 올릴 수 있게 한다는 내용이었음
- 이 부분은 큰 프리젠테이션이 아니면 공개적으로 언급하지 않을 것 같음. 아마 WWDC 같은 자리에서야 확인할 수 있을 거라는 추측임
- time-to-first-token 속도를 충분히 끌어올리는 게 on-device continuous vision 기반 어시스턴트처럼 화면을 보고 바로 액션하는 앱에 필수적이라고 느낌. 레포에서 실제 앱이 돌아가는 걸 보니 상당히 인상적이었고, 오늘 밤 직접 빌드해서 사용해볼 생각에 기대감이 큼
- AI/ML 커뮤니티에 더 적극적으로 기여해서 HuggingFace에 가중치와 모델 구조도 올려줬으면 하는 바람임. 웃긴 게, 오늘 비슷한 VLM 데모로 무료 VLM을 사용하는 걸 봤음. 참고 링크임: https://github.com/ngxson/smolvlm-realtime-webcam
- SmolVLM은 huggingface 팀에서 나온 모델임. 이렇게 작은 모델로 이것저것 만드는 시도를 보는 게 신남. 관련 링크도 공유함: https://huggingface.co/blog/smolvlm, https://arxiv.org/abs/2504.05299
- Sen이라는 실시간 음성+비전 앱을 직접 만들고 있음. 현재 베타로 공개했고, webrtc로 프레임을 실시간 스트리밍함. 빠르고 스마트하다고 느끼고 있는데, 이런 모델들이 하드웨어와 더 가까워질수록 얼마나 좋아질지 궁금함. 미래에는 이런 모델들이 디바이스에서 자연스럽고 빠른 TTFB로 돌 수 있을 것 같음
- 기술 스택과 세팅을 정리한 글이 있으면 공유해줄 수 있는지, 아니면 요약으로 얘기해줘도 고마움. 아이들용으로 개인용 Qwen처럼 버튼과 음성으로 프롬프트 주고받는 걸 만들고 싶은데, 당장은 비전 기능까지 필요하진 않음(언젠가 추가된다면 멋질 것 같긴 함). Siri는 정말 실망스러움. 아직 원하는 수준까지 가진 못한 것 같음
- 자원을 무한정 투입하는 대신, 효율적으로 자원을 줄이고 모델을 작게 만들어 돌리는 노력이 진행 중이라는 점이 정말 신남
- 앞으로 로보틱스 분야의 미래가 VLA(비전-언어-action) 모델임을 점점 더 실감하게 됨. Tesla FSD도 엔드-투-엔드 VLA 모델이고, 효율적인 비전 인코딩이 로봇의 안전성과 반응성에 결정적일 것 같음
- 시신경이 심하게 손상된 어린 아이 아빠로서 언제 실명할지 모르는 상황이었는데, NIH 임상에서의 실험 치료로 시력을 어느 정도 유지하게 되었음(과학에 대한 지원이 계속되어야 한다고 생각함). Vision-Language Model 발전 덕분에, 만약 아이가 실명을 해도 세상과 소통하고, 대학도 다니고, 좋아하는 과학이나 공학 분야에서 활약할 수 있겠다는 희망을 가지게 되었음. 아이가 또래에 비해 재능도 뛰어나고 미래가 기대됨
- 80년대에 100% 시각장애인으로 성장했던 경험을 들려주고 싶음. 그때는 지금처럼 기술이 발전하지 않았고, 12살 무렵에야 컴퓨터가 등장해서 구형 타자기로 타자법을 익히고, 무거운 금속 점자기로 점자 쓰는 법을 배웠음. 그 시절 OCR 기술도 별로였고, 고등학교(이쪽 표현으론)가서야 점자 디스플레이가 달린 노트북으로 수업을 따라갔음. DOS를 썼고, Word 5.5로 필기를 했음. 라틴어 학습용 PC Lingua를 빼곤, 학습 특화 도구도 거의 없었음. 결국 전자식 노트와 내 머리가 전부였는데, 그래도 학교를 마쳤고 지금은 정말 만족스러운 직업도 있고, 내 집에 살고, 달콤한 여자친구와 함께하며 완전히 독립적으로 생활함. 오히려 자꾸 도와주려 했던 엄마를 일부러 떠나보내야 했음. 부모의 과보호가 자립을 가장 저해하는 요인이란 걸 장애인들끼리는 '부모 때문에 추가로 생긴 장애'라는 말로 표현함. 감정적으로 받아들이지 말고 그 의미를 꼭 생각해주길 바람. 아이는 18살에 충분히 독립할 수 있음. 억지로 그 시기를 늦출수록 진짜 독립이 어렵고, 내면의 힘을 키울 기회를 놓치게 됨. 지금 기술의 발전에 희망을 느끼는 너의 입장이 이해되지만, 자녀의 가능성이 네가 생각하는 것 이상이라 믿음. 자신이 가진 가능성을 찾게 해주면, 정말 놀랄 만한 일들이 생길 것임. 그리고 비싼 기기나 최신 도구에만 의존하지 않았으면 함. 나 역시 비전 모델을 정말 좋아하지만, 지금도 집을 나설 때는 지팡이와 폰만 챙김. Siri한테 '여기가 어디야'라고 물어보는 때가 가끔 있지만, 결국 길을 찾는 건 내 cane임. 실제로 대부분의 최신 기술은 과장이고, 평범한 청각과 촉각만으로도 훨씬 많은 걸 할 수 있다는 걸 강조하고 싶음. 네 가족과 아이의 앞으로의 성장에 진심으로 행운을 빔
- 이런 기술로 휴대폰 한 대와 안경에 달린 카메라만으로 시각장애인을 위한 실질적인 도우미가 만들 수 있을 거란 생각이 듦. 이전에는 도우미가 없으면 움직일 수 없던 분들도 일상에서 스스로 움직일 수 있는 자립적 삶이 가능해질 듯함
- 크림치킨과 크림버섯 수프를 구분하는 용도로는 유용할 수 있겠지만, 이동성과 관련해서는 기존에 시각장애인들이 사용하는 전략에 비해 딱히 도움이 될 것 같진 않음. "여기 나무 있음, 또 나무 있음, 보행자 있음, 또 나무 있음, 표지판 있음" 식의 피드백은 실제 이동에는 별로 도움이 되지 않는다는 생각임
- 이걸 llama.cpp에서 변환/실행해볼 수 있을까 궁금함. LLaVA 기반이라는 점이 꽤 기대감을 줌