애플의 FastVLM - 비전 언어 모델을 위한 효율적인 비전 인코딩

(github.com/apple)

15P by GN⁺ 2달전 | ★ favorite | 댓글 1개

애플이 CVPR 2025에 발표한 "FastVLM: Efficient Vision Encoding for Vision Language Models"의 공식 Repo
FastViTHD는 토큰 수 감소와 고해상도 이미지의 인코딩 시간 단축 성능을 보임
가장 작은 모델은 LLaVA-OneVision-0.5B보다 85배 빠른 결과와 3.4배 작은 인코더 크기를 달성함
대형 모델은 Cambrian-1-8B보다 탁월한 성능과 7.9배 빠른 속도를 보임
iPhone 등 모바일 기기에서 동작하는 데모 앱이 제공됨

FastVLM 프로젝트의 의의와 장점

FastVLM은 비전 언어 모델(Vision Language Model, VLM)을 위한 공식 구현 오픈소스임
기존 비전 인코더 대비 속도와 효율성 면에서 탁월한 이점을 제공함
여러 하드웨어, 특히 Apple Silicon 및 모바일 환경에서 활용도가 높음
다양한 크기 및 성능의 프리트레인 모델을 직접 선택해 사용할 수 있음
타 프로젝트 대비 작은 모델 사이즈로 최적화된 실시간 응답과 적은 하드웨어 자원을 보장함

주요 특징

FastViTHD는 하이브리드 구조의 혁신적인 비전 인코더로, 출력 토큰 개수를 줄여 고해상도 이미지 인코딩 시간을 크게 단축함
가장 작은 FastVLM-0.5B 모델은 LLaVA-OneVision-0.5B보다 85배 빠른 TTFT(최초 토큰 생성 시간) 및 3.4배 작은 인코더 크기를 가짐
Qwen2-7B LLM과 결합된 대형 FastVLM-7B 모델은 Cambrian-1-8B 등 최근 SOTA와 비교 시 7.9배 빠른 TTFT에 단일 이미지 인코더로 우수한 성능을 보임
실제 모바일 환경(iOS)에서 동작하는 데모 앱까지 함께 제공되어 기술 활용도를 즉시 검증 가능함

모델 정보 (Model Zoo)

다양한 크기의 FastVLM 모델(FastVLM-0.5B, FastVLM-1.5B, FastVLM-7B)이 2단계와 3단계 버전으로 제공됨
각 모델별로 PyTorch 체크포인트 파일을 공식적으로 제공함
사용자는 공식 제공되는 명령어를 활용해 여러 모델을 checkpoints 디렉터리에 일괄 다운로드할 수 있음

활용 예시 (Usage Example)

이미 훈련된 PyTorch 체크포인트를 predict.py 스크립트로 쉽고 빠르게 추론 테스트 가능함
예시 커맨드를 통해 이미지를 입력하고 프롬프트(질문)를 던지면, 해당 이미지에 대한 묘사 혹은 질문의 답을 얻을 수 있음

Apple Silicon 및 모바일 기기 지원

Apple Silicon에서의 추론을 위해 별도의 모델 내보내기 및 양자화 과정을 설명하는 가이드가 제공됨
Apple Silicon에 직접 최적화된 버전의 체크포인트 파일이 공식적으로 배포됨
iPhone, iPad, Mac 등에서 바로 사용할 수 있는 앱 개발 가이드 및 소스 코드가 /app 폴더에 안내됨

추가 정보 및 오픈소스 안내

FastVLM 논문의 공식 arXiv 링크와 CVPR 2025 학회 논문 인용 양식 제공됨
코드베이스는 다양한 오픈소스 프로젝트에 기반하고 있으며, 기여 내역과 라이선스 정보가 별도 안내되어 있음
모델 및 코드 활용 전 반드시 라이선스(라이선스 파일 및 모델 라이선스) 를 확인해야 함

▲

GN⁺ 2달전 [-]

Hacker News 의견

2GB 용량의 0.5B 최상위 모델, 각 앱이 이걸 따로 다운로드하게 하는 건 말이 안 된다는 생각임. Apple이 분명히 OS 수준에서 이 모델들을 미리 올려두고, 모든 앱에서 이 모델들을 로컬로 호출할 수 있게 SDK를 제공할 계획이 있을 것 같음. 정말 기대되는 시기임. 이 부분을 확인하려고 이슈도 열어봤음
- 공개 가중치에 기반한 OS 표준화 파운데이션 모델이 있다면 엄청난 가능성이 있다고 생각함. 만약 API가 앱 개발자가 런타임에 맞춤형 LoRa 파인튜닝을 OS 표준 모델에 로드할 수 있게 해준다면, 이상적으로는 앱 특화 모델이면서도 인기 앱 사이즈를 유지할 수 있는 이점과 파운데이션 모델의 이점을 동시에 누릴 수 있을 것 같음
- f16이나 심지어 int8로 양자화하면 모델 크기를 더 작게 만들 수도 있겠지만, 너가 한 말이 핵심임. 사용자 입장에서도 앱 하나에 500MB 파일을 받는 건 달갑지 않은 경험임
- 작년 WWDC에서 LLM과 관련해서도 비슷한 얘기를 했던 기억이 있음. OS가 기본 모델을 제공하고, 각 앱이 LORAs로 그 모델을 미세 조정하거나 커스텀 헤드를 올릴 수 있게 한다는 내용이었음
- 이 부분은 큰 프리젠테이션이 아니면 공개적으로 언급하지 않을 것 같음. 아마 WWDC 같은 자리에서야 확인할 수 있을 거라는 추측임
time-to-first-token 속도를 충분히 끌어올리는 게 on-device continuous vision 기반 어시스턴트처럼 화면을 보고 바로 액션하는 앱에 필수적이라고 느낌. 레포에서 실제 앱이 돌아가는 걸 보니 상당히 인상적이었고, 오늘 밤 직접 빌드해서 사용해볼 생각에 기대감이 큼
AI/ML 커뮤니티에 더 적극적으로 기여해서 HuggingFace에 가중치와 모델 구조도 올려줬으면 하는 바람임. 웃긴 게, 오늘 비슷한 VLM 데모로 무료 VLM을 사용하는 걸 봤음. 참고 링크임: https://github.com/ngxson/smolvlm-realtime-webcam
- SmolVLM은 huggingface 팀에서 나온 모델임. 이렇게 작은 모델로 이것저것 만드는 시도를 보는 게 신남. 관련 링크도 공유함: https://huggingface.co/blog/smolvlm, https://arxiv.org/abs/2504.05299
Sen이라는 실시간 음성+비전 앱을 직접 만들고 있음. 현재 베타로 공개했고, webrtc로 프레임을 실시간 스트리밍함. 빠르고 스마트하다고 느끼고 있는데, 이런 모델들이 하드웨어와 더 가까워질수록 얼마나 좋아질지 궁금함. 미래에는 이런 모델들이 디바이스에서 자연스럽고 빠른 TTFB로 돌 수 있을 것 같음
- 기술 스택과 세팅을 정리한 글이 있으면 공유해줄 수 있는지, 아니면 요약으로 얘기해줘도 고마움. 아이들용으로 개인용 Qwen처럼 버튼과 음성으로 프롬프트 주고받는 걸 만들고 싶은데, 당장은 비전 기능까지 필요하진 않음(언젠가 추가된다면 멋질 것 같긴 함). Siri는 정말 실망스러움. 아직 원하는 수준까지 가진 못한 것 같음
자원을 무한정 투입하는 대신, 효율적으로 자원을 줄이고 모델을 작게 만들어 돌리는 노력이 진행 중이라는 점이 정말 신남
앞으로 로보틱스 분야의 미래가 VLA(비전-언어-action) 모델임을 점점 더 실감하게 됨. Tesla FSD도 엔드-투-엔드 VLA 모델이고, 효율적인 비전 인코딩이 로봇의 안전성과 반응성에 결정적일 것 같음
시신경이 심하게 손상된 어린 아이 아빠로서 언제 실명할지 모르는 상황이었는데, NIH 임상에서의 실험 치료로 시력을 어느 정도 유지하게 되었음(과학에 대한 지원이 계속되어야 한다고 생각함). Vision-Language Model 발전 덕분에, 만약 아이가 실명을 해도 세상과 소통하고, 대학도 다니고, 좋아하는 과학이나 공학 분야에서 활약할 수 있겠다는 희망을 가지게 되었음. 아이가 또래에 비해 재능도 뛰어나고 미래가 기대됨
- 80년대에 100% 시각장애인으로 성장했던 경험을 들려주고 싶음. 그때는 지금처럼 기술이 발전하지 않았고, 12살 무렵에야 컴퓨터가 등장해서 구형 타자기로 타자법을 익히고, 무거운 금속 점자기로 점자 쓰는 법을 배웠음. 그 시절 OCR 기술도 별로였고, 고등학교(이쪽 표현으론)가서야 점자 디스플레이가 달린 노트북으로 수업을 따라갔음. DOS를 썼고, Word 5.5로 필기를 했음. 라틴어 학습용 PC Lingua를 빼곤, 학습 특화 도구도 거의 없었음. 결국 전자식 노트와 내 머리가 전부였는데, 그래도 학교를 마쳤고 지금은 정말 만족스러운 직업도 있고, 내 집에 살고, 달콤한 여자친구와 함께하며 완전히 독립적으로 생활함. 오히려 자꾸 도와주려 했던 엄마를 일부러 떠나보내야 했음. 부모의 과보호가 자립을 가장 저해하는 요인이란 걸 장애인들끼리는 '부모 때문에 추가로 생긴 장애'라는 말로 표현함. 감정적으로 받아들이지 말고 그 의미를 꼭 생각해주길 바람. 아이는 18살에 충분히 독립할 수 있음. 억지로 그 시기를 늦출수록 진짜 독립이 어렵고, 내면의 힘을 키울 기회를 놓치게 됨. 지금 기술의 발전에 희망을 느끼는 너의 입장이 이해되지만, 자녀의 가능성이 네가 생각하는 것 이상이라 믿음. 자신이 가진 가능성을 찾게 해주면, 정말 놀랄 만한 일들이 생길 것임. 그리고 비싼 기기나 최신 도구에만 의존하지 않았으면 함. 나 역시 비전 모델을 정말 좋아하지만, 지금도 집을 나설 때는 지팡이와 폰만 챙김. Siri한테 '여기가 어디야'라고 물어보는 때가 가끔 있지만, 결국 길을 찾는 건 내 cane임. 실제로 대부분의 최신 기술은 과장이고, 평범한 청각과 촉각만으로도 훨씬 많은 걸 할 수 있다는 걸 강조하고 싶음. 네 가족과 아이의 앞으로의 성장에 진심으로 행운을 빔
이런 기술로 휴대폰 한 대와 안경에 달린 카메라만으로 시각장애인을 위한 실질적인 도우미가 만들 수 있을 거란 생각이 듦. 이전에는 도우미가 없으면 움직일 수 없던 분들도 일상에서 스스로 움직일 수 있는 자립적 삶이 가능해질 듯함
- 크림치킨과 크림버섯 수프를 구분하는 용도로는 유용할 수 있겠지만, 이동성과 관련해서는 기존에 시각장애인들이 사용하는 전략에 비해 딱히 도움이 될 것 같진 않음. "여기 나무 있음, 또 나무 있음, 보행자 있음, 또 나무 있음, 표지판 있음" 식의 피드백은 실제 이동에는 별로 도움이 되지 않는다는 생각임
이걸 llama.cpp에서 변환/실행해볼 수 있을까 궁금함. LLaVA 기반이라는 점이 꽤 기대감을 줌

답변달기