LLaVaVision - llama.cpp/llava로 만든 "Be My Eyes" 웹앱
(github.com/lxe)- 시각장애인을 위해 자원봉사자와 연결해서 화면을 읽어주는 "Be My Eyes" 서비스를 AI로 비슷하게 구현
- 멀티모달 백엔드를 통해서 영상을 보고 어떤 것인지 실시간으로 설명해주는 웹앱
- 오픈소스 멀티모달 모델인 SkunkworksAI의 BakLLaVA-1 모델을 llama.cpp 로 실행하며 음성은 Web Speech API로 출력
유튜버 원샷한솔이 사용한 '설리번 플러스'라는 앱도 있습니다.
텍스트 인식 뿐 아니라 사물의 특징까지 파악되는거 같더라고요
https://youtu.be/EAKGU-uW6Ek
https://www.mysullivan.org/