로컬 LLM을 활용한 이미지의 alt-text 생성하기 비교
(dri.es)- 블로그에 저장된 10,000장의 사진 중 약 9,000장에
alt-text
가 없는 상태였음 - 이를 위해 12개의 LLM(대형 언어 모델)을 테스트했으며, 이 중 10개는 로컬에서 실행, 2개는 클라우드 기반 모델(GPT-4, Claude 3.5 Sonnet)
-
alt-text
작성은 시각장애인을 위한 접근성을 높이는 중요한 작업이지만, 수작업으로 작성하기에는 부담이 큼 - AI 모델이
alt-text
를 생성하는 정확도를 테스트하고, 로컬 모델이 실용적인 대안이 될 수 있는지 확인하는 것이 목표
테스트한 AI 모델
-
로컬 모델 (10개)
- 9개 모델은 MacBook Pro(32GB RAM)에서 실행
- 1개 모델은 친구의 고사양 장비에서 실행
-
클라우드 모델 (2개)
- GPT-4o(OpenAI)
- Claude 3.5 Sonnet(Anthropic)
주요 성능 비교
-
클라우드 모델(GPT-4o, Claude 3.5 Sonnet)
- 가장 정확한
alt
-텍스트를 생성함 - 세부 묘사가 뛰어나며, 이미지의 분위기까지 잘 포착함
- 평가 등급: A
- 가장 정확한
-
로컬 모델 중 우수한 성능을 보인 모델
-
Llama 3.2 Vision 11B
- 정확한 객체 인식 및 문맥 이해력 우수
- 평가 등급: B
-
Llama 3.2 Vision 90B
- 11B 모델보다 약간 더 높은 정확도를 보였으나, 실행을 위해 더 많은 RAM이 필요
- 평가 등급: B
-
MiniCPM-V
- 비교적 가벼운 모델임에도 불구하고 강력한 성능을 보임
- 평가 등급: B
-
Llama 3.2 Vision 11B
-
낮은 성능을 보인 모델
- VIT-GPT2, GIT, BLIP 등 초기 모델들은 객체 인식이 부정확하고, 반복적인 문구를 생성하는 경향이 있음
- 평가 등급: D~F
AI 모델의 이미지 분석 방식
-
비전 인코딩 (Vision Encoding)
- 이미지를 작은 패치로 분할한 후, 이를 수치 데이터(임베딩)로 변환
- 주목할 부분(예: 주요 객체)을 필터링하고, 덜 중요한 요소(예: 단순 배경)를 제거
-
언어 인코딩 (Language Encoding)
- 비전 인코더가 제공한 정보를 기반으로 자연어 텍스트를 생성
- 이미지 설명을 작성하거나 질문에 답하는 방식으로 텍스트 생성
테스트 이미지 및 결과
-
시부야 교차로 (도쿄)
- GPT-4o, Claude: "네온사인과 인파로 가득한 시부야 교차로" → A등급
- LLaVA 13B: "시부야 교차로에서 사람들이 건너는 장면" → A등급
- Llama 3.2 Vision 11B: "도쿄의 번화한 야경, 광고판과 인파" → C등급
- VIT-GPT2: "고층 빌딩과 신호등이 있는 도시 야경" → F등급 (부정확)
-
이사벨라 스튜어트 가드너 박물관 (보스턴)
- Claude: "빅토리아풍 방, 샹들리에, 금박 액자" → B등급
- Llama 3.2 Vision 11B: "금박 액자와 장식적인 배경" → A등급
- BLIP-2 OPT: "벽에 걸린 그림과 액자가 있는 방" → C등급
- VIT-GPT2: "거울 앞에 촛불과 꽃병이 놓인 거실" → F등급 (부정확)
-
웨이크보딩 (미국 버몬트)
- GPT-4o: "배 위의 두 명이 웨이크보더를 지켜보는 장면" → A등급
- Llama 3.2 Vision 90B: "배 위에서 웨이크보딩을 보는 두 사람" → A등급
- BLIP-2 FLAN: "배 위에서 누군가가 서핑을 보고 있음" → C등급
- VIT-GPT2: "서핑보드를 든 두 사람이 보트 위에 서 있음" → E등급 (부정확)
평가 결과
-
클라우드 모델 (GPT-4o, Claude 3.5 Sonnet): A등급
- 가장 정확한 설명을 제공, 분위기까지 포착
-
로컬 모델 중 상위권 (Llama 11B, Llama 90B, MiniCPM-V): B등급
- 정확도는 클라우드 모델에 비해 다소 부족하지만 실용 가능
-
초기 모델 (VIT-GPT2, GIT, BLIP 등): D~F등급
- 반복적인 표현, 환각(hallucination) 발생
향후 고려 사항
alt
-텍스트가 완벽하지 않다면, 없는 것보다 나을까?
-
B
등급 수준의alt
-텍스트라도 없는 것보다는 나을 가능성이 있음 - 다만, 부정확한 정보(예: 없는 객체 추가)는 시각장애인 사용자에게 혼란을 줄 수 있음
다음 단계 옵션
-
AI 출력을 결합하기
- 여러 모델을 조합하여 가장 정확한 설명을 생성
-
업그레이드를 기다리기
- 현재 최선의 로컬 모델을 사용하고, 6~12개월 후 새로운 모델로 업데이트
-
클라우드 모델 사용
- 정확도를 위해 클라우드 기반 모델 사용, 그러나 비용과 데이터 프라이버시가 문제
-
하이브리드 접근
- AI 생성
alt
-텍스트를 사람이 검토하여 보완 (9,000장에 적용하기에는 현실적으로 어려움)
- AI 생성
- 현재 가장 합리적인 선택은 로컬 모델을 사용하면서, 향후 더 발전된 모델로 업데이트하는 방식일 듯