로컬 LLM을 활용한 이미지의 alt-text 생성하기 비교

(dri.es)

블로그에 저장된 10,000장의 사진 중 약 9,000장에 alt-text가 없는 상태였음
이를 위해 12개의 LLM(대형 언어 모델)을 테스트했으며, 이 중 10개는 로컬에서 실행, 2개는 클라우드 기반 모델(GPT-4, Claude 3.5 Sonnet)
alt-text 작성은 시각장애인을 위한 접근성을 높이는 중요한 작업이지만, 수작업으로 작성하기에는 부담이 큼
AI 모델이 alt-text를 생성하는 정확도를 테스트하고, 로컬 모델이 실용적인 대안이 될 수 있는지 확인하는 것이 목표

테스트한 AI 모델

클라우드 모델(GPT-4o, Claude 3.5 Sonnet)
- 가장 정확한 alt-텍스트를 생성함
- 세부 묘사가 뛰어나며, 이미지의 분위기까지 잘 포착함
- 평가 등급: A
로컬 모델 중 우수한 성능을 보인 모델
- Llama 3.2 Vision 11B
  - 정확한 객체 인식 및 문맥 이해력 우수
  - 평가 등급: B
- Llama 3.2 Vision 90B
  - 11B 모델보다 약간 더 높은 정확도를 보였으나, 실행을 위해 더 많은 RAM이 필요
  - 평가 등급: B
- MiniCPM-V
  - 비교적 가벼운 모델임에도 불구하고 강력한 성능을 보임
  - 평가 등급: B
낮은 성능을 보인 모델
- VIT-GPT2, GIT, BLIP 등 초기 모델들은 객체 인식이 부정확하고, 반복적인 문구를 생성하는 경향이 있음
- 평가 등급: D~F

비전 인코딩 (Vision Encoding)
- 이미지를 작은 패치로 분할한 후, 이를 수치 데이터(임베딩)로 변환
- 주목할 부분(예: 주요 객체)을 필터링하고, 덜 중요한 요소(예: 단순 배경)를 제거
언어 인코딩 (Language Encoding)
- 비전 인코더가 제공한 정보를 기반으로 자연어 텍스트를 생성
- 이미지 설명을 작성하거나 질문에 답하는 방식으로 텍스트 생성

시부야 교차로 (도쿄)
- GPT-4o, Claude: "네온사인과 인파로 가득한 시부야 교차로" → A등급
- LLaVA 13B: "시부야 교차로에서 사람들이 건너는 장면" → A등급
- Llama 3.2 Vision 11B: "도쿄의 번화한 야경, 광고판과 인파" → C등급
- VIT-GPT2: "고층 빌딩과 신호등이 있는 도시 야경" → F등급 (부정확)
이사벨라 스튜어트 가드너 박물관 (보스턴)
- Claude: "빅토리아풍 방, 샹들리에, 금박 액자" → B등급
- Llama 3.2 Vision 11B: "금박 액자와 장식적인 배경" → A등급
- BLIP-2 OPT: "벽에 걸린 그림과 액자가 있는 방" → C등급
- VIT-GPT2: "거울 앞에 촛불과 꽃병이 놓인 거실" → F등급 (부정확)
웨이크보딩 (미국 버몬트)
- GPT-4o: "배 위의 두 명이 웨이크보더를 지켜보는 장면" → A등급
- Llama 3.2 Vision 90B: "배 위에서 웨이크보딩을 보는 두 사람" → A등급
- BLIP-2 FLAN: "배 위에서 누군가가 서핑을 보고 있음" → C등급
- VIT-GPT2: "서핑보드를 든 두 사람이 보트 위에 서 있음" → E등급 (부정확)

클라우드 모델 (GPT-4o, Claude 3.5 Sonnet): A등급
- 가장 정확한 설명을 제공, 분위기까지 포착
로컬 모델 중 상위권 (Llama 11B, Llama 90B, MiniCPM-V): B등급
- 정확도는 클라우드 모델에 비해 다소 부족하지만 실용 가능
초기 모델 (VIT-GPT2, GIT, BLIP 등): D~F등급
- 반복적인 표현, 환각(hallucination) 발생

저는 트위터 등에 포스팅 하는 이미지에 alt-text를 붙이는데, 이걸 AI로 옮기면 좀 제가 포스팅을 올리기 편해지지 않을까 생각한 적이 있습니다. LLM이 필요한지는 잘 모르겠고, CLIP과 같은 기술로 충분할 것 같았습니다.

제가 그 작업을 하지 않았던 이유 중에 하나는, 그런 작업은 스크린 리더 쪽에 충분히 붙을 수 있는 기능이고, 저는 사람이 제공할 수 있는 맥락을 조금이라도 더하는 게 맞을 것 같아서였습니다. 물론 제일 큰 이유는 귀찮아서였지만요.