# 로컬 LLM을 활용한 이미지의 alt-text 생성하기 비교

> Clean Markdown view of GeekNews topic #19735. Use the original source for factual precision when an external source URL is present.

## Metadata

- GeekNews HTML: [https://news.hada.io/topic?id=19735](https://news.hada.io/topic?id=19735)
- GeekNews Markdown: [https://news.hada.io/topic/19735.md](https://news.hada.io/topic/19735.md)
- Type: GN+
- Author: [xguru](https://news.hada.io/@xguru)
- Published: 2025-03-13T23:55:49+09:00
- Updated: 2025-03-13T23:55:49+09:00
- Original source: [dri.es](https://dri.es/comparing-local-llms-for-alt-text-generation)
- Points: 3
- Comments: 1

## Topic Body

- 블로그에 저장된 10,000장의 사진 중 약 9,000장에 `alt-text`가 없는 상태였음  
- 이를 위해 12개의 LLM(대형 언어 모델)을 테스트했으며, 이 중 10개는 로컬에서 실행, 2개는 클라우드 기반 모델(GPT-4, Claude 3.5 Sonnet)  
- `alt-text` 작성은 시각장애인을 위한 접근성을 높이는 중요한 작업이지만, 수작업으로 작성하기에는 부담이 큼  
- AI 모델이 `alt-text`를 생성하는 정확도를 테스트하고, 로컬 모델이 실용적인 대안이 될 수 있는지 확인하는 것이 목표  
  
### 테스트한 AI 모델  
- **로컬 모델 (10개)**  
  - 9개 모델은 MacBook Pro(32GB RAM)에서 실행  
  - 1개 모델은 친구의 고사양 장비에서 실행  
- **클라우드 모델 (2개)**  
  - GPT-4o(OpenAI)  
  - Claude 3.5 Sonnet(Anthropic)  
  
### 주요 성능 비교  
- **클라우드 모델(GPT-4o, Claude 3.5 Sonnet)**  
  - 가장 정확한 `alt`-텍스트를 생성함  
  - 세부 묘사가 뛰어나며, 이미지의 분위기까지 잘 포착함  
  - 평가 등급: **A**  
  
- **로컬 모델 중 우수한 성능을 보인 모델**  
  - **Llama 3.2 Vision 11B**  
    - 정확한 객체 인식 및 문맥 이해력 우수  
    - 평가 등급: **B**  
  - **Llama 3.2 Vision 90B**  
    - 11B 모델보다 약간 더 높은 정확도를 보였으나, 실행을 위해 더 많은 RAM이 필요  
    - 평가 등급: **B**  
  - **MiniCPM-V**  
    - 비교적 가벼운 모델임에도 불구하고 강력한 성능을 보임  
    - 평가 등급: **B**  
  
- **낮은 성능을 보인 모델**  
  - VIT-GPT2, GIT, BLIP 등 초기 모델들은 객체 인식이 부정확하고, 반복적인 문구를 생성하는 경향이 있음  
  - 평가 등급: **D~F**  
  
### AI 모델의 이미지 분석 방식  
- **비전 인코딩 (Vision Encoding)**  
  - 이미지를 작은 패치로 분할한 후, 이를 수치 데이터(임베딩)로 변환  
  - 주목할 부분(예: 주요 객체)을 필터링하고, 덜 중요한 요소(예: 단순 배경)를 제거  
- **언어 인코딩 (Language Encoding)**  
  - 비전 인코더가 제공한 정보를 기반으로 자연어 텍스트를 생성  
  - 이미지 설명을 작성하거나 질문에 답하는 방식으로 텍스트 생성  
  
### 테스트 이미지 및 결과  
- **시부야 교차로 (도쿄)**  
  - GPT-4o, Claude: "네온사인과 인파로 가득한 시부야 교차로" → **A등급**  
  - LLaVA 13B: "시부야 교차로에서 사람들이 건너는 장면" → **A등급**  
  - Llama 3.2 Vision 11B: "도쿄의 번화한 야경, 광고판과 인파" → **C등급**  
  - VIT-GPT2: "고층 빌딩과 신호등이 있는 도시 야경" → **F등급** (부정확)  
  
- **이사벨라 스튜어트 가드너 박물관 (보스턴)**  
  - Claude: "빅토리아풍 방, 샹들리에, 금박 액자" → **B등급**  
  - Llama 3.2 Vision 11B: "금박 액자와 장식적인 배경" → **A등급**  
  - BLIP-2 OPT: "벽에 걸린 그림과 액자가 있는 방" → **C등급**  
  - VIT-GPT2: "거울 앞에 촛불과 꽃병이 놓인 거실" → **F등급** (부정확)  
  
- **웨이크보딩 (미국 버몬트)**  
  - GPT-4o: "배 위의 두 명이 웨이크보더를 지켜보는 장면" → **A등급**  
  - Llama 3.2 Vision 90B: "배 위에서 웨이크보딩을 보는 두 사람" → **A등급**  
  - BLIP-2 FLAN: "배 위에서 누군가가 서핑을 보고 있음" → **C등급**  
  - VIT-GPT2: "서핑보드를 든 두 사람이 보트 위에 서 있음" → **E등급** (부정확)  
  
### 평가 결과  
- **클라우드 모델 (GPT-4o, Claude 3.5 Sonnet)**: **A등급**  
  - 가장 정확한 설명을 제공, 분위기까지 포착  
- **로컬 모델 중 상위권 (Llama 11B, Llama 90B, MiniCPM-V)**: **B등급**  
  - 정확도는 클라우드 모델에 비해 다소 부족하지만 실용 가능  
- **초기 모델 (VIT-GPT2, GIT, BLIP 등)**: **D~F등급**  
  - 반복적인 표현, 환각(hallucination) 발생  
  
### 향후 고려 사항  
#### `alt`-텍스트가 완벽하지 않다면, 없는 것보다 나을까?  
- `B`등급 수준의 `alt`-텍스트라도 없는 것보다는 나을 가능성이 있음  
- 다만, 부정확한 정보(예: 없는 객체 추가)는 시각장애인 사용자에게 혼란을 줄 수 있음  
  
### 다음 단계 옵션  
- **AI 출력을 결합하기**   
  - 여러 모델을 조합하여 가장 정확한 설명을 생성  
- **업그레이드를 기다리기**  
  - 현재 최선의 로컬 모델을 사용하고, 6~12개월 후 새로운 모델로 업데이트  
- **클라우드 모델 사용**  
  - 정확도를 위해 클라우드 기반 모델 사용, 그러나 비용과 데이터 프라이버시가 문제  
- **하이브리드 접근**  
  - AI 생성 `alt`-텍스트를 사람이 검토하여 보완 (9,000장에 적용하기에는 현실적으로 어려움)  
  
* 현재 가장 합리적인 선택은 **로컬 모델을 사용하면서, 향후 더 발전된 모델로 업데이트하는 방식**일 듯

## Comments


### Comment 35875

- Author: quilt8703
- Created: 2025-03-14T11:31:25+09:00
- Points: 1

저는 트위터 등에 포스팅 하는 이미지에 alt-text를 붙이는데, 이걸 AI로 옮기면 좀 제가 포스팅을 올리기 편해지지 않을까 생각한 적이 있습니다. LLM이 필요한지는 잘 모르겠고, CLIP과 같은 기술로 충분할 것 같았습니다.  
  
제가 그 작업을 하지 않았던 이유 중에 하나는, 그런 작업은 스크린 리더 쪽에 충분히 붙을 수 있는 기능이고, 저는 사람이 제공할 수 있는 맥락을 조금이라도 더하는 게 맞을 것 같아서였습니다. 물론 제일 큰 이유는 귀찮아서였지만요.