# PDF 논문 RAG, 텍스트만으로 충분할까? - Gemini embedding 002 임베딩 검색 실험

> Clean Markdown view of GeekNews topic #28037. Use the original source for factual precision when an external source URL is present.

## Metadata

- GeekNews HTML: [https://news.hada.io/topic?id=28037](https://news.hada.io/topic?id=28037)
- GeekNews Markdown: [https://news.hada.io/topic/28037.md](https://news.hada.io/topic/28037.md)
- Type: news
- Author: [230kimi](https://news.hada.io/@230kimi)
- Published: 2026-03-31T12:07:24+09:00
- Updated: 2026-03-31T12:07:24+09:00
- Original source: [brunch.co.kr/@230kimi](https://brunch.co.kr/@230kimi/76)
- Points: 5
- Comments: 2

## Summary

PDF 논문을 **텍스트 임베딩만으로 처리하는 RAG 파이프라인**의 한계를 실험적으로 짚은 결과입니다. 연구 논문처럼 **시각 정보가 핵심인 도메인**에서는 텍스트 벡터만으로는 문맥 구분이 어렵다는 점이 드러납니다. 특히 이미지 인덱스가 더 높은 검색 성능을 보였다는 점은, 개발자 입장에서 **임베딩 전략을 문서 유형별로 분기**해야 함을 시사합니다. 결국 RAG의 “텍스트 추출 → 벡터화” 기본 흐름은, 코드 주석만으로 프로젝트 구조를 이해하려는 시도와 비슷한 한계를 가집니다.

## Topic Body

Gemini embedding-2-preview(네이티브 멀티모달 임베딩)로 학술 논문 PDF의 텍스트 임베딩과 이미지 임베딩을 비교 실험한 결과 정리.  
  
	∙	같은 페이지의 텍스트↔이미지 코사인 유사도 평균 0.642. SEM 사진, 그래프 곡선, 공간 배치 등 약 36%의 시각 정보가 텍스트 임베딩에 반영되지 않음  
	∙	18개 텍스트 쿼리로 검색 시, 이미지 인덱스(MRR 0.719)가 텍스트 인덱스(0.631)보다 우수. 핵심 용어가 여러 페이지에 반복되는 논문 특성상, 오히려 이미지가 페이지 구분력이 높았음  
	∙	텍스트+이미지를 합친 Multi 임베딩(MRR 0.650)은 이미지 단독보다 낮음. 두 모달리티의 특징이 희석되는 효과  
	∙	같은 문서 내 크로스모달 검색(텍스트→이미지)은 Hit@5 0%로 실패. 페이지 간 텍스트 유사도가 동일 페이지의 텍스트↔이미지 유사도보다 높기 때문  
Figure가 많은 문서에서는 이미지 인덱싱이 유리하며, “일단 텍스트 뽑고 벡터화”라는 RAG 기본값을 재고할 필요가 있다는 결론.

## Comments


### Comment 54209

- Author: mammal
- Created: 2026-03-31T15:35:20+09:00
- Points: 1

ColPali와 비교해서는 어떤가요?

### Comment 54226

- Author: 230kimi
- Created: 2026-03-31T18:54:39+09:00
- Points: 1
- Parent comment: 54209
- Depth: 1

영문은 colpali가 확실히 더 좋은것 같습니다. 다만 한국어나 비영어권에서 정확도가 확 내려가더라구요 ㅠㅠ