# DeepSeek OCR

> Clean Markdown view of GeekNews topic #23786. Use the original source for factual precision when an external source URL is present.

## Metadata

- GeekNews HTML: [https://news.hada.io/topic?id=23786](https://news.hada.io/topic?id=23786)
- GeekNews Markdown: [https://news.hada.io/topic/23786.md](https://news.hada.io/topic/23786.md)
- Type: news
- Author: [clumsypupil](https://news.hada.io/@clumsypupil)
- Published: 2025-10-20T23:58:14+09:00
- Updated: 2025-10-20T23:58:14+09:00
- Original source: [github.com/deepseek-ai](https://github.com/deepseek-ai/DeepSeek-OCR)
- Points: 25
- Comments: 3

## Summary

**DeepSeek OCR**은 문서나 대화 기록을 **이미지 형태로 변환해 LLM 컨텍스트를 7~20배 압축**하고, 다시 텍스트로 복원하는 **광학적 컨텍스트 압축(OCR-based compression)** 방식을 제안합니다. 핵심 구성인 **DeepEncoder**는 윈도우 어텐션과 16× 컨볼루션 압축, 글로벌 어텐션을 결합해 적은 시각 토큰으로도 높은 정밀도를 유지합니다. 실험 결과 약 **10× 압축에서도 96% 수준의 복원 정확도**를 보여, 초장문 입력의 비용 문제를 근본적으로 줄일 가능성을 입증했습니다. 또한 차트·화학식·기하도형 등 다양한 구조적 데이터를 파싱하며, **토큰 효율 기반의 메모리 관리 전략**을 제시해 장기 문맥 처리의 새로운 방향을 제안합니다.

## Topic Body

한 줄 요약  
  
문서/대화 기록을 이미지(시각 토큰) 로 바꿔서 LLM 컨텍스트를 크게 줄이고(≈7–20×), 다시 텍스트로 정확히 복원(OCR)하는 광학적 컨텍스트 압축을 제안·검증. 새 비전 인코더(DeepEncoder)와 3B MoE 디코더를 결합해 적은 비전 토큰으로도 SOTA급 문서 파싱 성능을 보입니다.  
  
문제 정의  
	•	LLM은 길이가 길어질수록 Quadratic 비용이 커집니다.  
	•	문서 텍스트를 이미지로 렌더링하면 시각 토큰 수가 텍스트 토큰보다 훨씬 적음 → 이미지→텍스트 복원을 잘하면 고효율 압축 가능.  
	•	OCR은 시각↔텍스트 간 자연스러운 압축/복원 매핑과 정량 평가가 가능해 좋은 실험 요소  
  
방법 개요  
  
아키텍처: DeepEncoder(인코더) + DeepSeek-3B-MoE-A570M(디코더)  
	•	DeepEncoder (핵심)  
	•	두 단계로 구성:  
	1.	윈도우 어텐션 기반 시각 지각 블록(SAM-base 계열, ~80M) → 고해상도에서도 활성 메모리 낮음  
	2.	16× 컨볼루션 압축기로 토큰 수 대폭 감소 후,  
	3.	글로벌 어텐션 기반 시각 지식 블록(CLIP-large, 첫 Patch 임베딩 제거)  
	•	멀티 해상도 지원(모드): Tiny(64토큰, 512²), Small(100, 640²), Base(256, 1024²), Large(400,1280²) +  
Gundam(n개의 640² 타일 + 1024² 글로벌 뷰 → 토큰 = n×100+256),  
Gundam-M(1024² 타일 + 1280² 글로벌)  
	•	유효 토큰(valid) 개념: 패딩으로 생기는 공백을 제외해 실질 토큰만 산정(식으로 정의).  
	•	MoE 디코더: DeepSeek-3B-MoE(12층)를 사용해 인코더가 만든 압축된 시각 토큰 → 원문 텍스트를 복원.  
  
데이터 엔진 & 학습  
	•	OCR 1.0(전통 OCR):  
	•	인터넷 PDF 3천만 페이지(약 100개 언어):  
	•	Coarse: fitz로 추출(광학 텍스트 인식 학습용)  
	•	Fine: 중영 각 200만 페이지를 고급 레이아웃/OCR로 정교 라벨링(박스+텍스트 인터리브), 추가로 Word 문서 300만 페이지  
	•	자연 장면 OCR: 중국어/영어 각 1천만 샘플(PaddleOCR 라벨)  
	•	OCR 2.0(복합 인공 이미지 파싱):  
	•	차트(pyecharts/matplotlib) 1천만 이미지 → HTML 표로 라벨  
	•	화학식: PubChem SMILES로부터 RDKit 렌더링 500만  
	•	평면기하: Slow Perception 방식 데이터 생성(선분 사전 등)  
	•	일반 비전: LAION 샘플 1억으로 인코더 사전학습에 혼합  
	•	학습 인프라: 20노드(각 8×A100-40G), 파이프라인 병렬 4단(인코더 2, 디코더 2), DP=40, 글로벌 배치 640.  
	•	텍스트 전용 90B tok/day, 멀티모달 70B tok/day  
	•	프로덕션 데이터 생성량: 20노드로 하루 3,300만 페이지 생성 가능  
  
실험 결과  
  
1) 컨텍스트 광학 압축(Compression) 연구 — Fox 벤치(영문 100페이지, 600–1300 토큰)  
	•	Small(100 비전 토큰) 기준 정밀도 & 압축비(텍스트 토큰/비전 토큰):  
	•	600–700: 98.5%, 6.7×  
	•	700–800: 97.3%, 7.5×  
	•	800–900: 96.8%, 8.5×  
	•	900–1000: 96.8%, 9.7×  
	•	1000–1100: 91.5%, 10.6×  
	•	1100–1200: 89.8%, 11.3×  
	•	1200–1300: 87.1%, 12.6×  
  
	•	요약: 9–10× 압축에서 96%+ 정밀도, 10–12×에서 ≈90%, 20× 부근에서 ≈60%.  
→ 10× 내외는 준-무손실에 근접, 그 이상은 레이아웃 복잡도/저해상도 블러 영향으로 점진적으로 저하.  
  
2) 실전 문서 파싱(OmniDocBench) — 편집거리(낮을수록 좋음)  
	•	100 토큰(640²) 만으로 GOT-OCR2.0(256 토큰) 상회  
	•	400 토큰(1280²) 에서 최신 SOTA와 동급  
	•	Gundam(<800 토큰) 모드로 MinerU-2.0(≈6,790 토큰) 초과 성능  
→ 토큰 효율이 매우 우수(적은 시각 토큰으로 동급/상회 성능).  
  
3) 정성 결과(기능)  
	•	Deep parsing:  
	•	차트 → HTML 표,  
	•	화학식 → SMILES,  
	•	기하도형 → 사전 구조(선분/좌표/유형 등)  
	•	자연 이미지도 기본 질의응답 가능  
	•	다국어: 약 100개 언어 PDF 인식(레이아웃/비레이아웃 출력을 프롬프트로 제어)  
  
의미  
	•	LLM 초장문 컨텍스트 비용 문제에 대해, 시각 토큰 경유 압축이 유력한 해법임을 실증.  
	•	최근 대화/문맥은 고해상도, 오래된 히스토리는 점진 다운사이징(압축률↑) 하는 기억 감쇠(memory decay) 전략 제안 → 사람의 망각 곡선과 유사한 자원 배분.  
	•	토큰 예산 최적화: 태스크/문서 유형별 필요 토큰량 가이드라인 제공(신문 등 초고밀도는 Gundam/M 모드 권장).  
  
한계 & 향후 과제  
	•	현재는 OCR 기반 PoC에 가깝고, 진정한 디지털↔광학↔디지털 파이프라인의 손실 분석은 추가 연구 필요.  
	•	10× 초과 구간에서 성능 급락 원인(복잡 레이아웃, 저해상도 블러) 개선 과제.  
	•	포맷/벤치마크 정합성 이슈(예: Fox 평가 포맷 차이로 실제 성능 저평가 가능).  
  
키 포인트 정리  
	•	DeepEncoder: 윈도우 어텐션(저활성) → 16× 컨브 압축 → 글로벌 어텐션(CLIP)  
	•	멀티 해상도 + 타일+글로벌(Gundam) 로 메모리/토큰 절약과 성능 균형  
	•	≈10× 압축에서 ~96% 복원 정밀도 확보 → 컨텍스트 비용 급감 실마리  
	•	OmniDocBench: 100–800 시각 토큰 수준에서 SOTA에 근접/상회  
	•	차트/화학/기하/다국어까지 아우르는 실용성

## Comments


### Comment 45248

- Author: m00nlygreat
- Created: 2025-10-21T23:28:44+09:00
- Points: 1

와 놀랍네요 ㅋㅋㅋ 근데 어차피 복원하면 그 토큰 그대로인거 아닌가? 보관상태의 토큰만 아낄 수 있는 거 아녀요? 멍청이라 잘 모르겠는데 ㅜ.ㅜ 이해되게 설명 좀 해주실 분

### Comment 45224

- Author: luminance
- Created: 2025-10-21T11:00:57+09:00
- Points: 1

DeepSeek 아이디어가 참 좋네요.

### Comment 45207

- Author: xguru
- Created: 2025-10-21T09:33:43+09:00
- Points: 1

[DeepSeek OCR - 시각적 맥락 압축을 통한 초고효율 OCR 모델](https://news.hada.io/topic?id=23794)  
GN+가 요약한 버전과 해커뉴스 댓글도 함께 참고하세요.