한 줄 요약

문서/대화 기록을 이미지(시각 토큰) 로 바꿔서 LLM 컨텍스트를 크게 줄이고(≈7–20×), 다시 텍스트로 정확히 복원(OCR)하는 광학적 컨텍스트 압축을 제안·검증. 새 비전 인코더(DeepEncoder)와 3B MoE 디코더를 결합해 적은 비전 토큰으로도 SOTA급 문서 파싱 성능을 보입니다.

문제 정의
• LLM은 길이가 길어질수록 Quadratic 비용이 커집니다.
• 문서 텍스트를 이미지로 렌더링하면 시각 토큰 수가 텍스트 토큰보다 훨씬 적음 → 이미지→텍스트 복원을 잘하면 고효율 압축 가능.
• OCR은 시각↔텍스트 간 자연스러운 압축/복원 매핑과 정량 평가가 가능해 좋은 실험 요소

방법 개요

아키텍처: DeepEncoder(인코더) + DeepSeek-3B-MoE-A570M(디코더)
• DeepEncoder (핵심)
• 두 단계로 구성:
1. 윈도우 어텐션 기반 시각 지각 블록(SAM-base 계열, ~80M) → 고해상도에서도 활성 메모리 낮음
2. 16× 컨볼루션 압축기로 토큰 수 대폭 감소 후,
3. 글로벌 어텐션 기반 시각 지식 블록(CLIP-large, 첫 Patch 임베딩 제거)
• 멀티 해상도 지원(모드): Tiny(64토큰, 512²), Small(100, 640²), Base(256, 1024²), Large(400,1280²) +
Gundam(n개의 640² 타일 + 1024² 글로벌 뷰 → 토큰 = n×100+256),
Gundam-M(1024² 타일 + 1280² 글로벌)
• 유효 토큰(valid) 개념: 패딩으로 생기는 공백을 제외해 실질 토큰만 산정(식으로 정의).
• MoE 디코더: DeepSeek-3B-MoE(12층)를 사용해 인코더가 만든 압축된 시각 토큰 → 원문 텍스트를 복원.

데이터 엔진 & 학습
• OCR 1.0(전통 OCR):
• 인터넷 PDF 3천만 페이지(약 100개 언어):
• Coarse: fitz로 추출(광학 텍스트 인식 학습용)
• Fine: 중영 각 200만 페이지를 고급 레이아웃/OCR로 정교 라벨링(박스+텍스트 인터리브), 추가로 Word 문서 300만 페이지
• 자연 장면 OCR: 중국어/영어 각 1천만 샘플(PaddleOCR 라벨)
• OCR 2.0(복합 인공 이미지 파싱):
• 차트(pyecharts/matplotlib) 1천만 이미지 → HTML 표로 라벨
• 화학식: PubChem SMILES로부터 RDKit 렌더링 500만
• 평면기하: Slow Perception 방식 데이터 생성(선분 사전 등)
• 일반 비전: LAION 샘플 1억으로 인코더 사전학습에 혼합
• 학습 인프라: 20노드(각 8×A100-40G), 파이프라인 병렬 4단(인코더 2, 디코더 2), DP=40, 글로벌 배치 640.
• 텍스트 전용 90B tok/day, 멀티모달 70B tok/day
• 프로덕션 데이터 생성량: 20노드로 하루 3,300만 페이지 생성 가능

실험 결과

  1. 컨텍스트 광학 압축(Compression) 연구 — Fox 벤치(영문 100페이지, 600–1300 토큰)
    • Small(100 비전 토큰) 기준 정밀도 & 압축비(텍스트 토큰/비전 토큰):
    • 600–700: 98.5%, 6.7×
    • 700–800: 97.3%, 7.5×
    • 800–900: 96.8%, 8.5×
    • 900–1000: 96.8%, 9.7×
    • 1000–1100: 91.5%, 10.6×
    • 1100–1200: 89.8%, 11.3×
    • 1200–1300: 87.1%, 12.6×

    • 요약: 9–10× 압축에서 96%+ 정밀도, 10–12×에서 ≈90%, 20× 부근에서 ≈60%.
    → 10× 내외는 준-무손실에 근접, 그 이상은 레이아웃 복잡도/저해상도 블러 영향으로 점진적으로 저하.

  2. 실전 문서 파싱(OmniDocBench) — 편집거리(낮을수록 좋음)
    • 100 토큰(640²) 만으로 GOT-OCR2.0(256 토큰) 상회
    • 400 토큰(1280²) 에서 최신 SOTA와 동급
    • Gundam(<800 토큰) 모드로 MinerU-2.0(≈6,790 토큰) 초과 성능
    → 토큰 효율이 매우 우수(적은 시각 토큰으로 동급/상회 성능).

  3. 정성 결과(기능)
    • Deep parsing:
    • 차트 → HTML 표,
    • 화학식 → SMILES,
    • 기하도형 → 사전 구조(선분/좌표/유형 등)
    • 자연 이미지도 기본 질의응답 가능
    • 다국어: 약 100개 언어 PDF 인식(레이아웃/비레이아웃 출력을 프롬프트로 제어)

의미
• LLM 초장문 컨텍스트 비용 문제에 대해, 시각 토큰 경유 압축이 유력한 해법임을 실증.
• 최근 대화/문맥은 고해상도, 오래된 히스토리는 점진 다운사이징(압축률↑) 하는 기억 감쇠(memory decay) 전략 제안 → 사람의 망각 곡선과 유사한 자원 배분.
• 토큰 예산 최적화: 태스크/문서 유형별 필요 토큰량 가이드라인 제공(신문 등 초고밀도는 Gundam/M 모드 권장).

한계 & 향후 과제
• 현재는 OCR 기반 PoC에 가깝고, 진정한 디지털↔광학↔디지털 파이프라인의 손실 분석은 추가 연구 필요.
• 10× 초과 구간에서 성능 급락 원인(복잡 레이아웃, 저해상도 블러) 개선 과제.
• 포맷/벤치마크 정합성 이슈(예: Fox 평가 포맷 차이로 실제 성능 저평가 가능).

키 포인트 정리
• DeepEncoder: 윈도우 어텐션(저활성) → 16× 컨브 압축 → 글로벌 어텐션(CLIP)
• 멀티 해상도 + 타일+글로벌(Gundam) 로 메모리/토큰 절약과 성능 균형
• ≈10× 압축에서 ~96% 복원 정밀도 확보 → 컨텍스트 비용 급감 실마리
• OmniDocBench: 100–800 시각 토큰 수준에서 SOTA에 근접/상회
• 차트/화학/기하/다국어까지 아우르는 실용성

와 놀랍네요 ㅋㅋㅋ 근데 어차피 복원하면 그 토큰 그대로인거 아닌가? 보관상태의 토큰만 아낄 수 있는 거 아녀요? 멍청이라 잘 모르겠는데 ㅜ.ㅜ 이해되게 설명 좀 해주실 분

DeepSeek 아이디어가 참 좋네요.

DeepSeek OCR - 시각적 맥락 압축을 통한 초고효율 OCR 모델
GN+가 요약한 버전과 해커뉴스 댓글도 함께 참고하세요.