# 픽셀 기반 입력이 텍스트보다 나은가? Karpathy가 DeepSeek-OCR 논문에 대해 제기한 질문

> Clean Markdown view of GeekNews topic #23868. Use the original source for factual precision when an external source URL is present.

## Metadata

- GeekNews HTML: [https://news.hada.io/topic?id=23868](https://news.hada.io/topic?id=23868)
- GeekNews Markdown: [https://news.hada.io/topic/23868.md](https://news.hada.io/topic/23868.md)
- Type: GN+
- Author: [neo](https://news.hada.io/@neo)
- Published: 2025-10-24T03:34:53+09:00
- Updated: 2025-10-24T03:34:53+09:00
- Original source: [twitter.com/karpathy](https://twitter.com/karpathy/status/1980397031542989305)
- Points: 3
- Comments: 1

## Topic Body

- 최근 공개된 **DeepSeek-OCR 논문**은 대형 언어 모델(LLM)이 텍스트 대신 **이미지 픽셀**을 직접 입력으로 받아 학습할 수 있는 가능성을 탐구함  
- 이 접근법은 전통적인 **OCR(광학 문자 인식)** 단계를 생략하고, 시각적 정보를 그대로 모델에 전달하는 방식을 제안함  
- Karpathy는 이 논문을 언급하며, **픽셀 입력이 텍스트 토큰보다 더 풍부한 문맥**을 제공할 수 있는지에 대해 의문을 제기함  
- 이러한 아이디어는 **멀티모달 AI**의 발전 방향과 맞닿아 있으며, 언어 모델이 시각적 이해 능력을 내재화할 수 있는지를 실험적으로 탐색함  
- 이 논의는 향후 **LLM의 입력 구조와 학습 패러다임**을 재정의할 수 있는 중요한 연구 흐름으로 평가됨  

---
### DeepSeek-OCR 논문의 핵심 개념
- DeepSeek-OCR은 기존의 텍스트 기반 입력 대신 **문서 이미지의 픽셀 데이터를 직접 처리**하는 대형 언어 모델 구조를 제안함  
  - 전통적인 OCR 시스템은 이미지에서 텍스트를 추출한 뒤 이를 언어 모델에 전달하지만, 이 과정에서 **문자 형태, 레이아웃, 시각적 맥락**이 손실됨  
  - DeepSeek-OCR은 이러한 손실을 줄이기 위해 **픽셀 수준의 시각 정보**를 그대로 모델 입력으로 사용함  
- 모델은 이미지 내의 글자, 표, 수식, 도표 등 다양한 시각적 요소를 동시에 이해하도록 설계됨  
  - 이를 통해 단순한 텍스트 인식뿐 아니라 **문서 구조 이해와 의미 추론**까지 수행 가능  

### Karpathy의 문제 제기
- Karpathy는 자신의 트위터 쓰레드에서 “픽셀이 텍스트보다 더 나은 입력인가?”라는 질문을 던지며 논문을 언급함  
  - 그는 LLM이 텍스트 토큰만으로 학습하는 현재 방식이 **정보 손실**을 초래할 수 있다고 지적함  
  - 특히 언어 모델이 시각적 문맥을 직접 학습할 수 있다면, **OCR 단계를 생략한 통합형 학습 구조**가 가능하다고 언급함  
- Karpathy는 이 접근이 **모델의 일반화 능력**과 **멀티모달 이해력**을 높일 잠재력이 있다고 평가함  
  - 다만, 픽셀 입력은 계산 비용이 크고, 대규모 데이터셋 구축이 어렵다는 **실용적 한계**도 함께 지적함  

### 기술적 의미와 잠재적 영향
- 픽셀 기반 입력은 텍스트 기반 입력보다 **정보 밀도가 높고, 시각적 맥락을 보존**한다는 장점이 있음  
  - 예를 들어, 표나 수식이 포함된 문서에서는 텍스트 변환 과정에서 구조적 정보가 손실되지만, 픽셀 입력은 이를 그대로 유지함  
- 반면, 픽셀 입력은 **모델 파라미터 수 증가**, **훈련 비용 상승**, **추론 속도 저하** 등의 문제를 동반함  
  - 따라서 실제 응용에서는 **텍스트와 픽셀의 하이브리드 접근**이 현실적인 대안으로 거론됨  
- 이 논의는 LLM이 단순한 언어 이해를 넘어 **시각적·공간적 인식 능력**을 내재화할 수 있는지에 대한 실험적 탐색으로 평가됨  

### 산업적 시사점
- 문서 처리, 금융, 법률, 의료 등 **복잡한 문서 구조를 다루는 산업 분야**에서 DeepSeek-OCR의 접근은 큰 의미를 가짐  
  - 예를 들어, 스캔된 계약서나 청구서의 시각적 배치를 그대로 이해하는 AI 시스템 구축 가능  
- Karpathy의 논의는 **AI 입력 형식의 근본적 재검토**를 촉발하며, 향후 LLM 설계 방향에 영향을 미칠 가능성이 큼  
- 픽셀 입력 기반 LLM은 **OCR 기술의 대체 혹은 통합**으로 이어질 수 있으며, 멀티모달 AI 연구의 새로운 전환점으로 주목받음

## Comments


### Comment 45381

- Author: neo
- Created: 2025-10-24T03:34:54+09:00
- Points: 1

###### [Hacker News 의견](https://news.ycombinator.com/item?id=45658928) 
- 픽셀이 아니라 **퍼셀(percel)** 임. 픽셀은 이미지의 점이지만, 퍼셀은 **지각 정보 단위**로서 소리나 감각, 심지어 생각의 토큰까지 포함할 수 있음  
  인간의 경우 여러 감각이 결합된 퍼셀을 인식하며, 신경망(특히 LLM)은 퍼셀을 개별적으로 처리하지 않고 **이웃한 퍼셀들의 맥락(context)** 속에서 함께 다룸
  - 이 아이디어로 연구비 제안서를 썼었음. **ML 연구자**들은 실용성이 부족하다고 혹평했지만, **신경과학자**는 강하게 지지했음  
    학제 간 연구의 잠재력이 크지만, 기존 틀에 맞지 않는다는 이유로 자금 지원을 받기 어려운 현실이 안타까움
  - 이 개념이 너무 흥미로워서 찾아봤지만 자료가 없음. 혹시 직접 만든 **신조어**인지, 아니면 참고한 논문이나 연구가 있는지 궁금함
  - 결국 **잠재 공간(latent space)** 개념과 비슷한 것 아닌가 생각함. 관련된 벡터들이 묶여 있는 구조라는 점에서 유사함
  - 퍼셀을 벡터로 표현하려면, **지각 모드(시각, 청각 등)** 별로 차원을 나누는 식으로 잠재 공간에 매핑해야 할 것 같음
  - 농담이지만, 퍼셀 대신 **톡셀(toxel)** 이라고 부르고 싶어짐

- “**토크나이저를 없애자(Kill the tokenizer)** ”는 과격하지만 근본적인 제안임  
  토크나이징은 언어를 정량화하려는 **임시방편(hack)** 일 뿐이며, 언어의 본질을 왜곡함  
  픽셀이 더 강력한 표현 단위가 될 수 있다는 생각은 낯설지만, 누군가는 새로운 접근을 시도해야 함
  - 나는 글을 읽을 때 텍스트를 시각적으로, 그리고 청각적으로 동시에 처리함  
    그래서 **시각 기반 입력**이 자연스러운 진화의 결과처럼 느껴짐  
    만약 텍스트를 렌더링해 OCR로 읽는 대신, **TTS로 음성 샘플을 인코딩**한다면 픽셀보다 효율적일지도 모름. 물론 해상도나 샘플레이트에 따라 다르겠지만
  - Meta의 [**Byte Latent Transformer**](https://ai.meta.com/research/publications/byte-latent-transformer-patches-scale-better-than-tokens/)가 토크나이저를 대체하려 했지만, 결국 주목받지 못했음
  - 그렇다면 생성 시점에는 무엇으로 디코딩할 것인지 의문임. **토큰은 단순한 시각 표현 이상**의 의미를 가지므로, 단순히 텍스트 이미지를 생성하는 건 부족함
  - 텍스트는 **정보 밀도가 매우 높음**. 그래서 입력으로서 여전히 효율적임
  - 나도 이해가 잘 안 됨. 텍스트 자체보다 그 **이미지**가 더 낫다는 게 말이 되나? 차라리 화면 전체를 찍어서 카메라 학습까지 시키자는 말처럼 들림

- 관련된 흥미로운 연구로, **Lex Flagel** 등이 DNA 서열 데이터를 이미지로 변환해 CNN으로 학습시킨 논문이 있음  
  그 결과, 기존 텍스트 기반 분석에서 얻던 **유전학적 측정값**을 CNN이 재현할 수 있었음  
  [논문 링크](https://academic.oup.com/mbe/article/36/2/220/5229930)

- 최근 논의의 핵심은 우리가 언어를 기계에 표현할 때 사용하는 **손실 있는 추상화(lossy abstraction)** 에 대한 자각임  
  토크나이징은 그중 하나일 뿐이며, 픽셀이나 음성 신호도 또 다른 근사치임  
  이런 실험의 진짜 가치는 **현재 아키텍처의 설계 가정**을 검증하는 데 있음  
  다중 모달리티 정렬을 학습하는 접근은 더 나은 **잠재 구조**나 **훈련 방식**을 발견할 수 있고, 이는 기존 텍스트 인코더 개선으로 이어질 수 있음  
  특히 단어 경계가 모호한 언어에서는 **대체 인코딩 방식**이 큰 도움이 될 수 있음

- 논문에서 말하는 “**정보 압축 → 짧은 컨텍스트 윈도우 → 효율성 향상**”은 흥미롭지만,  
  글자 크기나 폰트, 간격이 달라지면 오히려 **압축률이 나빠질** 수도 있지 않을까 하는 의문이 듦

- **Karpathy**의 주장에 동의함.  
  텍스트 토큰의 장점 중 하나는 입력 방식(QWERTY 키보드)에 대한 **내재적 이해**를 학습한다는 점임  
  예를 들어 “Hello”와 “Hwllo”는 키보드 상에서 인접한 키 덕분에 의미적으로 가깝게 인식됨
  - 픽셀 기반 입력으로 AI가 읽을 수 있게 된다면, “HWLLO”나 “H3LL0” 같은 변형도 **시각적 유사성**을 통해 비슷하게 인식할 수 있을 것임  
    더 많은 학습이 필요하겠지만 결과적으로는 **일반화된 인식 능력**을 얻을 수 있음
  - 나는 **오타 학습(typo learning)** 에 공감함. 관련해서 [내 영상](https://www.youtube.com/watch?v=yXPPcBlcF8U)에서도 다뤘음  
    이미지에서도 오타를 생성해 학습시키는 건 가능하므로, 큰 문제는 아니라고 생각함

- 나 자신을 떠올릴 때, 머릿속에서는 **단어의 흐름**이 들림  
  페이지나 이미지가 아니라, **소리로 된 단어들**이 이어지는 느낌임

- 현재의 토크나이징은 비효율적일 수 있음. 언어는 이미 높은 수준의 **압축 구조**를 가지고 있지만,  
  잠재 공간에서 더 나은 표현 방식이 존재할 가능성이 있음
  - 업계에서도 **토크나이저의 한계**를 잘 알고 있음. 하지만 이를 대체할 **스케일 가능한 방식**을 실제로 구현하는 건 매우 어려움
  - 이미지 모델은 더 **큰 단위의 토큰**을 사용함. 텍스트에서도 n-gram 기반의 큰 토큰 사전을 만들 수 있지만,  
    현재 LLM 구조는 **너무 큰 출력 분포**를 다루기에 비효율적임

- 아직 이 접근이 실용적이 되기엔 멀었다고 느낌.  
  ChatGPT가 “이미지로 시각화해볼까?”라고 제안할 때마다 결과물이 **환각(hallucination)** 으로 가득함
  - 하지만 **이미지 생성**과 **이미지 입력**은 완전히 다른 문제임  
    여기서 말하는 건 텍스트를 이미지로 변환해 LLM에 입력하는 것이지, 이미지를 생성하는 게 아님

- 최근 관련된 토론으로는  
  [**DeepSeek-OCR을 Nvidia Spark에서 구동한 사례**](https://news.ycombinator.com/item?id=45646559)와  
  [**DeepSeek OCR 프로젝트**](https://news.ycombinator.com/item?id=45640594)가 있음.  
  둘 다 2025년 10월에 활발히 논의되었음