픽셀 기반 입력이 텍스트보다 나은가? Karpathy가 DeepSeek-OCR 논문에 대해 제기한 질문
(twitter.com/karpathy)- 최근 공개된 DeepSeek-OCR 논문은 대형 언어 모델(LLM)이 텍스트 대신 이미지 픽셀을 직접 입력으로 받아 학습할 수 있는 가능성을 탐구함
- 이 접근법은 전통적인 OCR(광학 문자 인식) 단계를 생략하고, 시각적 정보를 그대로 모델에 전달하는 방식을 제안함
- Karpathy는 이 논문을 언급하며, 픽셀 입력이 텍스트 토큰보다 더 풍부한 문맥을 제공할 수 있는지에 대해 의문을 제기함
- 이러한 아이디어는 멀티모달 AI의 발전 방향과 맞닿아 있으며, 언어 모델이 시각적 이해 능력을 내재화할 수 있는지를 실험적으로 탐색함
- 이 논의는 향후 LLM의 입력 구조와 학습 패러다임을 재정의할 수 있는 중요한 연구 흐름으로 평가됨
DeepSeek-OCR 논문의 핵심 개념
- DeepSeek-OCR은 기존의 텍스트 기반 입력 대신 문서 이미지의 픽셀 데이터를 직접 처리하는 대형 언어 모델 구조를 제안함
- 전통적인 OCR 시스템은 이미지에서 텍스트를 추출한 뒤 이를 언어 모델에 전달하지만, 이 과정에서 문자 형태, 레이아웃, 시각적 맥락이 손실됨
- DeepSeek-OCR은 이러한 손실을 줄이기 위해 픽셀 수준의 시각 정보를 그대로 모델 입력으로 사용함
- 모델은 이미지 내의 글자, 표, 수식, 도표 등 다양한 시각적 요소를 동시에 이해하도록 설계됨
- 이를 통해 단순한 텍스트 인식뿐 아니라 문서 구조 이해와 의미 추론까지 수행 가능
Karpathy의 문제 제기
- Karpathy는 자신의 트위터 쓰레드에서 “픽셀이 텍스트보다 더 나은 입력인가?”라는 질문을 던지며 논문을 언급함
- 그는 LLM이 텍스트 토큰만으로 학습하는 현재 방식이 정보 손실을 초래할 수 있다고 지적함
- 특히 언어 모델이 시각적 문맥을 직접 학습할 수 있다면, OCR 단계를 생략한 통합형 학습 구조가 가능하다고 언급함
- Karpathy는 이 접근이 모델의 일반화 능력과 멀티모달 이해력을 높일 잠재력이 있다고 평가함
- 다만, 픽셀 입력은 계산 비용이 크고, 대규모 데이터셋 구축이 어렵다는 실용적 한계도 함께 지적함
기술적 의미와 잠재적 영향
- 픽셀 기반 입력은 텍스트 기반 입력보다 정보 밀도가 높고, 시각적 맥락을 보존한다는 장점이 있음
- 예를 들어, 표나 수식이 포함된 문서에서는 텍스트 변환 과정에서 구조적 정보가 손실되지만, 픽셀 입력은 이를 그대로 유지함
- 반면, 픽셀 입력은 모델 파라미터 수 증가, 훈련 비용 상승, 추론 속도 저하 등의 문제를 동반함
- 따라서 실제 응용에서는 텍스트와 픽셀의 하이브리드 접근이 현실적인 대안으로 거론됨
- 이 논의는 LLM이 단순한 언어 이해를 넘어 시각적·공간적 인식 능력을 내재화할 수 있는지에 대한 실험적 탐색으로 평가됨
산업적 시사점
- 문서 처리, 금융, 법률, 의료 등 복잡한 문서 구조를 다루는 산업 분야에서 DeepSeek-OCR의 접근은 큰 의미를 가짐
- 예를 들어, 스캔된 계약서나 청구서의 시각적 배치를 그대로 이해하는 AI 시스템 구축 가능
- Karpathy의 논의는 AI 입력 형식의 근본적 재검토를 촉발하며, 향후 LLM 설계 방향에 영향을 미칠 가능성이 큼
- 픽셀 입력 기반 LLM은 OCR 기술의 대체 혹은 통합으로 이어질 수 있으며, 멀티모달 AI 연구의 새로운 전환점으로 주목받음
Hacker News 의견
-
픽셀이 아니라 퍼셀(percel) 임. 픽셀은 이미지의 점이지만, 퍼셀은 지각 정보 단위로서 소리나 감각, 심지어 생각의 토큰까지 포함할 수 있음
인간의 경우 여러 감각이 결합된 퍼셀을 인식하며, 신경망(특히 LLM)은 퍼셀을 개별적으로 처리하지 않고 이웃한 퍼셀들의 맥락(context) 속에서 함께 다룸- 이 아이디어로 연구비 제안서를 썼었음. ML 연구자들은 실용성이 부족하다고 혹평했지만, 신경과학자는 강하게 지지했음
학제 간 연구의 잠재력이 크지만, 기존 틀에 맞지 않는다는 이유로 자금 지원을 받기 어려운 현실이 안타까움 - 이 개념이 너무 흥미로워서 찾아봤지만 자료가 없음. 혹시 직접 만든 신조어인지, 아니면 참고한 논문이나 연구가 있는지 궁금함
- 결국 잠재 공간(latent space) 개념과 비슷한 것 아닌가 생각함. 관련된 벡터들이 묶여 있는 구조라는 점에서 유사함
- 퍼셀을 벡터로 표현하려면, 지각 모드(시각, 청각 등) 별로 차원을 나누는 식으로 잠재 공간에 매핑해야 할 것 같음
- 농담이지만, 퍼셀 대신 톡셀(toxel) 이라고 부르고 싶어짐
- 이 아이디어로 연구비 제안서를 썼었음. ML 연구자들은 실용성이 부족하다고 혹평했지만, 신경과학자는 강하게 지지했음
-
“토크나이저를 없애자(Kill the tokenizer) ”는 과격하지만 근본적인 제안임
토크나이징은 언어를 정량화하려는 임시방편(hack) 일 뿐이며, 언어의 본질을 왜곡함
픽셀이 더 강력한 표현 단위가 될 수 있다는 생각은 낯설지만, 누군가는 새로운 접근을 시도해야 함- 나는 글을 읽을 때 텍스트를 시각적으로, 그리고 청각적으로 동시에 처리함
그래서 시각 기반 입력이 자연스러운 진화의 결과처럼 느껴짐
만약 텍스트를 렌더링해 OCR로 읽는 대신, TTS로 음성 샘플을 인코딩한다면 픽셀보다 효율적일지도 모름. 물론 해상도나 샘플레이트에 따라 다르겠지만 - Meta의 Byte Latent Transformer가 토크나이저를 대체하려 했지만, 결국 주목받지 못했음
- 그렇다면 생성 시점에는 무엇으로 디코딩할 것인지 의문임. 토큰은 단순한 시각 표현 이상의 의미를 가지므로, 단순히 텍스트 이미지를 생성하는 건 부족함
- 텍스트는 정보 밀도가 매우 높음. 그래서 입력으로서 여전히 효율적임
- 나도 이해가 잘 안 됨. 텍스트 자체보다 그 이미지가 더 낫다는 게 말이 되나? 차라리 화면 전체를 찍어서 카메라 학습까지 시키자는 말처럼 들림
- 나는 글을 읽을 때 텍스트를 시각적으로, 그리고 청각적으로 동시에 처리함
-
관련된 흥미로운 연구로, Lex Flagel 등이 DNA 서열 데이터를 이미지로 변환해 CNN으로 학습시킨 논문이 있음
그 결과, 기존 텍스트 기반 분석에서 얻던 유전학적 측정값을 CNN이 재현할 수 있었음
논문 링크 -
최근 논의의 핵심은 우리가 언어를 기계에 표현할 때 사용하는 손실 있는 추상화(lossy abstraction) 에 대한 자각임
토크나이징은 그중 하나일 뿐이며, 픽셀이나 음성 신호도 또 다른 근사치임
이런 실험의 진짜 가치는 현재 아키텍처의 설계 가정을 검증하는 데 있음
다중 모달리티 정렬을 학습하는 접근은 더 나은 잠재 구조나 훈련 방식을 발견할 수 있고, 이는 기존 텍스트 인코더 개선으로 이어질 수 있음
특히 단어 경계가 모호한 언어에서는 대체 인코딩 방식이 큰 도움이 될 수 있음 -
논문에서 말하는 “정보 압축 → 짧은 컨텍스트 윈도우 → 효율성 향상”은 흥미롭지만,
글자 크기나 폰트, 간격이 달라지면 오히려 압축률이 나빠질 수도 있지 않을까 하는 의문이 듦 -
Karpathy의 주장에 동의함.
텍스트 토큰의 장점 중 하나는 입력 방식(QWERTY 키보드)에 대한 내재적 이해를 학습한다는 점임
예를 들어 “Hello”와 “Hwllo”는 키보드 상에서 인접한 키 덕분에 의미적으로 가깝게 인식됨- 픽셀 기반 입력으로 AI가 읽을 수 있게 된다면, “HWLLO”나 “H3LL0” 같은 변형도 시각적 유사성을 통해 비슷하게 인식할 수 있을 것임
더 많은 학습이 필요하겠지만 결과적으로는 일반화된 인식 능력을 얻을 수 있음 - 나는 오타 학습(typo learning) 에 공감함. 관련해서 내 영상에서도 다뤘음
이미지에서도 오타를 생성해 학습시키는 건 가능하므로, 큰 문제는 아니라고 생각함
- 픽셀 기반 입력으로 AI가 읽을 수 있게 된다면, “HWLLO”나 “H3LL0” 같은 변형도 시각적 유사성을 통해 비슷하게 인식할 수 있을 것임
-
나 자신을 떠올릴 때, 머릿속에서는 단어의 흐름이 들림
페이지나 이미지가 아니라, 소리로 된 단어들이 이어지는 느낌임 -
현재의 토크나이징은 비효율적일 수 있음. 언어는 이미 높은 수준의 압축 구조를 가지고 있지만,
잠재 공간에서 더 나은 표현 방식이 존재할 가능성이 있음- 업계에서도 토크나이저의 한계를 잘 알고 있음. 하지만 이를 대체할 스케일 가능한 방식을 실제로 구현하는 건 매우 어려움
- 이미지 모델은 더 큰 단위의 토큰을 사용함. 텍스트에서도 n-gram 기반의 큰 토큰 사전을 만들 수 있지만,
현재 LLM 구조는 너무 큰 출력 분포를 다루기에 비효율적임
-
아직 이 접근이 실용적이 되기엔 멀었다고 느낌.
ChatGPT가 “이미지로 시각화해볼까?”라고 제안할 때마다 결과물이 환각(hallucination) 으로 가득함- 하지만 이미지 생성과 이미지 입력은 완전히 다른 문제임
여기서 말하는 건 텍스트를 이미지로 변환해 LLM에 입력하는 것이지, 이미지를 생성하는 게 아님
- 하지만 이미지 생성과 이미지 입력은 완전히 다른 문제임
-
최근 관련된 토론으로는
DeepSeek-OCR을 Nvidia Spark에서 구동한 사례와
DeepSeek OCR 프로젝트가 있음.
둘 다 2025년 10월에 활발히 논의되었음