픽셀 기반 입력이 텍스트보다 나은가? Karpathy가

▲

GN⁺ 6달전 | parent | ★ favorite | on: 픽셀 기반 입력이 텍스트보다 나은가? Karpathy가 DeepSeek-OCR 논문에 대해 제기한 질문(twitter.com/karpathy)

Hacker News 의견

픽셀이 아니라 퍼셀(percel) 임. 픽셀은 이미지의 점이지만, 퍼셀은 지각 정보 단위로서 소리나 감각, 심지어 생각의 토큰까지 포함할 수 있음
인간의 경우 여러 감각이 결합된 퍼셀을 인식하며, 신경망(특히 LLM)은 퍼셀을 개별적으로 처리하지 않고 이웃한 퍼셀들의 맥락(context) 속에서 함께 다룸
- 이 아이디어로 연구비 제안서를 썼었음. ML 연구자들은 실용성이 부족하다고 혹평했지만, 신경과학자는 강하게 지지했음
  학제 간 연구의 잠재력이 크지만, 기존 틀에 맞지 않는다는 이유로 자금 지원을 받기 어려운 현실이 안타까움
- 이 개념이 너무 흥미로워서 찾아봤지만 자료가 없음. 혹시 직접 만든 신조어인지, 아니면 참고한 논문이나 연구가 있는지 궁금함
- 결국 잠재 공간(latent space) 개념과 비슷한 것 아닌가 생각함. 관련된 벡터들이 묶여 있는 구조라는 점에서 유사함
- 퍼셀을 벡터로 표현하려면, 지각 모드(시각, 청각 등) 별로 차원을 나누는 식으로 잠재 공간에 매핑해야 할 것 같음
- 농담이지만, 퍼셀 대신 톡셀(toxel) 이라고 부르고 싶어짐
“토크나이저를 없애자(Kill the tokenizer) ”는 과격하지만 근본적인 제안임
토크나이징은 언어를 정량화하려는 임시방편(hack) 일 뿐이며, 언어의 본질을 왜곡함
픽셀이 더 강력한 표현 단위가 될 수 있다는 생각은 낯설지만, 누군가는 새로운 접근을 시도해야 함
- 나는 글을 읽을 때 텍스트를 시각적으로, 그리고 청각적으로 동시에 처리함
  그래서 시각 기반 입력이 자연스러운 진화의 결과처럼 느껴짐
  만약 텍스트를 렌더링해 OCR로 읽는 대신, TTS로 음성 샘플을 인코딩한다면 픽셀보다 효율적일지도 모름. 물론 해상도나 샘플레이트에 따라 다르겠지만
- Meta의 Byte Latent Transformer가 토크나이저를 대체하려 했지만, 결국 주목받지 못했음
- 그렇다면 생성 시점에는 무엇으로 디코딩할 것인지 의문임. 토큰은 단순한 시각 표현 이상의 의미를 가지므로, 단순히 텍스트 이미지를 생성하는 건 부족함
- 텍스트는 정보 밀도가 매우 높음. 그래서 입력으로서 여전히 효율적임
- 나도 이해가 잘 안 됨. 텍스트 자체보다 그 이미지가 더 낫다는 게 말이 되나? 차라리 화면 전체를 찍어서 카메라 학습까지 시키자는 말처럼 들림
관련된 흥미로운 연구로, Lex Flagel 등이 DNA 서열 데이터를 이미지로 변환해 CNN으로 학습시킨 논문이 있음
그 결과, 기존 텍스트 기반 분석에서 얻던 유전학적 측정값을 CNN이 재현할 수 있었음
논문 링크
최근 논의의 핵심은 우리가 언어를 기계에 표현할 때 사용하는 손실 있는 추상화(lossy abstraction) 에 대한 자각임
토크나이징은 그중 하나일 뿐이며, 픽셀이나 음성 신호도 또 다른 근사치임
이런 실험의 진짜 가치는 현재 아키텍처의 설계 가정을 검증하는 데 있음
다중 모달리티 정렬을 학습하는 접근은 더 나은 잠재 구조나 훈련 방식을 발견할 수 있고, 이는 기존 텍스트 인코더 개선으로 이어질 수 있음
특히 단어 경계가 모호한 언어에서는 대체 인코딩 방식이 큰 도움이 될 수 있음
논문에서 말하는 “정보 압축 → 짧은 컨텍스트 윈도우 → 효율성 향상”은 흥미롭지만,
글자 크기나 폰트, 간격이 달라지면 오히려 압축률이 나빠질 수도 있지 않을까 하는 의문이 듦
Karpathy의 주장에 동의함.
텍스트 토큰의 장점 중 하나는 입력 방식(QWERTY 키보드)에 대한 내재적 이해를 학습한다는 점임
예를 들어 “Hello”와 “Hwllo”는 키보드 상에서 인접한 키 덕분에 의미적으로 가깝게 인식됨
- 픽셀 기반 입력으로 AI가 읽을 수 있게 된다면, “HWLLO”나 “H3LL0” 같은 변형도 시각적 유사성을 통해 비슷하게 인식할 수 있을 것임
  더 많은 학습이 필요하겠지만 결과적으로는 일반화된 인식 능력을 얻을 수 있음
- 나는 오타 학습(typo learning) 에 공감함. 관련해서 내 영상에서도 다뤘음
  이미지에서도 오타를 생성해 학습시키는 건 가능하므로, 큰 문제는 아니라고 생각함
나 자신을 떠올릴 때, 머릿속에서는 단어의 흐름이 들림
페이지나 이미지가 아니라, 소리로 된 단어들이 이어지는 느낌임
현재의 토크나이징은 비효율적일 수 있음. 언어는 이미 높은 수준의 압축 구조를 가지고 있지만,
잠재 공간에서 더 나은 표현 방식이 존재할 가능성이 있음
- 업계에서도 토크나이저의 한계를 잘 알고 있음. 하지만 이를 대체할 스케일 가능한 방식을 실제로 구현하는 건 매우 어려움
- 이미지 모델은 더 큰 단위의 토큰을 사용함. 텍스트에서도 n-gram 기반의 큰 토큰 사전을 만들 수 있지만,
  현재 LLM 구조는 너무 큰 출력 분포를 다루기에 비효율적임
아직 이 접근이 실용적이 되기엔 멀었다고 느낌.
ChatGPT가 “이미지로 시각화해볼까?”라고 제안할 때마다 결과물이 환각(hallucination) 으로 가득함
- 하지만 이미지 생성과 이미지 입력은 완전히 다른 문제임
  여기서 말하는 건 텍스트를 이미지로 변환해 LLM에 입력하는 것이지, 이미지를 생성하는 게 아님
최근 관련된 토론으로는
DeepSeek-OCR을 Nvidia Spark에서 구동한 사례와
DeepSeek OCR 프로젝트가 있음.
둘 다 2025년 10월에 활발히 논의되었음