GPT Tokenizer 이해하기
(simonwillison.net)- GPT/LLaMA/PaLM 같은 LLM 모델은 토큰 기반으로 동작
- 텍스트를 받아서 토큰들(Integers)으로 변환하고, 다음에 어떤 토큰이 나올지를 예측함
- OpenAI가 Tokenizer를 공개했지만, 필자는 Observable notebook 으로 자신의 버전을 공개(GPT-2 기반의 교육용 )
- 텍스트-to-토큰, 토큰-to-Text 및 전체 토큰 테이블 검색 지원
-
The dog eats the apples
El perro come las manzanas
片仮名 - 위 문장을 토큰으로 변환한 결과를 가지고 설명
- The 와 the 는 서로 다른 토큰
- 많은 단어들이 앞에 빈칸이 포함된 토큰이 있음(전체 문장 인코딩에 훨씬 효율적)
- 영어 이외의 단어들은 비효율적인 토큰화가 이뤄짐