Tokenizer에 주의를 기울여야 합니다

▲

GN⁺ 2024-10-24 | parent | ★ favorite | on: Tokenizer에 주의를 기울여야 합니다(cybernetist.com)

Hacker News 의견

토크나이저는 LLM의 "섹시한" 부분으로 간주되지 않지만, 기회로 보는 사람도 있음. xVal 같은 논문은 토크나이제이션의 전문화 전략을 제시함. 철자와 문자 작업은 토크나이제이션 혁신으로 이익을 볼 수 있는 또 다른 문제임
- LLM은 단어의 문자 수를 세거나 문자 생략을 수행하는 데 약함. 예를 들어, GPT-4o는 문자의 인스턴스를 세기 위해 작은 파이썬 프로그램을 작성하고 실행함. 토크나이제이션은 프롬프트의 문자에 대한 지식을 효과적으로 지우고 이러한 작업의 성능에 직접적으로 부정적인 영향을 미침
데이터를 이해해야 의미 있는 작업을 수행할 수 있음. 많은 사람들이 자동화된 데이터 처리 도구를 사용하는 주된 이유는 데이터를 직접 보고 싶지 않기 때문임. 컴퓨터가 데이터를 보고 추가 정보 수집 요청을 할 수 있기를 바람
블로그 게시물에서 오타에 대한 부분을 특히 감사하게 생각함. 프로젝트에서 RAG와 유사한 애플리케이션을 돕고 있으며, 사용자 쿼리의 작은 오타나 형식 차이가 임베딩 거리 계산에 미치는 영향을 걱정하고 있음
- 훈련 데이터에 의도적인 오타/대체/대문자화를 추가하여 "wrk"와 "work"가 아마도 동의어임을 학습하도록 해야 하는지 고민 중임
Elasticsearch를 사용하여 1-2문장 입력과 문단 이상의 문서 간 유사성을 고급 텍스트 쿼리로 처리하는 앱에서 일한 경험이 있음. 토크나이제이션 전략이 특정 쿼리에 얼마나 영향을 미칠 수 있는지 흥미로웠음
- 예를 들어, "W-4" 또는 "W4" 같은 경우, 표준 토크나이제이션은 "-" 또는 문자/숫자 경계에서 나눌 수 있음. 이 입력은 인덱스에서 완전히 식별할 수 없게 됨
기사에서 각 문제에 대한 해결책이 논의된 부분이 부족하다고 느낌. 철자 검사를 토크나이징 전에 실행하거나 잘못된 철자 단어와 잠재적 수정 단어를 나란히 토크나이징하는 방법을 제안함
- 브랜드 이름 문제는 해결 방법을 알 수 없음. 이 문제는 덜 일반적인 언어 또는 복합어를 많이 사용하는 언어에서 더 심각할 수 있음
많은 개발자가 전통적인(결정론적) 공간에서 개발하는 데 익숙하지만, 통계적 공간에서 문제를 생각하는 방식을 변경하지 못함. LLM 앱은 궁극적으로 통계적 공간임
- 개발자로서 이 문제를 사용자에게 설명하는 데 어려움을 겪고 있음
RAG를 구현하는 대부분의 사람들이 토크나이제이션에 대해 생각하지 않고 임베딩에 대해 생각함
- 데이터 코퍼스를 청크로 나누고 각 청크에 대한 임베딩을 계산함. 쿼리를 생성하고 각 쿼리에 대한 임베딩을 계산함. 쿼리에 대한 거리로 코퍼스 청크를 순위 매김. 반환 값을 구성함
- 이 기사는 시스템 성능에 큰 영향을 미칠 수 있는 숨겨진, 상대적으로 평범한 작업의 중요성을 강조함
블로그 게시물의 일부 숫자를 재현할 수 없음. 예를 들어, SentenceTransformer를 사용한 코드에서 두 문장의 코사인 유사도를 계산한 결과가 예상과 다름
여러 RAG 구현에서 대상 문서가 들어오는 쿼리에 대한 좋은 검색 키가 될 것이라고 가정하는 문제를 봄. 최근 프로젝트에서 검색 키를 반환 값(청크된 문서)과 분리하고 LM을 사용하여 적절한 키를 생성하여 임베딩함으로써 검색 관련성이 크게 향상됨
많은 대형 LLM 어휘가 상당히 크다고 하지만, 영어만 해도 100만 개 이상의 단어가 있음. 30k-300k 토큰은 작아 보임