# LLM이 저장된 지식을 검색하기 위해 사용하는 놀랍도록 단순한 메커니즘

> Clean Markdown view of GeekNews topic #14048. Use the original source for factual precision when an external source URL is present.

## Metadata

- GeekNews HTML: [https://news.hada.io/topic?id=14048](https://news.hada.io/topic?id=14048)
- GeekNews Markdown: [https://news.hada.io/topic/14048.md](https://news.hada.io/topic/14048.md)
- Type: GN+
- Author: [neo](https://news.hada.io/@neo)
- Published: 2024-03-29T10:06:35+09:00
- Updated: 2024-03-29T10:06:35+09:00
- Original source: [news.mit.edu](https://news.mit.edu/2024/large-language-models-use-surprisingly-simple-mechanism-retrieve-stored-knowledge-0325)
- Points: 2
- Comments: 1

## Topic Body

### MIT 연구진, 대규모 언어 모델의 지식 탐색 기법 시연

- 대규모 언어 모델이 사용자의 프롬프트에 응답할 때 저장된 지식을 검색하는 간단한 메커니즘을 사용함을 발견.
- 연구진은 이 간단한 메커니즘을 활용하여 모델이 다양한 주제에 대해 알고 있는 것을 파악하고, 잘못 저장된 정보를 수정할 수 있음.

### 대규모 언어 모델의 복잡성

- 대규모 언어 모델은 고객 지원, 코드 생성, 언어 번역 등 다양한 분야에서 사용되고 있으나, 그 작동 원리는 완전히 이해되지 않음.
- MIT와 다른 기관의 연구진은 이러한 거대한 기계 학습 모델이 저장된 지식을 검색하는 메커니즘을 연구함.

### 지식의 단순한 검색 메커니즘

- 연구 결과, 대규모 언어 모델은 종종 단순한 선형 함수를 사용하여 저장된 사실을 복구하고 해독함.
- 모델은 유사한 유형의 사실에 대해 동일한 해독 함수를 사용함.
- 선형 함수는 두 변수 간의 직선적인 관계를 나타내는 방정식임.

### 모델이 알고 있는 것 탐색

- 연구진은 다양한 사실에 대한 선형 함수를 식별하여 모델이 새로운 주제에 대해 알고 있는 것을 탐색하고, 그 지식이 모델 내 어디에 저장되어 있는지 확인함.
- 개발된 기법을 사용하여 추정된 간단한 함수들을 통해, 모델이 잘못된 답변을 할 때에도 종종 올바른 정보를 저장하고 있음을 발견함.

### 모델의 지식 시각화

- 연구진은 함수들을 사용하여 모델이 다른 주제에 대해 무엇을 진실로 믿고 있는지 결정함.
- 예를 들어, "Bill Bradley was a"라는 프롬프트로 시작하여 "plays sports"와 "attended university"에 대한 해독 함수를 사용하여 모델이 센. 브래들리가 농구 선수이자 프린스턴 대학교 출신임을 알고 있는지 확인함.
- 이러한 탐색 기법을 사용하여 '속성 렌즈'라고 불리는 그리드를 생성하여 특정 관계에 대한 정보가 변환기의 여러 계층 내에서 어디에 저장되어 있는지 시각화함.

### GN⁺의 의견

- 이 연구는 대규모 언어 모델이 어떻게 사실적 지식을 저장하고 검색하는지에 대한 이해를 한 단계 끌어올림.
- 모델이 잘못된 정보를 제공하는 경향을 줄이기 위해 연구 결과를 활용하여 지식을 수정하고 AI 챗봇의 오류를 방지할 수 있는 가능성을 제시함.
- 이 기술이 적용될 경우, AI의 신뢰성 향상에 기여할 수 있으며, 사용자 경험을 개선하는 데 도움이 될 것임.
- 그러나 모든 사실이 선형적으로 인코딩되지 않는다는 점에서, 이 기법이 모든 유형의 지식 검색에 적용될 수 있는지에 대한 추가 연구가 필요함.
- 유사한 기능을 제공하는 오픈소스 프로젝트로는 Google의 BERT나 OpenAI의 GPT 시리즈가 있으며, 이들도 대규모 언어 모델의 작동 원리를 이해하는 데 기여하고 있음.
- 새로운 기술을 도입할 때는 모델의 복잡성과 해석 가능성 사이의 균형을 고려해야 하며, 이 기술을 선택함으로써 얻을 수 있는 이점은 모델의 정확성과 신뢰성 향상이 될 것임.

## Comments


### Comment 24077

- Author: neo
- Created: 2024-03-29T10:06:35+09:00
- Points: 1

###### [Hacker News 의견](https://news.ycombinator.com/item?id=39852118) 
- 이 놀라운 작업은 현재 AI 분야의 가장 큰 문제 중 일부를 강조함
  - 우리는 퍼셉트론과 크게 다르지 않은 뉴런이나 규칙 세트에 대해 실제로 작업을 시도하지 않고 있음
  - 단순한 합산 기능인 퍼셉트론 구조가 모델에서 반복되는 것이 놀라운 일은 아님
  - 피드포워드 토폴로지와 단일 뉴런 단계가 훈련하고 그래픽 카드에서 실행하기 가장 쉬워서 실제로 최선인가에 대한 의문 제기
  - 대형 라이브러리가 지원하지 않기 때문에 사용되지 않는 독특한 훈련 방법과 인코딩 스킴이 존재함
  - 신경망의 기본 규칙 세트에서 실제 변화를 보기 시작할 때까지 우리는 항상 퍼셉트론의 변형과 싸우고 있을 것임

- 언어의 구조가 Word2Vec을 가능하게 만듦
  - Word2Vec + 위치 인코딩으로 인코딩된 테라바이트의 인간 텍스트에 대한 훈련이 다음 인코딩을 초인간적인 수준으로 예측할 수 있게 함
  - 단어의 가방(입출력 방법)과 위치 인코딩을 작동시키기 위한 제한된 컨텍스트 창이 내부 인지 구조와 큰 불일치를 일으킴
  - GPT-4 등에 훨씬 더 많은 컴퓨팅 파워를 투입함으로써 새로운 형태의 표현이 진화하고 인간이 발견해야 할 가능성이 있음
  - MemGPT는 무제한 장기 기억으로 인해 결국 AGI가 될 수 있지만, 더 가능성이 높은 것은 '메멘토'의 주인공과 같을 것임

- 사실이 선형 함수로 저장된다는 것이 의미하는 바에 대한 이해를 돕기
  - LLM이 사실을 N차원 "사실 공간"으로 인코딩하고, 사실을 공간에 포인트/하이퍼스피어/보로노이 다양체 등으로 임베딩하며, 사실을 회상하는 것은 신경망이 키를 계산/기억하고 이 공간에서 키-값 조회를 하는 것임
  - 이러한 KV-스토어를 에지 전파 그래픽 모델에 어떻게 임베딩하는지, 현재 잘 알려진 수동 기술이 있는지에 대한 질문
  - 인간 뇌가 사실을 선형 함수에 임베딩하여 쉽게 검색할 수 있게 하는 "기억의 궁전" 기억 기술과의 재미있는 연관성

- 프로그래밍 지식을 인코딩하는 데 사용되는 함수의 종류에 대한 호기심
  - 표준 라이브러리나 다른 라이브러리를 비용이 많이 드는 훈련이나 성능을 저하시키는 미세 조정 없이 LLM의 뇌에 직접 업로드할 수 있는지에 대한 고찰
  - 아직 공상 과학적 능력이지만 점점 더 가까워지고 있는 것으로 보임

- Word2Vec에서 관계 벡터가 하는 일과 유사함을 발견
  - "X의" 벡터를 더하면 종종 올바른 답을 얻을 수 있음
  - 트랜스포머가 임베딩 공간에 엔터티를 더 잘 매핑하는 것일 수 있음

- LLM이 좋은 압축 메커니즘으로 보임
  - PC에 로컬로 Llama의 사본을 가지고 있으면 거의 전체 인터넷에 접근할 수 있다는 사실이 놀라움

- "King - Man + Woman = Queen" 임베딩 예시를 상기시킴
  - 임베딩에 의미적 속성이 포함되어 있기 때문에 단순한 선형 함수가 효과적으로 작동하는 이유를 설명함

- 70억 개의 "파라미터"가 있는 "CSV 파일/데이터베이스/모델"이 어떻게 거의 모든 주제에 대해 지식이 풍부한 상호작용형 LLM/GPT를 제공하는지 이해하기 어려움
  - 4비트는 "압축 방법"이며, 모델은 결국 f32를 보게 됨
  - 양자화는 신경망의 가중치인 32비트 부동 소수점 숫자를 4비트 값과 같은 훨씬 작은 비트 표현으로 매핑하는 과정임
  - 디양자화는 모델 사용 시 발생하며, 4비트 양자화 가중치를 모델의 계산이 실제로 수행되는 부동 소수점 숫자로 변환함
  - "파라미터"와 모델이 알고 있는 "고유 토큰 수(어휘 크기)"의 관계에 대한 질문
  - LLAMa는 GPT-3에 비해 32,000 어휘 크기와 65B 파라미터를 가지고 있음
  - 65억 파라미터는 훈련 데이터의 토큰 간에 학습된 관계에 기반하여 주어진 입력에 대해 어떻게 반응할지 결정하는 복잡한 매핑 시스템으로 기능함

- 이 논문이 멋지고 이러한 아이디어를 검증하기 위해 실험을 수행한 것을 좋아함
  - LLM이 단어 간의 간단한 통계적 경향을 자연스럽게 학습한다는 점을 고려할 때, 아이디어 자체의 새로움에 대한 의문 제기
  - 모든 LLM 행동이 이렇게 단순하게 설명될 수 없다는 것을 명확하게 보여준 것이 훨씬 더 멋짐

- 추론 부분을 정보 부분과 분리할 수 있는 가능성
  - 이것이 사실이라면 매우 놀라운 발견임