LLM이 저장된 지식을 검색하기 위해 사용하는 놀랍도록 단순한 메커니즘

(news.mit.edu)

2P by GN⁺ 2024-03-29 | ★ favorite | 댓글 1개

MIT 연구진, 대규모 언어 모델의 지식 탐색 기법 시연

대규모 언어 모델이 사용자의 프롬프트에 응답할 때 저장된 지식을 검색하는 간단한 메커니즘을 사용함을 발견.
연구진은 이 간단한 메커니즘을 활용하여 모델이 다양한 주제에 대해 알고 있는 것을 파악하고, 잘못 저장된 정보를 수정할 수 있음.

대규모 언어 모델의 복잡성

대규모 언어 모델은 고객 지원, 코드 생성, 언어 번역 등 다양한 분야에서 사용되고 있으나, 그 작동 원리는 완전히 이해되지 않음.
MIT와 다른 기관의 연구진은 이러한 거대한 기계 학습 모델이 저장된 지식을 검색하는 메커니즘을 연구함.

지식의 단순한 검색 메커니즘

연구 결과, 대규모 언어 모델은 종종 단순한 선형 함수를 사용하여 저장된 사실을 복구하고 해독함.
모델은 유사한 유형의 사실에 대해 동일한 해독 함수를 사용함.
선형 함수는 두 변수 간의 직선적인 관계를 나타내는 방정식임.

모델이 알고 있는 것 탐색

연구진은 다양한 사실에 대한 선형 함수를 식별하여 모델이 새로운 주제에 대해 알고 있는 것을 탐색하고, 그 지식이 모델 내 어디에 저장되어 있는지 확인함.
개발된 기법을 사용하여 추정된 간단한 함수들을 통해, 모델이 잘못된 답변을 할 때에도 종종 올바른 정보를 저장하고 있음을 발견함.

모델의 지식 시각화

연구진은 함수들을 사용하여 모델이 다른 주제에 대해 무엇을 진실로 믿고 있는지 결정함.
예를 들어, "Bill Bradley was a"라는 프롬프트로 시작하여 "plays sports"와 "attended university"에 대한 해독 함수를 사용하여 모델이 센. 브래들리가 농구 선수이자 프린스턴 대학교 출신임을 알고 있는지 확인함.
이러한 탐색 기법을 사용하여 '속성 렌즈'라고 불리는 그리드를 생성하여 특정 관계에 대한 정보가 변환기의 여러 계층 내에서 어디에 저장되어 있는지 시각화함.

GN⁺의 의견

이 연구는 대규모 언어 모델이 어떻게 사실적 지식을 저장하고 검색하는지에 대한 이해를 한 단계 끌어올림.
모델이 잘못된 정보를 제공하는 경향을 줄이기 위해 연구 결과를 활용하여 지식을 수정하고 AI 챗봇의 오류를 방지할 수 있는 가능성을 제시함.
이 기술이 적용될 경우, AI의 신뢰성 향상에 기여할 수 있으며, 사용자 경험을 개선하는 데 도움이 될 것임.
그러나 모든 사실이 선형적으로 인코딩되지 않는다는 점에서, 이 기법이 모든 유형의 지식 검색에 적용될 수 있는지에 대한 추가 연구가 필요함.
유사한 기능을 제공하는 오픈소스 프로젝트로는 Google의 BERT나 OpenAI의 GPT 시리즈가 있으며, 이들도 대규모 언어 모델의 작동 원리를 이해하는 데 기여하고 있음.
새로운 기술을 도입할 때는 모델의 복잡성과 해석 가능성 사이의 균형을 고려해야 하며, 이 기술을 선택함으로써 얻을 수 있는 이점은 모델의 정확성과 신뢰성 향상이 될 것임.

▲

GN⁺ 2024-03-29 [-]

Hacker News 의견

이 놀라운 작업은 현재 AI 분야의 가장 큰 문제 중 일부를 강조함
- 우리는 퍼셉트론과 크게 다르지 않은 뉴런이나 규칙 세트에 대해 실제로 작업을 시도하지 않고 있음
- 단순한 합산 기능인 퍼셉트론 구조가 모델에서 반복되는 것이 놀라운 일은 아님
- 피드포워드 토폴로지와 단일 뉴런 단계가 훈련하고 그래픽 카드에서 실행하기 가장 쉬워서 실제로 최선인가에 대한 의문 제기
- 대형 라이브러리가 지원하지 않기 때문에 사용되지 않는 독특한 훈련 방법과 인코딩 스킴이 존재함
- 신경망의 기본 규칙 세트에서 실제 변화를 보기 시작할 때까지 우리는 항상 퍼셉트론의 변형과 싸우고 있을 것임
언어의 구조가 Word2Vec을 가능하게 만듦
- Word2Vec + 위치 인코딩으로 인코딩된 테라바이트의 인간 텍스트에 대한 훈련이 다음 인코딩을 초인간적인 수준으로 예측할 수 있게 함
- 단어의 가방(입출력 방법)과 위치 인코딩을 작동시키기 위한 제한된 컨텍스트 창이 내부 인지 구조와 큰 불일치를 일으킴
- GPT-4 등에 훨씬 더 많은 컴퓨팅 파워를 투입함으로써 새로운 형태의 표현이 진화하고 인간이 발견해야 할 가능성이 있음
- MemGPT는 무제한 장기 기억으로 인해 결국 AGI가 될 수 있지만, 더 가능성이 높은 것은 '메멘토'의 주인공과 같을 것임
사실이 선형 함수로 저장된다는 것이 의미하는 바에 대한 이해를 돕기
- LLM이 사실을 N차원 "사실 공간"으로 인코딩하고, 사실을 공간에 포인트/하이퍼스피어/보로노이 다양체 등으로 임베딩하며, 사실을 회상하는 것은 신경망이 키를 계산/기억하고 이 공간에서 키-값 조회를 하는 것임
- 이러한 KV-스토어를 에지 전파 그래픽 모델에 어떻게 임베딩하는지, 현재 잘 알려진 수동 기술이 있는지에 대한 질문
- 인간 뇌가 사실을 선형 함수에 임베딩하여 쉽게 검색할 수 있게 하는 "기억의 궁전" 기억 기술과의 재미있는 연관성
프로그래밍 지식을 인코딩하는 데 사용되는 함수의 종류에 대한 호기심
- 표준 라이브러리나 다른 라이브러리를 비용이 많이 드는 훈련이나 성능을 저하시키는 미세 조정 없이 LLM의 뇌에 직접 업로드할 수 있는지에 대한 고찰
- 아직 공상 과학적 능력이지만 점점 더 가까워지고 있는 것으로 보임
Word2Vec에서 관계 벡터가 하는 일과 유사함을 발견
- "X의" 벡터를 더하면 종종 올바른 답을 얻을 수 있음
- 트랜스포머가 임베딩 공간에 엔터티를 더 잘 매핑하는 것일 수 있음
LLM이 좋은 압축 메커니즘으로 보임
- PC에 로컬로 Llama의 사본을 가지고 있으면 거의 전체 인터넷에 접근할 수 있다는 사실이 놀라움
"King - Man + Woman = Queen" 임베딩 예시를 상기시킴
- 임베딩에 의미적 속성이 포함되어 있기 때문에 단순한 선형 함수가 효과적으로 작동하는 이유를 설명함
70억 개의 "파라미터"가 있는 "CSV 파일/데이터베이스/모델"이 어떻게 거의 모든 주제에 대해 지식이 풍부한 상호작용형 LLM/GPT를 제공하는지 이해하기 어려움
- 4비트는 "압축 방법"이며, 모델은 결국 f32를 보게 됨
- 양자화는 신경망의 가중치인 32비트 부동 소수점 숫자를 4비트 값과 같은 훨씬 작은 비트 표현으로 매핑하는 과정임
- 디양자화는 모델 사용 시 발생하며, 4비트 양자화 가중치를 모델의 계산이 실제로 수행되는 부동 소수점 숫자로 변환함
- "파라미터"와 모델이 알고 있는 "고유 토큰 수(어휘 크기)"의 관계에 대한 질문
- LLAMa는 GPT-3에 비해 32,000 어휘 크기와 65B 파라미터를 가지고 있음
- 65억 파라미터는 훈련 데이터의 토큰 간에 학습된 관계에 기반하여 주어진 입력에 대해 어떻게 반응할지 결정하는 복잡한 매핑 시스템으로 기능함
이 논문이 멋지고 이러한 아이디어를 검증하기 위해 실험을 수행한 것을 좋아함
- LLM이 단어 간의 간단한 통계적 경향을 자연스럽게 학습한다는 점을 고려할 때, 아이디어 자체의 새로움에 대한 의문 제기
- 모든 LLM 행동이 이렇게 단순하게 설명될 수 없다는 것을 명확하게 보여준 것이 훨씬 더 멋짐
추론 부분을 정보 부분과 분리할 수 있는 가능성
- 이것이 사실이라면 매우 놀라운 발견임

답변달기