LLM 연구의 공개 과제들
(huyenchip.com)- LLM 분야에서 얘기되는 주요 과제 10개와 추가 학습을 위한 링크모음
환각(Hallucination) 감소 및 측정
- 회사에서 LLM을 채택하는데 가장 큰 장애물은 환각
- 환각을 완화하고 측정하기 위한 지표를 개발하는 것은 인기 있는 연구 주제로 많은 스타트업들이 집중하고 있음
- 환각을 줄이기 위한 임시 팁으로 프롬프트에 컨텍스트 추가하기, Chain-Of-Thought, Self-Consistency, 모델에게 간결한 답을 요청하기 등이 있음
컨텍스트 길이 및 컨텍스트 구성 최적화
- 대부분의 질문에는 컨텍스트가 필요함
- SituatedQA 논문에 의하면 정보 검색 질문의 상당부분이 컨텍스트에 따라 답변이 다름(NQ-Open 데이터셋의 16.5%가 해당)
- 회사의 사례에서는 훨씬 더 높을 것(고객 지원 챗봇이라면, 해당 고객의 기록이나 제품에 대한 정보가 컨텍스트)
- 컨텍스트 길이는 RAG(Retrieval Augmented Generation)에 특히 중요
- RAG는 2단계로 동작
- 청킹(인덱싱) : LLM에서 사용할 모든 문서를 수집. 임베딩을 생성하고 임베딩을 LLM에넣기위해 청크로 분할하고, 임베딩을 벡터 DB에 저장
- 쿼리: 사용자가 쿼리를 보내면 LLM이 쿼리를 임베딩으로 변환. 벡터 데이터베이스에서 임베딩과 가장 유사한 청크를 가져옴
- 컨텍스트 킬이가 길수록 더 청크를 많이 넣을수 있음. 모델이 억세스할수 있는 정보가 많아지면 응답이 더 좋아지겠죠?
- 항상 그런것음 아님. 모델이 사용하는 컨텍스트의 양과 해당 모델이 컨텍스트를 얼마나 효율적으로 사용하는가는 서로 다른 질문임
- 모델 컨텍스트 길이를 늘리려는 노력과 함께 컨텍스트를 효율적으로 만들기 위한 노력도 있음
- 프롬프트 엔지니어링 또는 프롬프트 컨스트럭션이라고 부름
- 예를 들어 최근 논문은 모델이 컨텍스트의 중간보다 처음 이나 끝에서 정보를 더 잘 이해한다는 것
다른 데이터 양식들(Modalities) 통합
- Multimodiality 는 매우 강력하지만 아직 과소평과됨
- 중요한 이유들
- 의료,로봇공학,전자 상거래,소매,게임,엔터테인먼트등 다양한 데이터를 다루는 사례가 있음
- 의학적 예측에는 텍스트(의사의 노트, 설문지) 와 이미지(CT, X-Ray, MRI)가 필요
- 제품 메타데이터에는 이미지, 비디오, 설명 및 표 형식 데이터가 포함
- 멀티모달리티는 모델 성능의 큰 향상을 가져올 것
- 텍스트만 이해하는 모델 보다 텍스트와 이미지를 이해할 수 있는 모델이 성능이 좋음
- 텍스트 기반 모델에는 엄청난 텍스트 데이터가 필요하므로 곧 모델을 훈련하는데 필요한 인터넷 데이터가 고갈될 것이라는 우려도 있음
- 텍스트가 부족해지면 다른 데이터 양식을 활용해야 함
- 의료,로봇공학,전자 상거래,소매,게임,엔터테인먼트등 다양한 데이터를 다루는 사례가 있음
- 특히 기대하고 있는 것 : 시각 장애가 있는 사람들이 멀티모달리티를 통해 인터넷을 검색하고 현실세계를 탐색할 수 있게 할 것
LLM을 더 빠르고 저렴하게 만들기
- GPT-3.5가 2022년 11월에 나왔을 때, 많은 사람들이 레이턴시 및 프로덕션에서의 사용 비용에 대해 우려했음
- 하지만 레이턴시/비용 분석은 그 이후로 많이 바뀌었음
- 반년도 안지나서, 커뮤니티는 GPT-3.5 메모리 공간의 2%만으로, 성능면에서 GPT-3.5에 매우 근접한 모델을 만드는 방법을 찾았음
- 핵심: 충분히 좋은 것을 만들면, 사람들은 빠르고 저렴하게 만드는 방법을 알아낼 것
- 4년전에 정리한 모델 최적화/압축을 위한 4가지 주요 기술
- Quantization(양자화): 가장 일반적인 모델 최적화 방법. 매개변수를 나타내는데 더 적은 비트를 사용하여 모델의 크기를 줄임. 부동소수점 32비트 대신 16비트, 심지어 4비트도 사용
- Knowledge distillation(지식 증류): 작은 모델(학생)이 더 큰 모델이나 모델의 앙상블(선생)을 모방하도록 훈련시키기
- Low-rank factorization(저차원 행렬분해): 매개변수의 수를 줄이기 위해 고차원 텐서를 저차원 텐서로 교체. 예를 들어, 3x3 텐서를 3x1과 1x3 텐서의 곱으로 분해하여 9개의 매개변수 대신 6개의 매개변수만 갖게 하는 것
- Pruning(가지치기)
- 지금도 이 4가지 기술은 관련있고 인기가 있음. Alpaca는 지식 증류기법을 사용했고, QLoRA는 저차원 행렬분해와 양자화의 조합을 사용했음
새로운 모델 아키텍처 설계
- 2012년 AlexNet 이후로 LSTM, seq2seq 등 많은 아키텍처가 유행하고 사라짐
- 이에 비해 Transformer는 매우 끈질김. 2017년에 나왔고, 언제까지 유행할지 궁금
- Transformer를 능가하는 새로운 아키텍처를 개발하는 것은 쉽지 않음. 지난 6년간 엄청 최적화 되었음
- 새로운 아키텍처는 오늘날 사람들이 관심을 가질만한 규모로 성능을 발휘해야함
- 트랜스포머는 원래 TPU에서 빠르게 실행되도록 설계되었고, 나중에 GPU에 최적화 되었음
- 2021년엔 Chris Ré’의 연구실에서 S4를 중심으로 많은 흥분이 있었음.
최근에도 여전히 새로운 아키텍처에 투자를 하고 있으며, 가장 최근엔 스타트업 Together와 공동으로 Monarch Mixer 아키텍쳐를 개발했음
GPU 대안 개발
- GPU는 2012년 AlexNet 이후 딥러닝을 위한 지배적인 하드웨어
- AlexNet이 인기있는 이유중 하나는 GPU를 성공적으로 사용하여 신경망을 훈련시킨 첫번째 논문이라는 것
GPU 이전에는 AlexNet 규모로 모델을 훈련하려면 수천개의 CPU를 사용해야 했음
수천개의 CPU에 비해 2개의 GPU는 박사 및 연구자들한테 훨씬 접근이 쉬웠고, 딥러닝 연구 붐을 일으켰음 - 지난 10년동안 대기업/스타트업 및 많은 회사들이 AI를 위한 새로운 하드웨어를 만들려고 시도했음
- 가장 눈에 띄는 것은 구글의 TPU, Graphcore의 IPU, Cerebras
- SambaNova는 새로운 AI칩 개발을 위해 10억달러 이상을 펀딩받았찌만, 생성형 AI플랫폼으로 피봇했음
- 한동안 양자컴퓨팅에 많은 기대가 있었고, 주요 플레이어는 다음과 같음
- IBM의 QPU
- 구글의 컨텀컴퓨터는 올해초에 Nature에 양자 오류 감소에 대한 주요 이정표를 발표했음. 양자 가상머신은 Google Colab을 통해 억세스 가능
- MIT 양자 엔지니어링 센터, 막스플랑크 양자 광학 연구소, 시카고 양자거래소, 오크리지 국립연구소등
- 매우 흥미로운 또 다른 방향은 Photonic 칩
- 오늘날의 칩들은 전기를 이용하여 데이터를 이동하므로 많은 전력을 소비하고 레이턴시도 발생
- 광자칩은 광자를 사용하여 데이터를 이동하고 더 빠르고 효율적인 컴퓨팅을 위해 빛의 속도를 활용함
- Lightmatter ($270M), Ayar Labs ($220M), Lightelligence ($200M+) 및 Luminous Computing ($115M)을 포함하여 이 분야의 다양한 스타트업이 수억 달러를 펀딩받음
에이전트를 사용 가능하게 만들기
- 에이전트는 인터넷 검색, 이메일 보내기, 예약등과 같은 작업을 수행할 수 있는 LLM
- 이 글의 다른 연구 방향들과 비교해보면 가장 초기의 분야라고 할 수 있음
- 참신함과 막대한 잠재력 때문에 에이전트에는 열광적인 인기가 있음
- Auto-GPT는 이제 GitHub Star 수 기준 25번째로 인기있는 Repo임
- GPT-Engineering 도 또 다른 인기있는 저장소
- 설레임에도 불구하고 LLM이 행동할수 있는 권한을 위임받을 만큼 신뢰할 수 있고 성능이 있는지에 대해서는 여전히 의구심이 있음
- 이 분야에서 가장 주목할 만한 스타트업은 Adept
- 2명의 Transformer 공동 저자와 전 OpenAI VP가 설립해서 지금까지 거의 5억달러를 펀딩
Human Preference를 통한 학습 개선
- RLHF, Reinforcement Learning from Human Preference 는 멋지지만 다소 Hacky함
사람들이 LLM을 교육하는 더 좋은 방법을 알아내더라도 놀랍지 않을 것. RLHF에는 다음과 같은 미해결 질문이 있음- 인간의 선호도를 수학적으로 표현하는 방법은?
- 현재 인간의 선호도는 비교에 의해 결정됨
- 인간 라벨러는 응답 A가 응답 B보다 나은지 여부를 결정하지만, 응답 A가 응답 B보다 얼마나 더 나은지는 고려하지 않음
- 인간의 취향은?
- Anthropic은 유용함, 정직함, 무해함이라는 세 가지 축을 따라 모델 응답의 품질을 측정했음
- DeepMind는 대부분의 사람들을 기쁘게 하는 응답을 생성하려고 함
- 우리는 입장을 취할 수 있는 AI를 원할까, 아니면 잠재적으로 논쟁의 여지가 있는 주제를 피하는 평범한 AI를 원할까?
- 문화, 종교, 정치적 성향 등의 차이를 고려할 때 누구의 선호가 "인간적" 선호일까 ?
- 인간의 선호도를 수학적으로 표현하는 방법은?
- 모든 잠재 사용자를 충분히 대표할 수 있는 훈련 데이터를 얻는 데는 많은 어려움이 있음
예를 들어, OpenAI의 InstructGPT 데이터의 경우 65세 이상의 레이블러가 없었음. 라벨러는 주로 필리핀인과 방글라데시인 - 커뮤니티 주도의 노력은, 그들의 의도는 훌륭하지만 편향된 데이터로 이어질 수 있음
예를 들어, OpenAssistant 데이터 세트의 경우 응답자 222명 중 201명(90.5%)이 남성이라고 밝혔음
채팅 인터페이스의 효율성 향상
- ChatGPT 이후로 채팅이 다양한 작업에 적합한 인터페이스인지에 대한 여러 논의가 있었음
- 이는 새로운 논의가 아니며, 아시아에서는 채팅이 약 10년동안 슈퍼앱의 인터페이스로 사용되었음
- 개인적으로 이런 이유로 채팅 인터페이스를 좋아함
- 채팅은 이전에 컴퓨터나 인터넷에 노출되지 않을 사람을 포함하여 빠르게 사용방법을 배울 수 있는 인터페이스
- 채팅 인터페이스는 접근성이 있음. 손이 바쁘면 텍스트 대신 음성을 사용할 수 있음
- 채팅은 믿을수 없을정도로 강력한 인터페이스임. 어떤 요청이든 할 수 있고, 응답이 좋지 않은 경우에도 응답을 제공함
- 하지만 아직 채팅 인터페이스를 개선할 수 있다고 생각되는 영역들이 있음
- 턴당 여러개의 메시지
- Multimodal 입력
- 워크플로우에 생성AI 통합
- 메시지 편집 및 삭제
비영어권 언어용 LLM 구축
- 현재 English-First LLM은 성능, 대기 시간 및 속도 면에서 다른 언어에 대해서는 잘 작동하지 않음
- 이 글의 몇몇 초기 독자들은 이 방향을 포함해야 한다고 생각하지 않는다고 이야기 했음
- 이는 연구보다는 물류(Logistics) 문제에 가까움. 우리는 이미 그 방법을 알고 있고 돈과 노력을 투자하기만 하면 된다는 것
하지만 이는 사실이 아님. 대부분의 언어는 리소스가 부족함. 영어나 중국어에 비해 고품질 데이터가 훨씬 적고, 대규모 모델을 훈련하는 데에는 다른 기술이 필요할 수 있음 - 더 비관적인 사람들은 미래에 많은 언어가 사라지고 인터넷이 영어와 만다린 이라는 2개의 언어로 구성 된 두개의 세계로 만들어질 것이라고도 함. Esperando 기억하는 사람 있나요?
- 이는 연구보다는 물류(Logistics) 문제에 가까움. 우리는 이미 그 방법을 알고 있고 돈과 노력을 투자하기만 하면 된다는 것
- 기계 번역 및 챗봇과 같은 AI 도구가 언어 학습에 미치는 영향은 아직 불분명함
그것들이 사람들이 새로운 언어를 더 빨리 배우도록 도울까, 아니면 새로운 언어를 배울 필요를 완전히 없앨까?
이 글 쓴 분이 O'Reilly에서 나온 Designing Machine Learning Systems 라는 책을 쓴 분이네요.
번역판은 한빛출판사에서 나왔습니다.
https://m.hanbit.co.kr/store/books/book_view.html?p_code=B1811121220