HN에 묻다: 2023년 12월 나만의 문서로 맞춤형 LLM/ChatGPT를 어떻게 훈련시키나요?

(news.ycombinator.com)

4P by GN⁺ 2023-12-26 | ★ favorite | 댓글 1개

LLM에 맞춤형 문서 세트 제공 방법

LLM(Large Language Models)에 사용자의 문서 세트를 제공하여 비현실적인 결과 없이 적절한 답변을 얻는 최선의 방법에 대한 논의.
LLM에 특정 문서 세트를 "가르치는" 방법에 초점을 맞춤. 이는 반드시 자체 모델을 훈련시키는 것을 의미하지 않으며, RAG(Retrieval-Augmented Generation)와 같은 접근법도 포함됨.
5개월 전의 스레드가 있으나, 2023년 12월 현재 상황에 맞는 정보가 필요함.

GN⁺의 의견

LLM을 사용하여 특정 문서 세트로부터 정확한 정보를 추출하는 것은 기술의 발전과 함께 중요해지고 있음.
이러한 기술은 사용자가 원하는 맞춤형 결과를 얻을 수 있도록 하는 데 도움이 되며, 이는 비즈니스 인텔리전스, 연구, 교육 등 다양한 분야에서 응용될 수 있음.
RAG와 같은 기존의 접근법을 활용하거나 새로운 방법을 모색하는 것이 중요하며, 이는 LLM의 활용도를 높이고 더 정확하고 신뢰할 수 있는 결과를 얻는 데 기여할 것임.

▲

GN⁺ 2023-12-26 [-]

Hacker News 의견

문서에 대한 훈련은 실제로 이루어지지 않으며, 많은 스타트업들이 이 용어를 사용하고 있지만 실제로는 RAG(Retrieval-Augmented Generation)를 사용함.
- Llamaindex가 가장 좋은 옵션으로 여겨짐.
- 문서에 대한 훈련을 주장하는 스타트업들 대부분이 실제로는 RAG를 사용함.
- qLoRA를 사용하여 질문과 답변 쌍을 자동으로 생성하는 스크립트를 찾아보라고 권장함.
- 개인 문서 지식베이스에 성공적으로 사용된 사례는 드물며, 주로 수학, 추론, 파이썬 등의 기술에 사용됨.
- 문서 세트를 단순히 미세조정에 투입하는 것은 효과가 없음을 경험적으로 증명함.
문서의 양에 따라 다른 접근 방식을 고려해야 함.
- RAG는 작은 데이터셋에 잘 작동하며, Llamaindex가 이 분야에서 많은 엔지니어링을 수행함.
- 미세조정과 RAG의 결합은 인터넷에서 쉽게 찾을 수 있는 지식을 가진 대규모 데이터셋에 효과적임.
- 지속적인 사전 훈련은 매우 큰 데이터셋과 독점적인 지식을 가진 경우에 필요함.
AWS Bedrock는 사용하기 쉬우며, 문서를 S3에 업로드하고 벡터 데이터베이스에 동기화하여 API를 통해 사용할 수 있음.
- Bedrock는 다양한 모델과 공통 API를 제공하는 제품임.
h2ogpt는 다양한 형식의 문서를 처리하고 다양한 모델 호스팅 구현을 지원하는 기능이 완비된 RAG 구현체임.
ChatGPT 계정을 구매하여 자신의 문서를 업로드할 수 있으며, 이를 통해 맞춤형 대화형 AI를 생성할 수 있음.
GPT4 Assistants는 현재 RAG를 기본적으로 처리할 수 있으며, PrivateGPT는 이를 위한 잘 알려진 옵션 중 하나임.
Microsoft Office의 Copilot Builder는 사용자가 기본 URL, 업로드된 파일 등을 지정하여 몇 초 만에 AI Copilot을 생성할 수 있게 해줌.
Cheshire Cat은 문서를 "기억"으로 저장하여 나중에 검색할 수 있는 AI 보조 프레임워크임.
Mistral 7B를 QLoRA로 미세조정하는 방법에 대한 비디오 가이드가 있으며, RAG 기술이 더 바람직할 수 있음을 언급함.

답변달기