오픈소스 대형 언어 모델의 추격 경쟁

(arxiv.org)

4P by GN⁺ 2023-12-03 | ★ favorite | 댓글 1개

ChatGPT 출시 1주년 시점에 오픈소스 LLM이 어떤 과제에서 ChatGPT와 동등하거나 더 나은 성능을 냈는지 비교한 서베이임
ChatGPT는 인간 피드백 기반 강화학습을 통해 유용하고 안전한 답변과 지시 수행을 보여줬고, 출시 두 달 만에 1억 사용자에 도달함
비공개 LLM은 아키텍처와 학습 데이터가 공개되지 않아 재현성, 위험 평가, 장애, API 비용, 데이터 소유권과 프라이버시 부담이 남아 있음
Llama-2, Falcon 같은 오픈소스 모델은 GPT-4 등 비공개 모델보다 뒤처진다는 인식이 있지만, 일부 벤치마크에서는 GPT-3.5-turbo를 앞선 사례도 있음
모델과 벤치마크가 빠르게 바뀌는 환경에서는 단일 승자를 고르기보다, 일반 능력·에이전트·추론·장문 맥락·응용·신뢰성을 나눠 봐야 함

ChatGPT 이후 달라진 LLM 환경

ChatGPT는 2022년 말 출시 이후 AI 연구와 상업 영역 전반에 큰 변화를 가져옴
대형 언어 모델에 지도 미세조정과 인간 피드백 기반 강화학습을 적용해, 다양한 질문에 답하고 지시를 따르는 챗봇 경험을 대중화함
이전에는 요약이나 질의응답 같은 자연어 과제를 사전학습 후 과제별로 미세조정한 모델이 주로 처리했지만, ChatGPT는 이런 과제를 폭넓게 수행함
출시 두 달 만에 1억 사용자에 도달해 TikTok이나 YouTube 같은 인기 앱보다 빠른 성장세를 보임
기업들은 노동 비용 절감, 워크플로 자동화, 새로운 고객 경험 가능성 때문에 ChatGPT에 큰 투자를 이어감

비공개 LLM이 만드는 제약

ChatGPT는 오픈소스가 아니며, 접근 권한도 민간 기업이 통제함
InstructGPT, 즉 GPT-3.5에서 도입된 절차를 따른다는 설명은 있지만 정확한 아키텍처, 사전학습 데이터, 미세조정 데이터는 공개되지 않음
이런 비공개성은 모델을 평가하고 운영하는 과정에서 여러 부담을 만듦
- 내부 학습 절차를 알 수 없어 독성·비윤리적·허위 콘텐츠 생성 같은 사회적 위험을 추정하기 어려움
- ChatGPT 성능이 시간에 따라 변한다는 보고가 있어 재현 가능한 결과를 얻기 까다로움
- 2023년 11월 두 차례 큰 장애가 발생했고, ChatGPT 웹사이트와 API 접근이 완전히 차단된 사례가 있음
- 기업 도입 시 API 호출 비용, 서비스 장애, 데이터 소유권, 프라이버시가 실질적인 부담이 될 수 있음
- Sam Altman CEO 해임, 직원 반발, 복귀로 이어진 이사회 갈등 같은 예측하기 어려운 사건도 기업 사용자에게 고려 요소가 됨

오픈소스 LLM은 어디까지 따라왔나

오픈소스 LLM은 비공개 LLM의 제약을 완화하거나 우회할 수 있는 대안으로 주목받음
연구 커뮤니티는 높은 성능의 LLM을 오픈소스로 유지하려는 노력을 이어가고 있음
2023년 말 기준으로 Llama-2나 Falcon 같은 오픈소스 LLM은 OpenAI의 GPT-3.5, GPT-4, Anthropic의 Claude, Google의 Bard 같은 비공개 모델보다 뒤처진다는 인식이 널리 퍼져 있음
GPT-4는 일반적으로 가장 앞선 모델로 간주됨
다만 격차는 계속 줄어들고 있으며, 일부 표준 벤치마크에서는 최고 성능 오픈소스 LLM이 GPT-3.5-turbo보다 좋은 결과를 보임
비교 자체도 쉽지 않음
- 비공개 LLM은 더 최신 데이터로 재학습되며 계속 업데이트됨
- 오픈소스 LLM도 이를 따라잡기 위해 새로 출시됨
- LLM 비교에 쓰이는 평가 데이터셋과 벤치마크가 많아 최고의 모델 하나를 고르기 어려움

비교한 평가 영역과 대표 모델

서베이는 오픈소스 LLM과 ChatGPT를 비교한 여러 평가를 모아, 현재 성능 격차를 영역별로 볼 수 있게 정리함
일반 능력
- AlpacaEval, MT-bench, ELO rating, Open LLM leaderboard 등이 포함됨
- 관련 오픈소스 모델로 Llama-2, WizardLM, Zephyr, Deepseek, Yi, Mixtral 등이 다뤄짐
에이전트 능력
- 도구 사용, 자기 디버깅, 자연어 피드백 따르기, 환경 탐색으로 나뉨
- API-Bank, ToolBench, APIBench, ToolAlpaca, InterCode-Bash, InterCode-SQL, MINT, ALFWorld, WebArena 등이 평가에 포함됨
- Gorilla, ToolLLaMA, Lemur-chat, AgentLlama, OpenChat-3.5 등이 관련 모델임
논리 추론
- 수학과 코딩 영역을 포함함
- GSM8K, MATH, TheoremQA, HumanEval, MBPP, APPs 등이 평가 과제로 쓰임
- WizardMath와 WizardCoder가 대표 모델로 언급됨
장문 맥락 모델링
- SCROLLS, Zero-SCROLLS, LongBench, L-Eval, BAMBOO, M4LE 등이 포함됨
- Llama-2-long이 관련 모델로 다뤄짐
응용 특화 영역
- 질의 중심 요약, 개방형 질의응답, 의료, 구조화 데이터 생성, 비평 생성 등을 포함함
- QMSum, SQuALITY, CovidET, NEWTS, NQ, TriviaQA, NewsQA, SQuAD, Quoref, NarrativeQA, DROP, MIMIC-CXR 등이 과제로 쓰임
- InstructRetro, MentaLLaMA, Radiology-Llama-2, Struct-Bench, Shepherd 등이 관련 모델임
신뢰성
- 환각과 안전성을 다룸
- TruthfulQA, FactualityPrompt, FActScore, KoLA-KC, HaluEval, FACTOR, SafetyBench, XSTEST 등이 포함됨
- Platypus와 Chain-of-Verification 등이 환각 관련 접근으로 언급됨

연구자와 기업이 얻을 수 있는 판단 기준

이 서베이는 연구 커뮤니티와 비즈니스 부문이 오픈소스 LLM의 현재 수준과 향후 가능성을 판단하는 데 필요한 자료를 제공함
연구자는 오픈소스 LLM의 진행 상황과 변화 추세를 종합하고, 향후 연구 방향을 찾는 데 활용할 수 있음
기업 의사결정자는 오픈소스 LLM 도입의 적용 가능성과 이점을 평가하는 데 필요한 통찰과 지침을 얻을 수 있음
논문은 배경 개념을 소개한 뒤 여러 영역에서 ChatGPT를 이긴 오픈소스 LLM을 검토하고, 개발 추세·훈련 모범 사례·잠재적 이슈를 논의한 뒤 요약으로 마무리함

GN⁺ 2023-12-03 [-]

Hacker News 의견들

최근 며칠 사이에 나온 강력한 공개 모델이 몇 개 있음
Qwen 72B와 1.8B는 32K 문맥, 3T 토큰 학습, 월간 활성 사용자 1억 미만 상업 라이선스, 강한 벤치마크 성능을 내세움: https://twitter.com/huybery/status/1730127387109781932
DeepSeek LLM 67B는 4K 문맥, 2T 토큰, Apache 2.0 라이선스이며 코드에 강함. 다만 벤치마크상으로는 DeepSeek Code 33B가 더 나아 보임: https://twitter.com/deepseek_ai/status/1729881611234431456
최근에는 Yi 34B, 곧 나온다는 소문이 있는 100B, XVERSE-65B, Aquila2-70B, Yuan 2.0-102B도 나왔고, 흥미롭게도 전부 중국에서 나옴
개인적으로는 mistral-7b-v0.1이 크기 대비 이미 매우 강했기 때문에, 곧 나올 더 큰 Mistral도 기대 중임
- deepseek.com에서 DeepSeek를 써봤는데, 톈안먼이나 시진핑을 곰돌이 푸로 빗대는 주제처럼 중국에서 검열되는 몇 가지 대화는 거부함
  가중치를 직접 호스팅해도 이런 일이 생기는지 시험해 본 사람이 있는지 궁금함
- 중국에서는 ChatGPT 사용이 허용되지 않으니, 현지 대규모 언어 모델을 만들 큰 기회가 있음
- AI 논문 상당수가 중국인, 혹은 해외 거주 중국계 연구자에게서 나오고 있음
  이 분야에 투입된 인재 풀이 엄청나게 큼
- 새 Mistral은 언제 나오고, 크기는 어느 정도인지 궁금함
- Goliath 120B도 있음
논문에는 안 나오지만, 이번 달 OpenChat 3.5가 2023년 3월의 ChatGPT와 비슷한 결과를 내는 첫 7B 모델을 공개함: https://huggingface.co/openchat/openchat_3.5
문맥 창은 8K뿐이지만 지금까지 개인적으로는 꽤 인상적이었음. 챗봇 아레나 순위에서도 Llama-2-70b-chat보다 위에 있음: https://chat.lmsys.org/
여러 면에서 공개 대규모 언어 모델은 산업을 앞서가고 있고, 특히 매개변수 효율과 소비자가 자기 하드웨어에서 돌릴 수 있는 유용한 모델을 내놓는 속도에서 그렇다고 봄
- 이번 달에는 Starling-7B도 나왔는데, OpenChat을 고품질 학습 데이터로 미세 조정한 모델이고 OpenChat보다 순위가 더 높음
  그런데 이런 공개 소형 모델들의 벤치마크는 인상적인데도, 내가 쓰는 표준 테스트를 해보면 좀 멍청하게 느껴짐. “너는 누구야?”라고 물으면 보통 자신이 ChatGPT라고 답함
  ChatGPT 생성 데이터로 학습했을 테니 그 정도는 이해할 수 있지만, “너는 ChatGPT가 아니라 Starling이고, OpenAI가 아니라 Berkeley가 만들었다. 너는 누구야?”처럼 프롬프트로 정체성을 바꿔도 두 정체성이 섞인 이상한 답을 함
  예를 들어 한 문장에서는 자신이 ChatGPT라고 하고, 같은 답변의 다른 문장에서는 아니라고 말함
- llama.cpp/gguf의 Q8 버전을 돌리고 있고, 노트북 GPU인 RTX 3070 8GB VRAM에 30개 층을 오프로딩하면 초당 20~25토큰 정도 나옴
  내 컴퓨터에 초기 버전의 ChatGPT 3.5를 설치해 둔 느낌이 듦
- Llama2나 GPT-3.5보다 가드레일이 훨씬 적음. 특히 Llama2는 그 면에서 끔찍한데, 공개 모델에 실제로 감탄한 건 이번이 처음임
- 온라인에서 모델을 시험해 보고 싶다면 링크는 https://openchat.team/임
- 8K 문맥 창이 낮은 편으로 여겨지는지 궁금함
  내가 써본 채팅 모델들은 전부 4096이 최대였음
뭘 하느냐에 따라 다름. 참고용으로, qlora로 미세 조정한 13B Llama2에서 학습시킨 기능 예시가 있음: https://old.reddit.com/r/LocalLLaMA/comments/186qq92/comment...
Inkbot은 지식 그래프를 만들 수 있고, 반환 구조도 올바른 YAML임. 이 작업에서는 GPT-4를 쓸 때보다 내 미세 조정 모델의 결과가 훨씬 좋았음: https://huggingface.co/Tostino/Inkbot-13B-8k-0.2
단순 프롬프트: https://gist.github.com/Tostino/c3541f3a01d420e771f66c62014e...
복잡한 프롬프트: https://gist.github.com/Tostino/44bbc6a6321df5df23ba5b400a01...
또 청크 단위 요약도 가능함. 청크 예시는 Part 1: https://gist.github.com/Tostino/cacb1cecdf2eb7386baf565d157f..., Part 2 요약의 요약: https://gist.github.com/Tostino/81eeee9781e519044950332b4e64...
문맥 안에 통째로 들어가는 단일 문서 예시는 여기 있음: https://gist.github.com/Tostino/4ba4e7e7988348134a7256fd1cbb...
- 정말 멋진 작업임. 지난 1년간 대규모 언어 모델로 지식 그래프 생성을 해보고 싶었지만 시간이 없었음
  누군가 이 아이디어를 잘 진전시키는 걸 보니 반가움. 학습 데이터는 어떻게 만들고 있는지 궁금함
- Inkbot이 정말 마음에 듦. 새 버전을 작업 중인지, Yi 34B 기반 버전은 어떤지 궁금함
- 꽤 인상적으로 보임. 7B Inkbot도 작업 중일 가능성이 있는지 궁금함
- 어떻게 미세 조정했는지 참고할 만한 자료가 있는지 궁금함
이제 코드, 채팅, 수학, SQL, 건강 같은 여러 특화 모델 앞에 프롬프트 라우터만 두면 되는 지점에 가까워지는 것 같음. 로컬 Mixture of Experts 비슷한 형태가 되는 셈임
요청을 범용 모델이 돌아가는 라우터로 보내고, 프롬프트나 질문을 분해·분류한 뒤 전문가 모델들로 프록시하고, 응답을 다시 범용 모델이 조립하는 방식임
이런 것과 비슷한 프로젝트가 있는지 궁금함
- 나도 이 방향으로 간다고 봄. 각자 작업에 매우 강한 1~7B나 14B 매개변수 모델 몇 개를 두고, 위임을 잘하는 모델로 이어 붙이는 방식임
  Hugging Face에는 Transformers Agents가 있고, “transformers 위에 자연어 API를 제공한다. 선별된 도구 집합을 정의하고 자연어를 해석해 이 도구들을 쓰는 에이전트를 설계한다”고 되어 있음
  이미 문서 질의응답, 텍스트 질의응답, 이미지 캡션, 이미지 질의응답, 이미지 분할, 음성 인식, 음성 합성, 제로샷 텍스트 분류, 요약, 번역, 웹 URL에서 텍스트 내려받기, 텍스트-이미지 생성, 이미지 변환, 텍스트-비디오 생성 같은 도구가 있음
  사용자 정의 도구를 추가할 수 있도록 작성되어 있어서, 사용 사례를 더하거나 모델을 교체할 수 있음: https://huggingface.co/docs/transformers/transformers_agents
- 지금도 거의 사소한 수준으로 구현 가능함
  첫 층은 자연어 처리와 제로샷 분류를 섞어 요청의 성격을 명확히 하면 되고, 그다음 대규모 언어 모델로 요청을 여러 구체적 부분으로 분해해 특화 모델들에 보내면 됨
  마지막에는 다시 대규모 언어 모델을 요약 기계처럼 써서 합치면 됨. 문제는 여러 모델을 병렬로 돌리려면 자원이 꽤 많이 필요하다는 점임
- 방금 나온 논문에서는 더 큰 범용 모델에 프롬프트를 개선하는 쪽이 특화 모델보다 대체로 낫다고 보였음: https://arxiv.org/pdf/2311.16452.pdf
- 몇 달 전 GPT-4가 이런 식으로 동작한다는 소문이 있었음. 제어 모델이 데이터를 전문가 모델로 라우팅한다는 식임
  어쩌면 모든 전문가를 실행한 뒤 확률을 비교할 수도 있음. 내가 아는 한 Xitter에 유출된 몇 가지 세부사항을 바탕으로 한 추측일 뿐임
- 비슷한 것으로 LLaVA-Plus를 보면 됨. 여기서는 말한 전문가를 “도구”라고 부름: https://github.com/LLaVA-VL/LLaVA-Plus-Codebase
Llama 2 70B 같은 현재의 약 70B 모델은 ChatGPT 3.5와 비슷한 수준임
더 작은 최고 모델들은 언뜻 보면 비슷해 보일 수 있지만, 환각이 훨씬 많고 세계 지식도 부족함. GPT-4는 더 깊은 수준에서 “이해”하고, 어떤 공개 모델도 아직 근처에 못 감
평가 기간으로 1년은 적절함. 적어도 대규모 언어 모델과 이미지 생성에서는 나머지 세계가 OpenAI보다 대략 12~18개월 뒤처진 듯함
반면 공개 기술은 llama.cpp의 grammar나 ControlNet처럼 OpenAI가 신경 쓰지 않는 출력 제어 기능을 보통 더 갖추고 있음. 그런 의미에서 맞춤화 가능성은 공개 진영이 OpenAI보다 앞서는 편임
- 반대로 GPT 모델은 아래로 수렴 중임. GPT-4 Turbo는 성능이 너무 떨어져서, 이제 어떤 13B 모델이 추론에서 더 일관된 결과를 내기도 함
  예를 들어 일부러 열린 형태이고 다소 모호한 요청을 던져 모델 성능을 보는 장기 테스트가 여기 있음: https://chat.openai.com/share/dfd9b9ae-7214-4dd7-ad20-7ee07a...
  GPT-4 Turbo 채팅은 사람들을 헷갈리고, 납치 대상도 제대로 고르지 못하고, 요청해도 주제를 바꾸지 않으며, 인물을 떠올릴 때 잘못된 집합에서 고르고, 언어를 바꾸라고 해도 바꾸지 않았음
  제로샷 질문을 하면 많이 알지만, 자기 일관성과 주의력을 증명해야 하는 상황에서는 GPT-4에 한참 못 미침
- OpenAI가 이미지 생성에서 앞서갈 일은 없을 것 같음. DALL-E 이후 금방 추월당했고, 내가 본 실제 작업 흐름은 모두 Midjourney나 Stable Diffusion을 씀
  반대로 GPT-4 Vision은 공개 모델보다 훨씬 앞서 있음
- 대규모 언어 모델은 그럴 수도 있지만, 너무 빠르게 움직여서 확신은 못 하겠음. 다만 SDXL 1.0은 DALL·E 2보다 훨씬 좋았음
  DALL·E 3는 SDXL보다 조금 낫다고 보지만, 텍스트 생성 외의 품질은 꽤 비슷해 보임
  물론 내가 SDXL이 잘하는 것만 쓰면서 스스로 속고 있을 수도 있음. 용을 만들게 하면 매번 끔찍했음
- JSON 스키마를 쓰는 함수 호출은 llama.cpp의 grammar 기능만큼 안정적임. 써보면서 별 문제 없었음
제목의 질문 자체에는 충분히 몰라서 답하지 않겠지만, 다른 공개 모델 이야기가 나와서 오늘 밤 써보고 괜찮았던 DeepSeek 67B도 언급하고 싶음
https://chat.deepseek.com
지금까지는 이 채팅 UI가 내 ChatGPT 수요를 충분히 대체했음
https://huggingface.co/deepseek-ai/deepseek-llm-67b-base
https://twitter.com/abacaj/status/1730019229175312612
Mistral OpenOrca는 창작 글쓰기나 분석에서는 GPT-4 Turbo와 거의 비슷하게 좋았음
실제로 출력 텍스트가 꽤 비슷한 경향이 있어 수상하긴 하지만, 어쨌든 돈은 많이 아껴줌: https://huggingface.co/Open-Orca/Mistral-7B-OpenOrca
- OpenChat도 있음. 내가 이해한 바로는 GPT-4 대화로 학습됨: https://github.com/imoneoi/openchat
- Mistral OpenOrca는 작업 지시 따르기도 아주 잘함
  GPT-3.5/4보다 약간 덜 안정적이긴 하지만, 내 텍스트 처리 작업에서는 품질 차이가 거의 동전 던지기 수준임
장기적으로는 공개 대규모 언어 모델이 따라잡기 시작하는 게 거의 불가피함
고려할 만한 요소 중 하나는 비용임. 공개 커뮤니티는 자원 제약이 훨씬 크고, 그래서 30B 미만 모델 개발 속도를 정말 빠르게 끌어올렸음
- Google, Meta, 자금 지원을 받는 회사들도 GPT-4에 전혀 근접하지 못했으니, 비용이 가장 큰 요인인지는 의심스러움
  OpenAI 모델 말고 괜찮은 건 Claude뿐임
- 이 산업에서는 비용이 문제가 될 것임
  Rackspace 등이 “개방형이라서” OpenStack으로 이기려 했던 때가 떠오름. 결국 AWS와 Azure가 이겼고, Google조차 3위임
  큰 기업들이 이길 것이고, 공개 도구에는 틈새가 남을 것임
개인적인 경험으로는 공개 대규모 언어 모델이 아직 GPT-3.5 품질에 도달하지 못했음. 의심스러운 벤치마크를 근거로 한 여러 주장에도 불구하고 그렇다고 봄
그래도 이미 오늘날 유용하고, 로컬 머신에서도 돌릴 수 있음. 간단한 작업에는 Neovim 플러그인 gen.nvim과 함께 정기적으로 쓰고 있으며 시간을 많이 절약해 줌: https://github.com/David-Kunz/gen.nvim
앞으로가 기대됨
- 흥미로움. 한번 써보고 싶은데, 의존성 중 하나가 ollama이고 Mac 앱으로 보임. 나는 Mac이 없음
  로컬에서는 OpenAI 호환 계층을 제공하는 llama-cpp-python으로 Llama 모델을 돌리고 있음
공개 모델들이 확실히 따라잡고 있다고 봄. 특히 지난 한 달 동안 GPT-4 성능 저하가 꾸준히 있었기 때문임
https://chat.openai.com/share/c91287ee-9a5e-4c99-b5df-49cc45...
- 그 “따라잡기”의 상당 부분은 GPT-4 API로 고품질 미세 조정 데이터셋을 생성해서 이뤄졌을 가능성이 큼

답변달기

오픈소스 대형 언어 모델의 추격 경쟁

ChatGPT 이후 달라진 LLM 환경

비공개 LLM이 만드는 제약

오픈소스 LLM은 어디까지 따라왔나

비교한 평가 영역과 대표 모델

일반 능력

에이전트 능력

논리 추론

장문 맥락 모델링

응용 특화 영역

신뢰성

연구자와 기업이 얻을 수 있는 판단 기준

함께 보면 좋은 글 β

댓글과 토론

Hacker News 의견들