모델을 재현할 수 없다면 그것은 오픈소스가 아니다
(twitter.com/amasad)- 오픈소스 AI 혁명은 아직 일어나지 않았음
- 물론 인상적인 오픈 가중치 모델이 있고, 가중치를 공개하는 분들께 감사하지만, 모델을 재현할 수 없다면 진정한 오픈 소스가 아님
- Linux에서 코드베이스 없이 바이너리만 공개했다고 상상해 보라. 또는 바이너리를 만드는 데 사용된 컴파일러 없이 코드베이스만 공개한다고 상상해 보라. 이것이 바로 오늘날의 상황
- 여기에는 여러 가지 단점이 있음
- 프로젝트에 다시 기여할 수 없음
- 프로젝트가 OSS 피드백 루프의 혜택을 받지 못함
- 모델에 백도어(예: 잠복 에이전트)가 없는지 확인하기 어려움
- 데이터 및 콘텐츠 필터와 회사 정책의 일치 여부를 확인할 수 없음
- 모델을 새로 고치려면 회사에 의존해야 함
- 코드베이스부터 데이터 파이프라인까지 모든 것이 공개되어 있는 진정한 오픈 소스 LLM 프로젝트는 많은 가치와 창의성을 창출하고 보안을 개선할 수 있음
- 하지만 가중치를 재현하는 것은 코드를 컴파일하는 것만큼 쉬운 일이 아니기 때문에 간단하지 않음. 계산 능력과 노하우가 있어야 함.
- 그리고 기여도를 검토하는 것은 다음 트레이닝을 실행할 때까지 성능에 어떤 영향을 미치는지 알 수 없기 때문에 어려움
- 하지만 충분한 동기를 가진 사람이나 그룹은 이러한 세부 사항을 파악할 수 있으며, 기존 OSS와 크게 달라 보일 수도 있지만 이러한 새로운 도전이 이 공간이 재미있는 이유
맞는 말,
- github나 huggingface는 open open source repositary가 아니라 마케팅 플랫폼으로 변질된 지 오래되었다.
- 일부 모델은 작동가능한 바이너리조차도 제공하지 않고 있다 (https://github.com/AIGCDesignGroup/ReplaceAnything)
- 온라인 데모만 제공하면서 자기네 기술에 대한 Marketing Demo만 공개하는 데 이용되는 게 무슨 Open source platform인가?
- Gitbug나 Huggingface도 결국 이전의 SNS처럼 가짜나 엉터리가 난무하는 쓰레기 site가 되고 있는 것이다.
따라서 open source는 이제 Myth나 Urban Legend가 되어 가고 있는 중이다. 실지로 이들 사이트에 완벽하게 재현 가능한 진정한 의미에서의 open source model은거의 없다고 보면 된다. 대부분은 marketing stunt이다.
이해는 가지만서도... 요즘 나오는 모델들은 모델 학습에 필요한 컴퓨팅파워와 시간이 일반 개인이 재현하기 어렵게 되어버린지라 어떨지 잘 모르겠네요.
다만 데이터셋 공개의 경우엔 저도 공감이 좀 가네요.
Hacker News 의견
-
리눅스가 코드베이스 없이 바이너리만, 혹은 컴파일러 없이 코드베이스만 공개한다면 상상해보라. 우리가 현재 그런 상황에 처해 있다.
- 현재 "오픈 소스 모델"에 대한 문제점을 잘 설명해주는 비유임. 이 비유를 통해 오픈 소스 모델의 문제가 명확하게 드러남.
-
CERN의 예를 들어보자: 그들은 CC0 라이선스 하에 다양한 실험 데이터를 공개한다. 이것은 단순한 작은 데이터셋이 아니라, LHCb의 전체 첫 번째 실행 데이터와 같은 대규모 데이터임.
- CERN은 데이터를 단순히 공개하고 방치하는 것이 아니라, 분석 가이드와 필요한 도구들(대부분 오픈 소스인 ROOT 등)을 제공함. 이를 통해 누구나 새로운 것을 발견하거나 기존 실험 분석을 확장할 수 있음. 이러한 개방된 데이터와 도구는 재현성을 위한 조건을 충족시키지만, 데이터를 직접 재생성할 필요는 없음. 이론적으로 LHC를 재건할 수는 있지만, 이는 많은 인력, 자금, 시간이 필요함. 오픈 소스 모델과는 대조적으로, 모델을 재학습하여 가중치를 얻을 수 있지만, 데이터를 확보하고 가중치를 재현하는 비용은 대체로 막대함. CERN이 원시 데이터(대부분 노이즈)가 아닌 더 정제된 버전을 공개한다는 점을 기억해야 함. 대규모 원시 데이터를 다운로드하는 것은 어려운 일이지만, 대형 언어 모델(LLM)과 같은 것을 훈련시키려면 전체 데이터셋이 필요할 수 있으며, 이는 종종 저작권 문제 등을 포함한 자체 문제를 가지고 있음.
-
데이터셋을 공개하는 것이 가장 큰 문제다. 그러면 사람들과 회사들이 저작권이 침해되었다고 소송을 제기할 것이다.
- 데이터셋에 저작권이 있는 콘텐츠가 포함되어 있을 경우, 저작권자들이 소송을 제기할 수 있음. 모델에 Z-Library나 Google Books 데이터셋 전체가 포함되었을 가능성에 대해 놀라지 않을 것임.
-
오픈 소스 이니셔티브는 지난 1년간 AI가 오픈 소스인지에 대한 다양한 이해관계자들의 의견을 수집하는 시리즈를 진행해왔다.
- All Things Open에서 오후 내내 진행된 세션에 참여한 경험이 있음. 이 문제에 대해 이미 진행 중인 논의를 확인해보길 권장함. 이는 트윗에 담을 수 있는 것보다 훨씬 더 미묘한 문제임.
-
AI 모델에 "오픈 소스"라는 용어를 적용하는 것은 소프트웨어에 적용하는 것보다 더 복잡하다. 많은 사람들은 재현성을 오픈 소스로 간주하기 위한 기준으로 생각한다.
- AI 모델의 경우, 모델 자체, 데이터셋, 그리고 훈련 레시피(예: 과정, 하이퍼파라미터)가 종종 소스 코드로도 공개됨. 이를 통해 충분한 계산 능력을 가지고 있다면 모델을 훈련시켜 가중치를 얻을 수 있음.
-
오픈 코어도 마찬가지다 - 자신의 인프라에서 호스팅할 수 없다면 진정한 오픈 소스 소프트웨어가 아니다.
- 자체 인프라에서 호스팅할 수 없는 경우, 그것은 진정한 오픈 소스 소프트웨어로 간주되지 않음.
-
"프로젝트가 OSS 피드백 루프에서 이익을 얻지 못한다" 버그 수정처럼 특정 문제를 해결하는 훈련 데이터에 대한 PR을 제출할 수 없기 때문에, 피드백 루프를 많이 볼 수 있을 것이라고는 생각하지 않는다.
- "모델에 백도어가 없다는 것을 검증하기 어렵다" 데이터셋의 크기와 훈련 과정의 불투명성을 고려할 때, 훈련 데이터에 백도어가 있는지 여부를 알 수 있는 사람은 거의 없을 것임.
- "데이터와 콘텐츠 필터를 검증하고 회사 정책과 일치하는지 확인하기 어렵다" 훈련 데이터에 접근하지 않고도 모델 출력에 회사 정책을 적용할 수 있음. 모든 회사가 입력 데이터를 필터링하고 자체 모델을 훈련시켜야 하는지에 대한 의문임.
- "모델을 새로 고칠 때 회사에 의존하게 된다" 현재 비용을 고려하면 대부분의 사람들에게 이미 사실임.
- "코드베이스부터 데이터 파이프라인까지 모든 것이 오픈된 진정한 오픈 소스 LLM 프로젝트는 많은 가치, 창의성을 해방시키고 보안을 향상시킬 수 있다" LLM의 경우에는 이것이 사실이라고 전반적으로 회의적임. 오히려 악의적인 행위자들에게 공격할 수 있는 더 큰 표면을 만들 수 있음.
-
"작업에 대한 수정을 위한 선호되는 형태의 작업이 '소스 코드'이다."
- GPLv3 인용
- 이 AI/ML 모델은 흥미롭게도 가중치가 훈련 세트로부터 파생되지만, 수정할 때 원래의 훈련 세트에 접근할 필요가 없음. 원래 훈련 세트에 접근하지 않고도 미세 조정하는 방법에 대한 많은 튜토리얼이 있음.
-
동의하지 않으며, 비유가 부적절하다. 그가 나열한 것들은 훈련된 모델로 할 수 있다. 데이터를 가지고 있는 것은 사실상 관심을 끌지 못하는 문제다. 오픈/자유 소프트웨어는 자유를 행사하는 것에 관한 것이며, 모델 가중치와 코드를 가지고 있다면 모든 자유를 행사할 수 있다.
-
모든 훈련 데이터가 공개적으로 이용 가능하고(호환 가능한 라이선스로), 훈련 소프트웨어가 비트 동일한 모델을 재현할 수 있는 진정한 오픈 소스 LLM 모델이 있는가?
- 훈련이 비결정적인가? LLM 출력은 의도적으로 비결정적임을 알고 있음.