GN⁺: ChatGPT는 잊어라: 연구자들이 이제 노트북에서 소형 AI를 실행하는 이유
(nature.com)- 인공지능(AI) 모델은 일반적으로 온라인에서 사용되지만, 여러 공개 도구들이 이를 변화시키고 있음
- 생체정보과학자 Chris Thorpe는 AI 도구인 대형 언어 모델(LLM)을 사용하여 면역 시스템 단백질인 주요 조직 적합성 복합체(MHC) 분자의 데이터베이스인 histo.fyi를 읽기 쉬운 요약으로 변환함
- Thorpe는 ChatGPT와 같은 웹 기반 LLM 대신 랩탑에서 AI를 구동함
LLM의 최근 트렌드
- 조직에서 '오픈 가중치' 버전의 LLM을 제작하여 사용자가 충분한 컴퓨팅 능력만 있다면 로컬에서 다운로드하여 실행할 수 있도록 함
- 기술 기업에서는 소비자용 하드웨어에서 실행할 수 있는 축소 버전을 제작하고 있으며, 이는 이전의 대형 모델의 성능과 필적함
연구자들이 로컬 모델을 사용하는 이유
- 비용 절감
- 환자나 기업의 기밀 보호
- 재현성 보장
- 컴퓨터가 빨라지고 모델이 효율적이 됨에 따라 사람들은 점점 더 랩톱이나 모바일 기기에서 AI를 구동하게 될 것임
최근 공개된 소형 오픈 가중치 모델 예시
- Google DeepMind, Meta, Allen Institute for Artificial Intelligence 등에서 수십억 개의 매개변수를 포함하는 모델을 공개함
- Microsoft는 Phi-1, Phi-1.5, Phi-2, Phi-3, Phi-3.5 등의 소형 언어 모델을 공개하였으며, 이 중 일부는 이미지도 처리할 수 있음
- Microsoft의 생성형 AI 부사장인 Sébastien Bubeck은 Phi-3의 성능을 훈련 데이터 세트에 기인한다고 설명함
맞춤형 애플리케이션 개발
- 연구자들은 이러한 도구를 기반으로 맞춤형 애플리케이션을 개발할 수 있음
- 중국의 Alibaba는 Qwen이라는 모델을 구축하였으며, 뉴햄프셔 주의 생체의학 과학자는 이를 과학 데이터로 미세 조정하여 Turbcat-72b를 만들었음
프라이버시 보호
- 로컬 모델의 또 다른 장점은 프라이버시 보호임
- 개인 식별 정보를 상용 서비스에 전송하는 것은 데이터 보호 규정에 위배될 수 있음
- Hugging Face의 의료팀을 이끄는 의사 Cyril Zakka는 로컬 모델을 사용하여 다른 모델을 위한 훈련 데이터를 생성함
- Springfield의 Mercy 의료 시스템의 내분비학자 Johnson Thomas는 환자 프라이버시를 위해 OpenAI의 Whisper와 Google DeepMind의 Gemma 2를 기반으로 의사-환자 대화를 전사하고 요약하는 시스템을 개발하고 있음
- 서울의 제약회사 Portrai에서 개발한 CELLama는 로컬 LLM을 활용하여 세포의 유전자 발현 및 기타 특성에 대한 정보를 요약 문장으로 축소하며, 프라이버시를 주요 장점으로 강조함
모델의 활용
- 연구자들은 빠르게 변화하는 LLM 옵션에 직면해 있음
- Thorpe는 현재 랩톱에서 Llama를 사용하고 있으며, 로컬 모델은 변경되지 않아 재현성 측면에서 장점이 있다고 말함
- Thorpe는 3D 구조를 기반으로 MHC 분자를 정렬하는 코드를 작성하고 있으며, 새로운 단백질을 설계하기 위해 ProtGPT2라는 오픈 가중치 모델을 사용함
- 그러나 때로는 로컬 앱으로는 부족할 수 있으며, Thorpe는 코딩을 위해 클라우드 기반 GitHub Copilot을 사용함
접근 방법
- Ollama, GPT4All, Llamafile 등의 소프트웨어를 사용하여 로컬에서 LLM을 실행할 수 있음
- 사용자의 선호도에 따라 앱이나 명령줄을 선택할 수 있음
- Mozilla의 Stephen Hood는 로컬 LLM이 곧 대부분의 애플리케이션에 충분히 좋아질 것이라고 말함
GN+의 의견
- 로컬 LLM은 연구자들에게 매우 유용한 도구가 될 수 있음. 비용 절감, 프라이버시 보호, 재현성 보장 등의 장점이 있기 때문임
- 그러나 때로는 클라우드 기반 서비스가 더 나은 성능을 제공할 수 있으므로, 연구자들은 애플리케이션의 요구 사항에 따라 적절한 도구를 선택해야 함
- 로컬 LLM의 발전 속도가 빨라지고 있으므로, 연구자들은 새로운 모델과 도구를 지속적으로 탐색하고 실험해 볼 필요가 있음
- 또한 연구 분야에 따라 맞춤형 모델을 개발하는 것도 고려해 볼 만함. 예를 들어 생체의학 연구자라면 의료 데이터로 모델을 미세 조정하여 더 나은 성능을 얻을 수 있음
- 로컬 LLM은 아직 초기 단계이므로, 연구자들은 이를 활용하는 과정에서 발생할 수 있는 문제점과 한계점을 인식하고 있어야 함. 예를 들어 모델의 편향성, 데이터 품질, 윤리적 고려 사항 등을 주의 깊게 살펴볼 필요가 있음
사실상 latency와 privacy에 이슈가 있는 도메인이 아닌 이상, edge computing(local)을 쓸 이유가 없죠..
이미 세상의 거의 모든 데이터를 aws, google에서 처리하고 있는데 이제와서 privacy 이야기하는건 LLM만들 기술이 없는 회사들의 상술인거..
Hacker News 의견
-
로컬 모델 사용 권장
- 로컬 모델이 복잡하거나 컴퓨터 성능이 부족하다고 생각하는 사람들에게 Llamafile 다운로드를 권장함
- Whisperfiles도 제공되어 실시간 음성 전사 가능
- Twinny를 사용하여 로컬 전용 코드 자동 완성 및 채팅 가능
- 무료, 개인적, 오프라인 사용 가능
-
로컬 LLM 사용 경험
- 아침 산책 중 음성 메모를 기록하고 로컬에서 Whisper로 텍스트 변환 후 LLM으로 정리
- 개인 정보 보호를 위해 로컬 사용 선호
-
AMD Strix Halo APU
- 128GB 통합 메모리와 50 TOPS NPU를 갖춘 AMD Strix Halo APU 장치 출시 예정
- MacBook Pro 모델의 대안으로 기대됨
-
Llama 3.1 라이선스 문제
- Llama 3.1은 오픈 소스가 아님
- 라이선스 모델과 오픈 소스의 차이를 명확히 할 필요 있음
-
Docker와 Ollama 사용
- Docker에서 Ollama를 사용하여 ChatGPT와 유사한 성능 경험
- Obsidian 노트와 통합하여 노트 생성 및 퍼지 검색 사용
- 정신 건강 및 의료 질문에 대한 보조 도구로 사용
-
로컬 LLM 성능
- M1 Max에서 Llama 8bn 사용 시 25 토큰/초 속도
- Ryzen 5600h에서는 10 토큰/초로 느림
- 문제 해결 시 ChatGPT나 phind.com 사용
- 민감한 정보는 온라인 제공자 사용 불가
-
로컬 LLM 실험
- Nvidia RTX 4060에서 Llama-3.1-8b-instruct 실행 실험
- 20k 토큰 컨텍스트를 GPU에 완전히 적재 가능
- Gemini의 멀티모달 기능이 더 나은 품질을 제공하여 로컬 LLM 사용 가치가 낮음
-
대기업의 LLM 기반 제품
- 회로 설계 분야에서 로컬 모델 사용 필요
- OpenAI와 같은 특정 공급업체에 종속되지 않기 위해 로컬 모델 선호
- 개인적으로도 로컬 모델 사용 선호
-
LLM 훈련 데이터
- Microsoft가 LLM으로 생성된 콘텐츠로 LLM 훈련
- 초기 ChatGPT 버전과 유사한 성능을 모바일 폰에서 구현
-
소형 모델 실행 사양 추천
- Llama3.1 또는 Mistral-Nemo와 같은 소형 모델 실행을 위한 사양 추천 요청
- 새로운 Mac, AMD, Nvidia 하드웨어 출시를 기다리는 것이 합리적인지 문의