ChatGPT는 잊어라: 연구자들이 이제 노트북에서 소형 AI를 실행하는 이유

(nature.com)

30P by GN⁺ 2024-09-22 | ★ favorite | 댓글 7개

인공지능(AI) 모델은 일반적으로 온라인에서 사용되지만, 여러 공개 도구들이 이를 변화시키고 있음
생체정보과학자 Chris Thorpe는 AI 도구인 대형 언어 모델(LLM)을 사용하여 면역 시스템 단백질인 주요 조직 적합성 복합체(MHC) 분자의 데이터베이스인 histo.fyi를 읽기 쉬운 요약으로 변환함
Thorpe는 ChatGPT와 같은 웹 기반 LLM 대신 랩탑에서 AI를 구동함

LLM의 최근 트렌드

조직에서 '오픈 가중치' 버전의 LLM을 제작하여 사용자가 충분한 컴퓨팅 능력만 있다면 로컬에서 다운로드하여 실행할 수 있도록 함
기술 기업에서는 소비자용 하드웨어에서 실행할 수 있는 축소 버전을 제작하고 있으며, 이는 이전의 대형 모델의 성능과 필적함

연구자들이 로컬 모델을 사용하는 이유

비용 절감
환자나 기업의 기밀 보호
재현성 보장
컴퓨터가 빨라지고 모델이 효율적이 됨에 따라 사람들은 점점 더 랩톱이나 모바일 기기에서 AI를 구동하게 될 것임

최근 공개된 소형 오픈 가중치 모델 예시

Google DeepMind, Meta, Allen Institute for Artificial Intelligence 등에서 수십억 개의 매개변수를 포함하는 모델을 공개함
Microsoft는 Phi-1, Phi-1.5, Phi-2, Phi-3, Phi-3.5 등의 소형 언어 모델을 공개하였으며, 이 중 일부는 이미지도 처리할 수 있음
Microsoft의 생성형 AI 부사장인 Sébastien Bubeck은 Phi-3의 성능을 훈련 데이터 세트에 기인한다고 설명함

맞춤형 애플리케이션 개발

연구자들은 이러한 도구를 기반으로 맞춤형 애플리케이션을 개발할 수 있음
중국의 Alibaba는 Qwen이라는 모델을 구축하였으며, 뉴햄프셔 주의 생체의학 과학자는 이를 과학 데이터로 미세 조정하여 Turbcat-72b를 만들었음

프라이버시 보호

로컬 모델의 또 다른 장점은 프라이버시 보호임
개인 식별 정보를 상용 서비스에 전송하는 것은 데이터 보호 규정에 위배될 수 있음
Hugging Face의 의료팀을 이끄는 의사 Cyril Zakka는 로컬 모델을 사용하여 다른 모델을 위한 훈련 데이터를 생성함
Springfield의 Mercy 의료 시스템의 내분비학자 Johnson Thomas는 환자 프라이버시를 위해 OpenAI의 Whisper와 Google DeepMind의 Gemma 2를 기반으로 의사-환자 대화를 전사하고 요약하는 시스템을 개발하고 있음
서울의 제약회사 Portrai에서 개발한 CELLama는 로컬 LLM을 활용하여 세포의 유전자 발현 및 기타 특성에 대한 정보를 요약 문장으로 축소하며, 프라이버시를 주요 장점으로 강조함

모델의 활용

연구자들은 빠르게 변화하는 LLM 옵션에 직면해 있음
Thorpe는 현재 랩톱에서 Llama를 사용하고 있으며, 로컬 모델은 변경되지 않아 재현성 측면에서 장점이 있다고 말함
Thorpe는 3D 구조를 기반으로 MHC 분자를 정렬하는 코드를 작성하고 있으며, 새로운 단백질을 설계하기 위해 ProtGPT2라는 오픈 가중치 모델을 사용함
그러나 때로는 로컬 앱으로는 부족할 수 있으며, Thorpe는 코딩을 위해 클라우드 기반 GitHub Copilot을 사용함

접근 방법

Ollama, GPT4All, Llamafile 등의 소프트웨어를 사용하여 로컬에서 LLM을 실행할 수 있음
사용자의 선호도에 따라 앱이나 명령줄을 선택할 수 있음
Mozilla의 Stephen Hood는 로컬 LLM이 곧 대부분의 애플리케이션에 충분히 좋아질 것이라고 말함

GN+의 의견

로컬 LLM은 연구자들에게 매우 유용한 도구가 될 수 있음. 비용 절감, 프라이버시 보호, 재현성 보장 등의 장점이 있기 때문임
그러나 때로는 클라우드 기반 서비스가 더 나은 성능을 제공할 수 있으므로, 연구자들은 애플리케이션의 요구 사항에 따라 적절한 도구를 선택해야 함
로컬 LLM의 발전 속도가 빨라지고 있으므로, 연구자들은 새로운 모델과 도구를 지속적으로 탐색하고 실험해 볼 필요가 있음
또한 연구 분야에 따라 맞춤형 모델을 개발하는 것도 고려해 볼 만함. 예를 들어 생체의학 연구자라면 의료 데이터로 모델을 미세 조정하여 더 나은 성능을 얻을 수 있음
로컬 LLM은 아직 초기 단계이므로, 연구자들은 이를 활용하는 과정에서 발생할 수 있는 문제점과 한계점을 인식하고 있어야 함. 예를 들어 모델의 편향성, 데이터 품질, 윤리적 고려 사항 등을 주의 깊게 살펴볼 필요가 있음

▲

savvykang 2024-09-24 [-]

아직까지는 뜨겁고 느리고 부정확합니다. 네이처 치고는 기사의 품질이 낮네요

답변달기

▲

yangeok 2024-09-24 [-]

에지로 돌리면 느리고 정확도가 낮지 않나요,,

답변달기

▲

kandk 2024-09-23 [-]

사실상 latency와 privacy에 이슈가 있는 도메인이 아닌 이상, edge computing(local)을 쓸 이유가 없죠..
이미 세상의 거의 모든 데이터를 aws, google에서 처리하고 있는데 이제와서 privacy 이야기하는건 LLM만들 기술이 없는 회사들의 상술인거..

답변달기

▲

lcanon 2024-09-22 [-]

Nature article의 제목에 small이 등장하지만 대부분의 내용은 local이 핵심이네요.

답변달기

▲

dohyun682 2024-09-22 [-]

매번 ChatGPT를 잊으라네...

답변달기

▲

kandk 2024-09-23 [-]

ㅋㅋㅋ

답변달기

▲

GN⁺ 2024-09-22 [-]

Hacker News 의견

로컬 모델 사용 권장
- 로컬 모델이 복잡하거나 컴퓨터 성능이 부족하다고 생각하는 사람들에게 Llamafile 다운로드를 권장함
- Whisperfiles도 제공되어 실시간 음성 전사 가능
- Twinny를 사용하여 로컬 전용 코드 자동 완성 및 채팅 가능
- 무료, 개인적, 오프라인 사용 가능
로컬 LLM 사용 경험
- 아침 산책 중 음성 메모를 기록하고 로컬에서 Whisper로 텍스트 변환 후 LLM으로 정리
- 개인 정보 보호를 위해 로컬 사용 선호
AMD Strix Halo APU
- 128GB 통합 메모리와 50 TOPS NPU를 갖춘 AMD Strix Halo APU 장치 출시 예정
- MacBook Pro 모델의 대안으로 기대됨
Llama 3.1 라이선스 문제
- Llama 3.1은 오픈 소스가 아님
- 라이선스 모델과 오픈 소스의 차이를 명확히 할 필요 있음
Docker와 Ollama 사용
- Docker에서 Ollama를 사용하여 ChatGPT와 유사한 성능 경험
- Obsidian 노트와 통합하여 노트 생성 및 퍼지 검색 사용
- 정신 건강 및 의료 질문에 대한 보조 도구로 사용
로컬 LLM 성능
- M1 Max에서 Llama 8bn 사용 시 25 토큰/초 속도
- Ryzen 5600h에서는 10 토큰/초로 느림
- 문제 해결 시 ChatGPT나 phind.com 사용
- 민감한 정보는 온라인 제공자 사용 불가
로컬 LLM 실험
- Nvidia RTX 4060에서 Llama-3.1-8b-instruct 실행 실험
- 20k 토큰 컨텍스트를 GPU에 완전히 적재 가능
- Gemini의 멀티모달 기능이 더 나은 품질을 제공하여 로컬 LLM 사용 가치가 낮음
대기업의 LLM 기반 제품
- 회로 설계 분야에서 로컬 모델 사용 필요
- OpenAI와 같은 특정 공급업체에 종속되지 않기 위해 로컬 모델 선호
- 개인적으로도 로컬 모델 사용 선호
LLM 훈련 데이터
- Microsoft가 LLM으로 생성된 콘텐츠로 LLM 훈련
- 초기 ChatGPT 버전과 유사한 성능을 모바일 폰에서 구현
소형 모델 실행 사양 추천
- Llama3.1 또는 Mistral-Nemo와 같은 소형 모델 실행을 위한 사양 추천 요청
- 새로운 Mac, AMD, Nvidia 하드웨어 출시를 기다리는 것이 합리적인지 문의

답변달기