Ollama, 멀티모달 모델을 위한 새로운 엔진 발표

▲

GN⁺ 11달전 | parent | ★ favorite | on: Ollama, 멀티모달 모델을 위한 새로운 엔진 발표(ollama.com)

Hacker News 의견

이 시점에 Ollama에서 새로운 엔진 발표 소식을 듣고 놀라움 느낌 표현, llama.cpp가 드디어 안정적인 비전(vision) 기능을 기본 브랜치에 포함해 오랜 노력이 마침내 결실 맺은 데에서 유래된 감상 공유, Ollama가 이미 오랜 기간 이 기능을 준비해온 듯한 추정, llama.cpp에 대한 초기 의존성을 깨고 독립적으로 나아가는 결정이 합리적 판단이라는 생각
두 프로젝트에서 멀티모달 기능을 추가한 실질적 차이점이 무엇인지 궁금증 표출, LLaVA 지원은 오랫동안 있었으므로 기존에는 특수한 처리 방식이 필요했던 것인지 의문, TFA에서 그 차이에 대한 언급을 기대했으나 Ollama에서의 멀티모달이 완전히 새롭게 도입된 것처럼 다루는 데에 혼란 느낌
멀티모달이라는 용어는 텍스트, 이미지뿐 아니라 오디오(그리고 잠재적으로 비디오)까지 포함하는 개념이어야 한다는 생각, 단순히 이미지 생성 혹은 이미지 분석 기능만 있는 모델이라면 ‘비전 모델’이 더 정확한 명칭이라는 주장, Qwen2.5-Omni와 Qwen2.5-VL과 같이 멀티모달 모델을 명확히 구분할 필요성 강조, Ollama의 새로운 엔진은 이런 의미에서 '비전' 지원을 추가했다는 설명
비디오 입력을 다루고 싶은 관심 표명, Qwen2.5-Omni와 Ollama에서 비디오 입력이 가능한지 문의
Ollama의 ‘새로운 엔진’에 관한 설명이 많이 언급되지만 실제 구현 방식에 대한 구체적 정보가 보고 싶다는 소망, llama.cpp도 대단한 프로젝트이기 때문에 그 대체 엔진을 만들었다면 어떤 방식으로 구현했는지 예시를 보고 싶은 기대감, GGML 텐서 라이브러리가 핵심 역할을 하는 것으로 추정, Go 언어에서 FFI(이종 언어 함수 호출)을 통해 직접 모델 동작(예: Gemma3 구현)을 작성하면서 GGML 기능을 활용하는 구조로 파악, 이런 기술적 세부사항이 공식 블로그에 더 명시적으로 담겼어야 한다는 생각
Ollama는 그동안 투명성 부족, 불투명한 기여(credit) 표기, 사용자 중심이 아닌 결정 등으로 비판을 받아왔던 기업 이미지, 이번 글에서는 오히려 기여자 표기가 많아져서 놀라움 느낌, 사용자들의 비판이 많아 조정이 이뤄지고 있다는 추측
LLM 세계에서 ‘*llama’ 네이밍 관행이 너무 혼란스럽게 느껴진다는 고백, 여러 가지 llama와 유사한 이름의 프로젝트들이 난무하여 혼동 심화
AI/ML의 발전 속도가 너무 빠르게 전개되어서 따라가기가 어렵다는 어려움 공유, 주목하지 않으면 제대로 파악하기 힘들다는 점과 ‘밈’(memey) 이름 선호 경향 언급, 이전에는 세서미 스트리트 캐릭터, YOLO 모델군 등 다양한 유행이 있었고 학회 논문도 예외가 아니라는 일화
약간 옆길로 새서 Ollama가 일부 사용자들로부터 부정적으로 평가받는 이유에 관한 의문 제기, 직접 llama.cpp를 돌리라는 주장 이상의 설명이 잘 없었던 점을 지적
Reddit과 GitHub 이슈 링크 공유를 통해 Ollama가 llama.cpp에 제대로 크레딧을 주지 않는 오랜 문제점이 존재한다는 사실 소개, 심지어 일부 프로젝트에서는 llama.cpp를 직접 사용하면서도 Ollama에 그 공이 돌아가는 현상이 있다고 지적, Ollama가 직접 기여하지는 않지만(의무사항은 아님) 내부적으로 유지되는 포크가 있어 관심 있는 사람은 원할 때 cherry-pick 방식으로 코드 활용이 가능한 구조
앞서 제기된 문화/라이선스/FOSS와 별도로, 파일 저장 방식에 대한 불만 표출, Ollama는 자체적인 디스크 저장 및 레지스트리를 도입해 재사용이 불편해진 점 지적, 장기적으로 수익화를 염두에 두고 독점적인 구조를 설계한 의도 추정, Docker처럼 중복 저장을 막으려는 목적일 수 있지만 실제로는 사용성만 악화, 결과적으로 30GB 이상 대용량 파일을 중복 보관하는 번거로움이 발생해 사소한 문제도 크게 다가옴, 다양한 에코시스템에 호환되는 표준 방식이 더 나음, Ollama는 불편함으로 인해 사용하지 않게 됨
Ollama를 Docker와 유사한 LLM 세계의 솔루션으로 평가, 사용자 경험과 모델 파일 문법 역시 Dockerfile에서 영감을 받았다는 인상, Docker 초기에도 Docker와 LXC 논쟁 있었지만 Docker의 사용자 경험 혁신성이 간과되었던 일화 기억, 다만 llama.cpp에 대한 오랜 기간 인정 부족은 문제로 봄, 현재는 어느 정도 오픈된 크레딧 표기가 있다는 점 첨언
Ollama가 커뮤니티와 협력하지 않는다는 점이 불만, VC로부터 자금을 받은 기업이어서 수익구조에 대한 의문이 여전히 남아 있음, llama.cpp, lmstudio, ramalama 등 다른 대안에선 각자의 상황을 명확히 알 수 있는 구조, ramalama는 다양한 관련 오픈소스에 기여가 많은 편, 참고할 만한 GitHub 링크 제공
Ollama가 단순히 llama.cpp의 프론트엔드 역할임에도 이를 드러내지 않고 인정하지 않는 태도가 아쉬움 포인트
Ollama 예시 중 ‘수직 중국 춘련 번역’ 사례에 오역이 다수 있다는 지적, 블로그 작성자가 실제 중국어 사용자가 아니라고 추정, 각 부분별로 실제 내용과 Ollama 결과가 어떻게 차이났는지 구체적으로 분석
해당 예시를 수행한 유지관리자가 직접 등판, 자신이 중국인임을 명확히 밝혀 신뢰도 보강, 영어 번역 자체는 꽤 정확했다고 판단, 모델의 오류나 데모를 숨기거나 조작하지 않음을 강조, 장기적으로 모델의 품질이 더 개선되기를 바라는 희망 공유
직접 사용해 볼 예정, 실용적인 예시와 세부 정보가 곧바로 드러나서 기사 방식이 좋다는 평가
Ollama의 강점은 별다른 설정 없이 간단한 Docker 커맨드만으로 바로 모델을 실행할 수 있었던 점, 하지만 이미지와 비디오를 활용해야 하는 경우 Docker가 GPU를 사용하지 않으므로 기술적 제약이 발생, Ollama에서 Docker 연동 지원을 향후 어떻게 유지할지 궁금증, 혹시 이 기능이 프로젝트의 비중 낮은 부차적 요소로 전락하는 것은 아닌지 의문
일부 플랫폼에선 Docker에서 GPU를 사용할 수 있다는 의견 제시, 다만 더 많은 설정이 필요하고 nvidia가 관련 문서를 제공
예시 중 스탠포드 이동 경로 안내에서 실제로 잘못된 정보가 나왔다는 점이 재미있다는 감상, CA-85가 Palo Alto에서 더 남쪽이라는 교통상식 공유
1년 가까이 Ollama로 로컬 모델을 사용하며 만족감을 느낌, 하지만 Llava 등 멀티모달 지원 기능은 대부분 텍스트 위주로 활용해 거의 경험하지 못했다는 설명, 멀티모달 로컬 모델로 구축된 유용하고 멋진 프로젝트 추천 요청, 개인적인 프로젝트 아이디어를 찾고 싶은 소망