내가 생각하는 AI의 미래는 완전히 추적 가능한 추론 단계가 있는 시스템임
이런 투명성이 없으면 일반 대중이 대형 LLM 기반 시스템을 이해하거나 통제할 방법이 없을 것 같음
결국 Big Tech나 권위주의자, 혹은 AI 자체가 마음대로 행동하게 될 위험이 있음
그래서 많은 사람들이 이런 접근 자체를 없애고 싶어 한다는 점이 흥미로움
최소한 각 AI 모델이 어떤 훈련 데이터를 사용했는지는 알아야 함
제3의 기관이 감사를 하고 투명성 보고서를 제공하는 구조가 필요하다고 생각함
투명성은 좋지만, 응답을 조정 가능하게 만드는 건 큰 UI/UX 과제임
이런 시도가 계속 반복되길 바람
“오픈소스 AI”라는 용어는 이미 마케팅에 의해 왜곡된 느낌임
단순히 가중치 공개만으로 오픈소스라 부르는 건 잘못된 관행임
진짜 오픈소스 모델은 “투명 모델” 같은 새로운 이름이 필요함
기린이 코셔(kosher) 음식인지 물어봤더니, 모델이 “아니다”라고 답했음
하지만 내 해석과 탈무드 법에 따르면 기린은 되는데, GPT5.1은 내 쪽 해석에 동의했음
모델이 이런 종교적 세부 정보를 암기하고 있는 건 이상함
이런 정보는 RAG 같은 검색 기반으로 가져와야 함
“모르겠다”고 답하는 모델이 더 유용할 것 같음
혹시 몇 번 재시도했는지, temperature나 top_p 값은 어떻게 설정했는지 궁금함
사실 이런 질문은 더 이상 공공재의 기준이 될 수 없다는 점이 흥미로움
최근 내 주요 워크플로를 OpenAI에서 로컬 모델로 옮기고 있음
작은 모델들은 엣지 케이스를 무리하게 처리하려는 경향이 있음
그래서 “edge_case”라는 출구를 만들어주면 훨씬 잘 작동함
이런 프롬프트 해킹 팁들을 모아두는 중앙 저장소가 있었으면 함
“edge_case”가 구조화된 출력 스키마의 키(key) 인지 궁금함
혹시 Open WebUI나 LibreChat 같은 프론트엔드를 쓰는지, 아니면 직접 호출하는지 궁금함
AllenAI Playground에서 “Show OlmoTrace”를 눌러봤는데
모델 응답과 일치하는 훈련 데이터 문서를 보여준다고 함
하지만 실제로는 단순히 N-gram 일치만 찾는 수준이라 추적성이라 보기 어려움
결과가 질문과 무관한 문서에서 나온 경우도 있었음 N-gram 설명
Olmo 연구자로서 말하자면, OlmoTrace의 목적은 응답을 특정 문서에 귀속시키는 게 아님
대신 모델이 어떤 훈련 데이터 조각에 영향을 받았는지를 보여주는 것임
예를 들어, 여러 모델이 같은 농담이나 숫자를 반복하는 이유를 추적할 수 있음
모델 크기는 7B, 20B, 32B 세 가지 라인업이 이상적이라 생각함
7B는 8GB GPU, 32B는 24GB GPU에 맞고, 20B급 모델은 16GB GPU에 딱 맞음
물론 아키텍처에 따라 다름
여전히 최적 크기를 찾는 실험이 진행 중임
개인적으로는 GPU에 확장 가능한 VRAM이 생기길 바람
7B 모델에게 “hi, who are u”라고 물었더니, 내부적으로 문장을 분석하다가 멈췄음
아마 OpenWebUI 버그로 보임
새 모델이 나올 때마다 지원하지 않는 소프트웨어에서 테스트하는 사례가 많음
GPT-OSS 때도 그랬고, 이번 OLMo도 비슷한 상황이 반복될 듯함
내가 직접 플레이그라운드에서 해보니
7B는 “Hi! I'm Olmo 3…”라고, 32B는 “Hi! I'm Olmo…”라고 답함
Ai2의 포스트트레이닝 팀 연구자인데, 혹시 어디서 테스트했는지 궁금함
“good morning”을 과하게 분석하는 농담이 떠오름
결국 단순한 인사도 철학적 해석으로 끝나는 느낌임
혹시 completion token 제한이 걸린 건 아닌지 확인해보길 권함
Dolma3 데이터셋을 Hugging Face에서 봤는데
첫 줄부터 성인 사이트 텍스트가 포함돼 있어서 놀랐음
아직 큐레이션 전 단계일 가능성이 높음
전체 파이프라인을 공개하려면 이런 데이터도 포함해야 함
다만 미리보기에서 이런 부분이 바로 보이지 않게 조정했으면 좋았을 듯함
어차피 에로틱 픽션은 이런 모델의 주요 사용 사례 중 하나이기도 함
작은 모델의 실제 활용처가 궁금함
대부분은 온디바이스 추론용으로 보이는데, 다른 사례가 있을까?
Ai2의 연구자로서 말하자면, 7B는 소비자 GPU용 로컬 모델, 32B는 더 다양한 응용 가능
많은 기업들이 Qwen 3 파인튜닝 모델을 쓰다가 Olmo 32B로 전환할 수도 있음
우리 팀은 도메인 특화 분류기로 7B 모델을 파인튜닝함
작은 비LLM보다 성능이 더 좋았음
나는 Qwen3-30B-VL을 VRAM에 상시 띄워두고 있음
단순한 구글 검색보다 빠르고, 터미널 명령어나 파일 탐색, 노트 정리까지 처리함
속도(90tok/s)와 저지연 덕분에 자잘한 작업을 훨씬 효율적으로 처리할 수 있음
반면 Sonnet 4.5는 느리고 미묘하게 틀려서 실사용엔 비효율적임
Qwen3-30B-VL은 일상용으로 거의 완벽함
속도도 빠르고(90tok/s), 대부분의 작업을 커버함
이런 연구가 중요하지만, 밀집형(dense) 모델이 이 속도를 따라잡긴 어려움
Olmo 개발자로서 말하자면, Qwen 모델이 빠른 이유는 MoE 구조 덕분임
다음 Olmo 버전에서도 MoE를 도입할 예정임
새 맥북에서 돌려보니 느렸지만, 대신 Qwen2.5:14B는 즉각적인 피드백을 줌
심지어 에스페란토어로도 자연스럽게 대화 가능했음
Qwen3-30B-VL이 더 “똑똑한” 이유가 단순히 크기보다 아키텍처 차이 때문인지 궁금함
Hacker News 의견
이런 투명성이 없으면 일반 대중이 대형 LLM 기반 시스템을 이해하거나 통제할 방법이 없을 것 같음
결국 Big Tech나 권위주의자, 혹은 AI 자체가 마음대로 행동하게 될 위험이 있음
제3의 기관이 감사를 하고 투명성 보고서를 제공하는 구조가 필요하다고 생각함
이런 시도가 계속 반복되길 바람
단순히 가중치 공개만으로 오픈소스라 부르는 건 잘못된 관행임
진짜 오픈소스 모델은 “투명 모델” 같은 새로운 이름이 필요함
하지만 내 해석과 탈무드 법에 따르면 기린은 되는데, GPT5.1은 내 쪽 해석에 동의했음
이런 정보는 RAG 같은 검색 기반으로 가져와야 함
“모르겠다”고 답하는 모델이 더 유용할 것 같음
작은 모델들은 엣지 케이스를 무리하게 처리하려는 경향이 있음
그래서 “edge_case”라는 출구를 만들어주면 훨씬 잘 작동함
이런 프롬프트 해킹 팁들을 모아두는 중앙 저장소가 있었으면 함
모델 응답과 일치하는 훈련 데이터 문서를 보여준다고 함
하지만 실제로는 단순히 N-gram 일치만 찾는 수준이라 추적성이라 보기 어려움
결과가 질문과 무관한 문서에서 나온 경우도 있었음
N-gram 설명
대신 모델이 어떤 훈련 데이터 조각에 영향을 받았는지를 보여주는 것임
예를 들어, 여러 모델이 같은 농담이나 숫자를 반복하는 이유를 추적할 수 있음
7B는 8GB GPU, 32B는 24GB GPU에 맞고, 20B급 모델은 16GB GPU에 딱 맞음
여전히 최적 크기를 찾는 실험이 진행 중임
개인적으로는 GPU에 확장 가능한 VRAM이 생기길 바람
아마 OpenWebUI 버그로 보임
GPT-OSS 때도 그랬고, 이번 OLMo도 비슷한 상황이 반복될 듯함
7B는 “Hi! I'm Olmo 3…”라고, 32B는 “Hi! I'm Olmo…”라고 답함
결국 단순한 인사도 철학적 해석으로 끝나는 느낌임
첫 줄부터 성인 사이트 텍스트가 포함돼 있어서 놀랐음
전체 파이프라인을 공개하려면 이런 데이터도 포함해야 함
다만 미리보기에서 이런 부분이 바로 보이지 않게 조정했으면 좋았을 듯함
대부분은 온디바이스 추론용으로 보이는데, 다른 사례가 있을까?
많은 기업들이 Qwen 3 파인튜닝 모델을 쓰다가 Olmo 32B로 전환할 수도 있음
작은 비LLM보다 성능이 더 좋았음
단순한 구글 검색보다 빠르고, 터미널 명령어나 파일 탐색, 노트 정리까지 처리함
속도(90tok/s)와 저지연 덕분에 자잘한 작업을 훨씬 효율적으로 처리할 수 있음
반면 Sonnet 4.5는 느리고 미묘하게 틀려서 실사용엔 비효율적임
속도도 빠르고(90tok/s), 대부분의 작업을 커버함
이런 연구가 중요하지만, 밀집형(dense) 모델이 이 속도를 따라잡긴 어려움
다음 Olmo 버전에서도 MoE를 도입할 예정임
심지어 에스페란토어로도 자연스럽게 대화 가능했음