진정한 개방형 LLM, Hello OLMo 등장

▲

GN⁺ 2024-04-09 | parent | ★ favorite | on: 진정한 개방형 LLM, Hello OLMo 등장(blog.allenai.org)

Hacker News 의견

LLM 사용 시 저자에게 어떤 용도인지 알려야 함. 라이선스에 명시된 내용임.
파생물을 만들 경우 AI2에 Derivative Impact Report를 제출하거나 유사한 정보를 서면으로 제공해야 함. AI2는 이 정보를 대중에게 공개할 수 있음.
파생물의 사용 목적에 대해 투명하게 공개해야 함.
Derivative Impact Report는 선의의 공개를 처벌하기 위한 것이 아님. 관련 소송을 제기할 경우 계약이 즉시 종료됨.
진정한 오픈소스 모델 중 하나임. 대부분은 가중치만 공개하는 반면 이는 end-to-end로 개방적임.
Mistral 7b와의 비교가 언급되지 않은 점이 의외임.
"The Pile"은 학습 데이터에 포함되지 않은 듯함. 법적으로 다른 "오픈" LLM들보다 건전할 수 있음.
데이터셋에 적용된 위험 분류의 실제 의미는 무엇일까? 라이선스 페이지에서 설명이 부족함. 학습 데이터셋으로 사용하기에 라이선스 측면에서 호환되지 않을 위험을 의미하는 것일까?
작은 크기에서도 놀라울 정도로 빠른 속도를 보임.
AMD GPU로 성공적으로 학습된 주목할 만한 첫 LLM 중 하나일까? 과정이 얼마나 원활했는지, 어려움은 없었는지 궁금함.
이 모델과 유사한 모델들에서 추론 시 "반복 토큰" 문제가 발생함. 맥락 윈도우가 중간에서 길 때 자주 발생.
학습 중에 일종의 지역 최소값에 빠지는 것 같음. 온도가 영향을 주는 것 같지만 완전히 해결하진 못함.
블로그 포스트에 비교 표가 없는 것이 아쉬움.
개인적으로 가장 흥미로운 LLM임. 검색을 대체하고 심지어 연구를 수행하여 최종 답변을 제공할 수 있는 강력한 도구임. OpenAI, Anthropic 등의 폐쇄형 모델은 감사할 수 없음.
실제 LLM에 편향이 주입된 사례가 있음 (예: Google Gemini의 비밀 메타 프롬프트로 인한 역사적으로 부정확한 이미지 생성)
AI2의 접근 방식이 마음에 듦. 가중치뿐 아니라 학습 소스 코드, 데이터, 평가 도구 등을 모두 아파치 라이선스로 공유함.
Llama 같은 오픈 가중치 모델이 OpenAI 등의 폐쇄형 모델을 따라잡고 있음. OLMo 같은 진정한 오픈 모델도 계속 발전하기를 바람.
오픈소스 AI 개발을 규제로 막지 않기를 희망함. 미래에 사회의 언론 수단이 될 수 있어 규제는 표현의 자유 제한과 비슷함. 경쟁 압력 감소는 혁신을 해칠 것임.
2개월 전 글임.