Hacker News 의견
  • LLM 사용 시 저자에게 어떤 용도인지 알려야 함. 라이선스에 명시된 내용임.
  • 파생물을 만들 경우 AI2에 Derivative Impact Report를 제출하거나 유사한 정보를 서면으로 제공해야 함. AI2는 이 정보를 대중에게 공개할 수 있음.
  • 파생물의 사용 목적에 대해 투명하게 공개해야 함.
  • Derivative Impact Report는 선의의 공개를 처벌하기 위한 것이 아님. 관련 소송을 제기할 경우 계약이 즉시 종료됨.
  • 진정한 오픈소스 모델 중 하나임. 대부분은 가중치만 공개하는 반면 이는 end-to-end로 개방적임.
  • Mistral 7b와의 비교가 언급되지 않은 점이 의외임.
  • "The Pile"은 학습 데이터에 포함되지 않은 듯함. 법적으로 다른 "오픈" LLM들보다 건전할 수 있음.
  • 데이터셋에 적용된 위험 분류의 실제 의미는 무엇일까? 라이선스 페이지에서 설명이 부족함. 학습 데이터셋으로 사용하기에 라이선스 측면에서 호환되지 않을 위험을 의미하는 것일까?
  • 작은 크기에서도 놀라울 정도로 빠른 속도를 보임.
  • AMD GPU로 성공적으로 학습된 주목할 만한 첫 LLM 중 하나일까? 과정이 얼마나 원활했는지, 어려움은 없었는지 궁금함.
  • 이 모델과 유사한 모델들에서 추론 시 "반복 토큰" 문제가 발생함. 맥락 윈도우가 중간에서 길 때 자주 발생.
  • 학습 중에 일종의 지역 최소값에 빠지는 것 같음. 온도가 영향을 주는 것 같지만 완전히 해결하진 못함.
  • 블로그 포스트에 비교 표가 없는 것이 아쉬움.
  • 개인적으로 가장 흥미로운 LLM임. 검색을 대체하고 심지어 연구를 수행하여 최종 답변을 제공할 수 있는 강력한 도구임. OpenAI, Anthropic 등의 폐쇄형 모델은 감사할 수 없음.
  • 실제 LLM에 편향이 주입된 사례가 있음 (예: Google Gemini의 비밀 메타 프롬프트로 인한 역사적으로 부정확한 이미지 생성)
  • AI2의 접근 방식이 마음에 듦. 가중치뿐 아니라 학습 소스 코드, 데이터, 평가 도구 등을 모두 아파치 라이선스로 공유함.
  • Llama 같은 오픈 가중치 모델이 OpenAI 등의 폐쇄형 모델을 따라잡고 있음. OLMo 같은 진정한 오픈 모델도 계속 발전하기를 바람.
  • 오픈소스 AI 개발을 규제로 막지 않기를 희망함. 미래에 사회의 언론 수단이 될 수 있어 규제는 표현의 자유 제한과 비슷함. 경쟁 압력 감소는 혁신을 해칠 것임.
  • 2개월 전 글임.