5P by GN⁺ 15일전 | ★ favorite | 댓글 2개
  • 매년 많은 오래된 웹 페이지가 사라지고 있으며, 이는 영원히 잃어버린 역사임
  • 인터넷 아카이브는 현대 역사에서 가장 가치 있는 자산 중 하나임
  • 그러나 여러 기업과 기관들이 아카이브의 생존과 보존을 어렵게 하고 있음
  • 인터넷 아카이브 본부가 옛 교회 건물에 위치해 있다는 사실은 상징적이며, 이를 성스러운 장소로 여겨야 함
  • 옛 프로그래머들이 Z80 어셈블리로 작업하던 시간들, 초기 인터넷 세대의 토론, 90년대에 형성된 하위 문화 등이 점차 사라지고 있음
  • 개인 블로그의 소실 → 개인의 삶과 의식의 기록이 사라짐
  • 과학 논문, 디지털 아트, 비디오 게임, 기후 데이터, 초기 뉴스 소스 등도 점차 사라지고 있음
  • 출판사나 웹사이트가 사라지면서 이러한 정보가 영원히 사라지는 경우가 많음
  • 모든 정보를 보존하려는 시도는 현실적으로 실패할 가능성이 큼
    • 경제적 이익이 없는 상황에서 막대한 비용이 발생하기 때문
    • 현 세상은 돈이 되지 않는 일에 자원을 투자하기 어려운 상태임
  • LLM(대형 언어 모델)의 정보 압축 능력은 완벽하진 않지만 최소한의 보존 역할을 수행할 수 있음
    • DeepSeek V3는 인터넷의 손실 압축된 버전으로 이미 공개되어 사용되고 있음
  • 모든 손실을 되돌릴 수는 없지만 인터넷 아카이브와 같은 기관을 지원해야 함
  • 동시에 중요한 과제: 공개된 LLM 가중치가 사라지지 않도록 보존하는 것
  • 인터넷 아카이브의 콘텐츠가 LLM 사전 훈련 세트에 포함되도록 보장해야 함
Hacker News 의견
  • "Big LLMs"라는 제목이 마음에 듦. 이제 큰 LLM과 작은 LLM, 그리고 아마도 중간 LLM을 구분하고 있음. "Tall LLMs", "Grande LLMs", "Venti LLMs"라고 부르는 것을 제안하고 싶음

  • 인터넷 아카이브는 현대 역사에서 가장 가치 있는 부분 중 하나로 여겨져야 함. 그러나 많은 기업과 단체들이 아카이브의 생존과 축적을 점점 더 어렵게 만들고 있음. 아카이브 본부가 교회였던 곳에 위치해 있다는 것을 이해함. 이는 성스러운 장소로 생각할 수 있는 최고의 방법임. 유럽에 기반을 둔 인터넷 아카이브를 만들려는 적극적인 노력이 있음

  • Mozilla의 llamafile 프로젝트는 역사적 목적을 위해 LLM을 보존할 수 있도록 설계됨. 이들은 가중치와 필요한 모든 소프트웨어를 결정론적 의존성 없는 단일 파일 실행 파일로 제공함. llamafiles를 저장하면 50년 후에도 오늘과 동일한 출력을 얻을 수 있음. 미래 세대를 위해 이 특별한 순간이 아카이브되도록 Mozilla를 지원해 주길 바람

  • 지도는 영토가 아닌 것처럼 요약은 콘텐츠나 도서관의 실제 책이 아님. 게시물, 책, 포럼을 읽고 싶다면 정확히 그것을 읽고 싶음. 신비로운 수학 알고리즘으로 만들어진 모조품이 아님

  • 영화 포스터 링크가 포함된 영화 테이블을 text-davinci로 만들던 좋은 옛날이 그리움. 보통 s3 버킷의 이미지 URL을 생성했음. 링크는 항상 작동했음

  • 인터넷의 모든 것이 영원히 아카이브되지 않는 것이 괜찮다고 생각함. 과거에는 사람들이 종이에 글을 썼고 대부분은 아카이브되지 않았음. 어느 시점에서는 그냥 사라졌음. 조부모님으로부터 많은 상자의 노트, 책, 문서를 물려받았음. 대부분은 나에게 의미가 없었음. 많은 것을 버려야 했고 다양한 문서 몇 천 페이지만 남겼음. 다른 것들은 영원히 사라졌음. 그리고 그것은 아마도 괜찮음. 아카이브는 매우 중요하지만, 요즘 가장 어려운 부분은 무엇을 아카이브할지 선택하는 것임. 매초 인터넷에 추가되는 콘텐츠가 너무 많아 그 중 일부만 아카이브할 수 있음

  • 여러 다른 LLM을 사용하여 인터넷 훈련 데이터의 인기 있는 공통 하위 집합의 대략적인 버전을 재구성할 수 있는지 궁금함. 그런 것들에 대한 수학 논문에 대한 포인터를 아는 사람이 있는지 궁금함

  • 이것은 나에게 큰 의미가 없음. 출처가 없는 소문은 역사적 가치가 제한적이며, 웹의 대부분의 가중치-사용 가능한 모델이 Common Crawl을 기반으로 하고 있어 보존을 위해 사용 가능함

  • LLM이 인간 지식을 보존하는 내러티브가 마음에 듦. 개인적으로 모든 지식과 정보가 쉽게 접근 가능하고 이용 가능하길 바람. 저작권 소유자가 모든 것을 유료화하거나 등록 뒤에 숨기려는 일관된 비즈니스 결정에도 불구하고 대부분의 사람들이 같은 감정을 공유한다고 확신함. Google이 광고를 통해 세계 정보를 조직하고 번성하는 것을 싫어하는 사람들이 많지만, 장기적으로 정보는 여러 인터넷 데이터 형식으로 조직되고 보존됨. 결국 Google이 LLM 가중치를 가능하게 한 트랜스포머를 원래 설계했으며, 이는 이제 역사적인 부분임

  • 과학 논문과 과정이 출판사가 실패하고 웹사이트가 폐쇄되면서 영원히 사라짐. 큰 과학 출판사들이 (현재, 우리 시대에) 실패할 것이라고 생각하지 않음. 그들은 부유함

"요약은 콘텐츠나 도서관의 실제 책이 아님. 게시물, 책, 포럼을 읽고 싶다면 정확히 그것을 읽고 싶음. 신비로운 수학 알고리즘으로 만들어진 모조품이 아님"

여기에 동의합니다.