11P by xguru 2023-07-26 | favorite | 댓글 3개
  • "Overview of SHARD: A System for Highly Available Replicated Data" 1988
    • 데이터베이스 샤딩을 소개한 첫 논문으로 수많은 논문에서 인용되었지만, "존재하지 않음"
  • "Integral Neural Networks"
  • "Blue Is the New Black (Market): Privacy Leaks and Re-Victimization from Police-Auctioned Cellphones"
  • "Latency Lags Bandwidth"
  • "Liquid solution centrifugation for safe, scalable, and efficient isotope separation"
  • "Co-cultivation enhanced microbial protein production based on autotrophic nitrogen-fixing hydrogen-oxidizing bacteria"
  • "Enso: A Streaming Interface for NIC-Application Communication"
  • "Search-Based Regular Expression Inference on a GPU"
  • "Mastering Chess and Shogi by Self-Play with a General Reinforcement Learning Algorithm"
  • "FP2: Fully in-Place Functional Programming"
  • "Enabling tabular deep learning when d ≫ n with an auxiliary knowledge graph"
  • "A Holistic Approach to Undesired Content Detection in the Real World"

Integral Neural Networks가 굉장히 인상적이네요.
가중치 분포를 이산화한다는 개념이 핵심 같은데 샘플링이론처럼 연속함수로 표현된 가중치 분포를 이산화해서 연산량을 최적화시킬수 있다는 얘기같네요.
최근의 LLM들도 보면 모델을 양자화시켜서 비슷한 성능에 적은 연산량을 필요로하는 모델을 만들기도 하던데 비슷한 방법론 같아요.

첫번째 항목이 좀 황당하지만 재미나네요
Where is the original "Overview of SHARD" paper?

해당 링크 댓글을 보니 저자 본인이 답변을 최근에 했었네요.
기업/연구소 내부용 문서였기 때문에 공개적으로 접근 가능한 방법이 없던거라네요.

"I'm the Ronni Rosenberg. This was an internal CCA paper (not from academia or a published journal), from 35 years ago! I don't have a copy and I have no idea how to get it. Sorry about that. It does seem to be the earliest reference to data "sharding." (The other early reference mentioned in Wikipedia is from much later, 1997.)

Fortunately, you need not go back 35 years to read about sharding; it's easy to get current info. Cheers."

사실 저런 경우가 종종 있는 편인데, 실제로 원 내용을 확인할 수 없음에도 인용을 다는 이유는 논문에서 언급하는 고유한 개념 혹은 연구의 출처를 명확히 하려고 그러긴 합니다. 본인 연구에서 말하는 Sharding이 다른 사람들도 똑같이 생각하는 Sharding인지, 아니면 이름만 같고 다른 사람이 제안한 다른 개념의 Sharding인지, 아니면 실제론 존재하지 않는 개념인데 사기칠려고 Sharding이라는 이름을 써서 언급하는건지 다른 연구자 입장에선 확인이 필요하거든요.
딥러닝 같은 경우에도 이름이 똑같은데 서로 다른 연구 결과물인 네트워크 모델이 종종 있습니다.