26P by concode0 1달전 | ★ favorite | 댓글 10개

딥러닝의 놀라운 성과 뒤에는 항상 '행렬 곱(Wx+b)'이 있었습니다. 하지만 Versor는 이 표준에 의문을 제기합니다. "행렬은 데이터를 처리하는 과정에서 매니폴드(Manifold)를 찢거나 구기는 왜곡을 발생시킨다"는 것입니다.

Versor는 이 "선형 대수의 천장(Linear Algebra Ceiling)"을 넘기 위해 개발된 기하 대수(Geometric Algebra) 기반 PyTorch 프레임워크입니다. 행렬 대신 로터(Rotor)를 사용하여 데이터의 고유한 위상 구조(Topological Structure)를 보존하는 새로운 딥러닝 패러다임을 제시합니다.

핵심 철학: Unbending (펴기) 후 Filtering (자르기)

Versor의 접근 방식은 단순히 "차원을 줄이지 않고 모두 가져가는 것"이 아닙니다. 핵심은 "데이터를 망가뜨리지 않고 정렬(Align)한 뒤, 필요한 정보만 깔끔하게 발라내는 것"입니다.

  1. Unbending (Rotor)

    일반 행렬은 전단(Shear)과 신축(Stretch)을 동반하지만, 로터의 샌드위치 곱은 등거리 변환(Isometry)입니다. 마치 구겨진 종이를 다림질하듯, 데이터의 거리와 각도를 완벽히 보존한 채로 회전시켜 폅니다.

  2. Geometric Filtering (BladeSelector)

    데이터가 기하학적으로 올바르게 펴지면, 정보는 특정 축(Basis Blade)이나 등급(Grade)에 정렬됩니다. 이때 BladeSelector가 노이즈는 버리고 핵심 기하 정보(예: 벡터 성분)만 남겨 차원을 축소합니다. 억지로 찌그러뜨려서 차원을 줄이는 기존 방식(Projection)과는 질적으로 다른 압축입니다.

주요 특징

  • Metric-Agnostic Kernel: 유클리드(Cl(3,0))부터 시공간(Cl(1,3)), 등각 기하(Cl(4,1))까지 서명(Signature)만 바꾸면 동일한 코드로 동작합니다.

  • White-Box AI: 학습 파라미터가 알 수 없는 숫자가 아니라 "회전 평면(Bivector)" 입니다. 모델이 데이터를 "어떤 평면으로 얼마나 돌려서 정렬했는지" 해석 가능합니다.

  • 고성능 경량화: O(n) 스케일링을 지원하며, M4 CPU에서도 실시간 추론(5.8ms/분자)이 가능할 만큼 가볍습니다.

최근 학계에서 주목받는 GATr 등이 트랜스포머 구조 안에서 GA를 활용하는 '아키텍처적 접근'을 취한다면, Versor는 연산의 최소 단위부터 로터를 도입하여 공간 왜곡을 원천 차단하는 '기하학적 본질'에 집중합니다. 덕분에 훨씬 적은 파라미터로도 실시간 추론이 가능한 경량성을 확보했습니다.

벤치마크 성과

  • QM9 (분자 물성): 3D 유클리드 기하학(Cl(3,0)) 적용 시, 단일 4090 GPU에서 1시간 학습만으로 MAE 14.42 meV 달성.

  • Motion Alignment (UCI-HAR): 고차원 모션 데이터를 회전만으로 선형 분리 가능한 잠재 공간으로 정렬하여 정확도 ~100% 달성.

  • Semantic Disentanglement (NLP): 20 Newsgroups 데이터셋에서 기하학적 분리를 통해 100%의 Grade Purity 달성. (Grade Purity 100%란, 복잡하게 얽힌 데이터가 노이즈 없이 오직 '벡터(Vector)' 성분으로만 완벽하게 분리·정렬되었다는 뜻으로, 기하학적 구조 학습이 성공했음을 수학적으로 증명합니다.)

과적합(Overfitting) 아닌가요?

빠른 수렴 속도와 높은 정확도 때문에 의심하실 수 있지만, 이는 강력한 기하학적 귀납 편향(Geometric Inductive Bias) 덕분입니다.

  • 일반 행렬(n x n)은 자유도가 너무 높아 노이즈까지 학습해버리지만,

  • Versor의 로터는 오직 '회전(Rotation)' 만 가능하도록 수학적으로 제약되어 있습니다.

  • 전단(Shear)이나 신축(Stretch)을 할 수 없는 구조이기 때문에, 모델은 데이터의 본질적 구조(Structure) 외에는 학습하고 싶어도 할 수가 없습니다. 덕분에 적은 파라미터로도 일반화 성능이 뛰어납니다.

Versor는 Pytorch 위에서 돌아가기에 유사한 인터페이스를 그대로 사용할 수 있습니다. 그리고 현재 새로운 태스크나 메트릭들을 활발하게 개발 중이니까, 많은 피드백 주시면 감사하겠습니다.

혹시 올려주신 프로젝트가 다음 논문의 내용과 어떻게 연관되는지 설명해주실 수 있을까요?

Versor: A Geometric Sequence Architecture
https://arxiv.org/abs/2602.10195
https://github.com/VersorAI/Versor

이름도 똑같고 사용하는 개념도 비슷한 것 같은데, 제가 잘 모르는 분야라서 어떤 식으로 연관이 되는 것인지 잘 모르겠습니다.
구체적인 데모가 다른 걸 보면 아마도 비슷한 시기에 비슷한 아이디어가 동시에 등장한 사례 같은데, 해당 분야의 최신 동향 자체가 이런 쪽으로 방향을 잡고 있는 것인지 궁금하여 질문 드립니다.

관심 가져주셔서 감사합니다. 질문 주신 논문에 대해서는 이미 인지하고 있으며, 제가 직접 면밀한 기술 검토를 진행한 바 있습니다.
​검토 결과, 해당 논문에서 주장하는 성능 지표의 물리적 불가능성과 데이터 조작 등 심각한 연구 부정행위(Research Misconduct) 정황을 다수 확인했습니다. 이에 따라 저자들의 소속 기관인 QMUL(Queen Mary University of London) 연구 윤리 위원회 측에 공식 제보를 완료한 상태입니다.
​현재 대학 측으로부터 제보가 정상 접수되어 공식적인 조사 절차(Triage stage)에 착수했다는 회신을 받은 상황입니다. 따라서 해당 논문은 아이디어가 우연히 겹친 사례라기보다는, 연구 윤리적 결함이 발견되어 공식적인 조사가 진행 중인 사안으로 이해해 주시면 감사하겠습니다.
​오리지널 프로젝트의 가치를 알아봐 주시고 질문 남겨주셔서 다시 한번 감사드립니다

그렇군요. 아무쪼록 일이 순리대로 풀리기를 바라겠습니다.

오 흥미롭네요.

뛰어나다 같은 모호한 지표가 아닌 숫자로 증명할수 있는 결과가 있나요?

피드백 감사합니다. 본문에 기재된 수치들이 다소 생소하여 '모호하다'고 느끼셨을 수도 있겠으나, Versor는 철저히 수치적 증명을 기반으로 개발되었습니다. 다시 한번 핵심 지표를 요약해 드립니다.

QM9 태스크에서 단일 4090으로 1시간 이내에 14.42 meV를 달성했습니다. 이는 수 일간의 대규모 클러스터 연산이 필요한 기존 SOTA 모델들과 비교했을 때, 수십 배의 자원 효율성을 입증하는 수치입니다.

CPU 환경(M4)에서도 5.8ms/molecule의 인퍼런스 속도를 기록하여 여타 다른 모델 대비 효율성을 확인했습니다.

UCI-HAR 태스크에서도 기하학적 정렬을 통해 100%의 정확도와 Grade Purity를 확보했습니다. 이는 단순한 통계적 추측이 아닌, 데이터의 위상 구조를 완벽히 정렬했음을 뜻하는 가장 명확한 숫자입니다.

Versor는 기하학적 제약 이라는 수학적 실체를 증명하고 있습니다. 앞으로 공개될 벤치마크에서도 수치로 답변드릴 예정이니 많은 관심 부탁드립니다.

수치도 잘 알려주셨지만, 수치의 비교를 알려주시면 좋을 것 같아요. 동일 하드웨어로 비슷한 것을 했을때 속도가 얼마나 빨라졌는지가 궁금하지, 속도가 '몇'인지는 사실 감도 안오고 별로 궁금하지 않은 사람도 많을 것 같아서요.

비교 데이터는 당연히 포함될 예정입니다. 다만, 이미 제시된 단일 GPU 시간당 효율 수치만으로도 아키텍처의 혁신성은 충분히 설명된다고 판단했습니다. 더 직관적인 비교를 원하신다면 조만간 업데이트될 그래프를 기다려 주시면 감사하겠습니다.

이런 접근 정말 좋은 것 같아요
대수위상쪽이 유의미하지 않을까 싶었는데, 이쪽이 훨씬 간단하네요

공감해 주셔서 정말 감사합니다. 저도 연구 과정에서 대수위상 쪽 접근을 고민해 보았지만, 결국 엔지니어링 관점에서는 기하대수의 명쾌함이 딥러닝과 더 잘 어우러진다는 결론을 얻었습니다. 그 '단순함'이 가진 가치를 알아봐 주신 덕분에 제 접근 방식에 큰 확신을 얻고 갑니다.