3P by neo 3달전 | favorite | 댓글 1개
  • Ligo Biosciences의 창립자들이 단백질 구조 예측을 위한 최신 모델인 AlphaFold3의 오픈 소스 구현을 공유
  • Google DeepMind와 그들의 새로운 스타트업 Isomorphic Labs는 신약 개발로 사업을 확장하고 있음
    • AlphaFold3를 개발하여 신약 개발을 가속화하고 제약 회사들의 수요를 창출함
    • 이미 Novartis 및 Eli Lilly와 30억 달러 규모의 계약을 체결함
  • AlphaFold3는 생체 분자 구조 예측(biomolecular structure prediction) 모델로 3가지 주요 기능을 함
    • 단백질 구조 예측
    • 약물-단백질 상호작용 구조 예측
    • 핵산-단백질 복합체 구조 예측
  • AlphaFold3는 단백질 구조의 매핑을 엄청나게 가속화하기 때문에 과학 분야에서 매우 중요함
    • 한 명의 박사 과정 학생이 전체 박사 과정 동안 한 구조를 연구하는 데 비해, AlphaFold3를 사용하면 실험적 정확도에 필적하는 예측을 몇 분 만에 얻을 수 있음
  • 문제는 DeepMind가 5월에 AlphaFold3을 발표했지만 코드는 공개하지 않음
    • 이는 재현 가능성에 대한 의문과 과학계의 불만을 야기함
  • AlphaFold3는 생명공학 업계 전체가 혜택을 누릴 수 있는 구조 모델링 기술의 근본적인 발전으로 그 활용 분야는 매우 광범위함
    • CRISPR 유전자 편집 기술 : 과학자들이 DNA가 가위 Cas 단백질과 어떻게 상호 작용하는지 정확히 볼 수 있음
    • 암 연구 : 잠재적 약물이 암 표적에 어떻게 결합하는지 예측 가능. DeepMind 논문의 하이라이트 중 하나는 임상 KRAS 억제제와 그 표적의 복합체 구조 예측
    • 항체/나노바디와 표적 예측 : AlphaFold3는 이 분자 클래스에 대한 정확도를 차순위 도구 대비 2배 향상시킴
  • 안타깝게도 비상업적 라이선스이기 때문에 어떤 회사도 사용할 수 없음
  • 그래서 AlphaFold3 오픈 소스 구현을 릴리스함
    • 단일 사슬 단백질로 학습된 전체 모델을 공개하며, 다른 두 가지 기능은 곧 학습 및 릴리스 예정
    • 훈련 코드도 포함됨
    • 가중치는 교육 및 벤치마킹이 완료되면 공개예정
    • Apache 2.0 라이선스를 사용하여 진정한 오픈 소스가 되도록 함
  • DeepMind는 논문을 통해 각 구성 요소의 의사 코드와 함께 모델의 전체 구조를 공개했음
    • 이를 파이토치로 완전히 번역했는데, 생각보다 많은 리버스 엔지니어링이 필요했음
  • 초기 구축시에 DeepMind 논문에서 학습을 방해할 여러가지 문제를 발견함. 딥러닝 커뮤니티가 흥미로워 할 듯
    • MSE 손실 스케일링이 Karras et al. (2022)과 다름. 논문에서 제공된 가중치는 높은 노이즈 수준에서 손실을 낮추지 않음
    • 논문에서 residual layer가 누락됨
      • 누락된 residual layer를 추가했더니 gradient flow와 수렴에 이점이 있었음
      • DeepMind가 DiT 블록에서 residual connection을 생략한 이유를 아는 사람이 있는지 궁금
    • MSA 모듈의 현재 형태에는 dead layer가 존재함
      • 마지막 pair weighted averaging과 transition layer는 pair representation에 기여할 수 없어 gradient가 전파되지 않음
      • AlphaFold2의 ExtraMsaStack과 같은 순서로 교체함
      • Weight sharing을 사용하는 것도 대안이 될 수 있지만, 논문에서는 이에 대한 설명이 모호함
  • Ligo(YC S24) 에서는 효소 설계를 위해 AlphaFold3의 아이디어를 사용하고 있음
  • AlphaFold3의 오픈 소스화는 커뮤니티에 도움이 되는 부수적인 임무라고 생각함

GN⁺의 의견

  • AlphaFold3는 단백질 구조 예측 분야에서 혁신적인 기술로, 신약 개발 및 생명 과학 연구에 큰 영향을 미칠 것으로 예상됨
  • 그러나 DeepMind가 코드를 공개하지 않은 것은 과학계의 재현 가능성과 협업 정신에 어긋나는 행동이라고 볼 수 있음
  • AlphaFold3와 유사한 기능을 가진 오픈 소스 프로젝트로는 OpenFold, RoseTTAFold 등이 있음
  • AlphaFold3를 도입할 때는 모델의 정확도와 한계, 계산 자원 요구 사항 등을 면밀히 검토해야 함
  • 오픈 소스 구현의 등장으로 인해 더 많은 연구자와 기업이 AlphaFold3의 혜택을 누릴 수 있게 되었지만, 상용화에는 여전히 제약이 있음
Hacker News 의견
  • DeepMind와 AlphaFold가 폐쇄형 소스로 전환 중임

    • Isomorphic Labs를 Alphabet의 부서로 설립하여 폐쇄형 소스 작업에 집중하고 있음
    • 학술 도구의 오픈 소스 버전이 이론적으로 좋을 것 같음
    • 이 분야에 익숙하지 않아 구체적인 이점을 지적하기 어려움
    • 회사의 계획이 무엇인지 궁금함
    • 오픈 소스 프로젝트를 비즈니스 모델의 일부로 계속 작업할 것인지, 아니면 일회성인지 궁금함
    • 웹사이트가 판매하려는 것에 대해 매우 모호함
  • 예측이 어떻게 검증되는지 궁금함

    • 예측 후에도 X-ray 결정학, 극저온 전자현미경 등 실험 기술을 사용해야 하는지 궁금함
    • 예측이 현실과 매우 가까워 실험 없이 진행할 수 있는지 궁금함
  • 구현에 대한 논문을 출판할 생각이 있는지 궁금함

    • 나중에 문헌에서 인용하기 쉽게 만들 것임
    • 주요 저널이 그러한 논문을 받아들일지 궁금함
    • 재현성에 대한 질문이 있다면 받아들일 것 같음
  • 이 오픈 버전을 상업적 환경에서 사용할 수 있게 되어 기쁨

    • 회사를 시작하는 멋진 방법임
  • 이 구현의 이름을 변경하는 것이 좋을 것 같음

    • 실제로 AlphaFold3가 아니기 때문임
    • DM으로부터 이름 사용에 대한 중지 요청을 받을 수 있음
  • 모델 코드 자체는 도전 과제의 작은 부분임

    • 훈련 컴퓨팅과 훈련 데이터가 훨씬 더 큰 부분임
    • Google은 아마도 다른 누구보다도 큰 규모의 훈련 컴퓨팅에 접근할 수 있음
  • 컴퓨팅 프로테오믹스에 대해 짧게 경험한 적 있음

    • 그 분야는 정말로 다음 수준임
  • 의사 코드만 공개하는 것이 충분하지 않다는 것을 누가 생각했겠음

    • 폐쇄형 과학에 맞서 싸우는 과학적 면역 체계를 보게 되어 기쁨
    • Google의 다음 움직임이 궁금함
  • ColabFold에 익숙한지 궁금함

  • 다음 단계가 무엇인지 궁금함

    • 왜 효소 설계에 집중하기로 결정했는지 궁금함