1P by neo 2달전 | favorite | 댓글 1개

소개

이 글을 읽어야 할 사람

  • AlphaFold3의 작동 방식을 이해하고 싶은 사람
  • 복잡한 구조를 시각적으로 이해하고 싶은 사람
  • 머신러닝에 익숙한 사람

아키텍처 개요

  • AlphaFold3는 단백질, 핵산, 소분자 등의 구조를 예측함
  • 복잡한 입력 타입을 처리하기 위해 더 복잡한 특징화/토큰화 방식 사용

입력 준비

토큰화

  • 표준 아미노산: 1 토큰
  • 표준 뉴클레오타이드: 1 토큰
  • 비표준 아미노산/뉴클레오타이드: 1 토큰 당 원자
  • 기타 분자: 1 토큰 당 원자

검색 (MSA 및 템플릿 생성)

  • 유사한 서열을 찾아 MSA와 템플릿 생성
  • 유클리드 거리 계산 후 디스토그램으로 변환

원자 수준 표현 생성

  • 각 아미노산, 뉴클레오타이드, 리간드의 "참조 구조" 생성
  • 원자 수준의 단일 표현(q)과 쌍 표현(p) 생성

원자 수준 표현 업데이트 (Atom Transformer)

  • q와 p를 업데이트하여 더 나은 표현 생성
  • Adaptive LayerNorm, Attention with Pair Bias, Conditioned Gating, Conditioned Transition 사용

원자 수준 -> 토큰 수준 집계

  • 원자 수준의 표현을 토큰 수준으로 변환
  • MSA 및 사용자 제공 정보 추가

표현 학습

템플릿 모듈

  • 템플릿을 사용하여 z 업데이트

MSA 모듈

  • MSA와 z를 업데이트
  • Outer Product Mean, Row-wise Gated Self-Attention Using Only Pair Bias 사용

Pairformer 모듈

  • s와 z를 업데이트
  • Triangle Updates, Triangle Attention 사용

구조 예측

확산의 기본 원리

  • 확산 모델을 사용하여 구조 예측
  • 노이즈를 추가하고 제거하여 최종 구조 생성

GN⁺의 정리

  • AlphaFold3는 단백질, 핵산, 소분자 등의 복잡한 구조를 예측함
  • 시각적 다이어그램과 함께 복잡한 모델 구조를 설명하여 이해를 돕음
  • 머신러닝과 생명공학 분야에서 중요한 발전을 이룬 모델임
  • 유사한 기능을 가진 프로젝트로는 RosettaFold 등이 있음
Hacker News 의견
  • 이 글은 구조 생물학자가 이해할 수 있도록 논문을 번역해줘서 감사함

  • PTM의 수가 제한된 AF3가 모든 원자를 개별 토큰으로 처리해야 한다는 것을 알게 됨

  • 이는 PTM이 PDB에서 매우 적게 나타나기 때문일 것임

  • 신경망과 AI 기술이 미래에 어떻게 구현될지 엿볼 수 있는 글임

  • 많은 엔지니어링과 기존 기술의 영리한 조작이 강력하고 잘 훈련된 모델과 결합됨

  • 현재 ChatGPT 같은 것은 데이터 일반화와 처리의 기초 모델을 만드는 첫 단계에 있음

  • 입력을 모델이 최적으로 이해할 수 있도록 처리하는 작업이 많이 이루어지지 않음

  • 이 분야에 대한 기초적인 연구는 있지만 Alphafold 같은 정교한 것은 아직 없음

  • 사람들은 LLM을 결합하고 시스템 프롬프트를 사용해 입력 처리를 돕고 있음

  • 더 복잡한 시스템이 생기면 진정한 AGI와 유사한 것을 볼 수 있을 것임

  • 매우 복잡함

  • 단백질 서열을 정렬하는 데 사용되는 MSA 알고리즘에 대해 듣지 못했음

  • 놀라운 글임, 감사함

  • 더 자세히 읽어볼 예정임