일러스트레이티드 AlphaFold
(elanapearl.github.io)소개
이 글을 읽어야 할 사람
- AlphaFold3의 작동 방식을 이해하고 싶은 사람
 - 복잡한 구조를 시각적으로 이해하고 싶은 사람
 - 머신러닝에 익숙한 사람
 
아키텍처 개요
- AlphaFold3는 단백질, 핵산, 소분자 등의 구조를 예측함
 - 복잡한 입력 타입을 처리하기 위해 더 복잡한 특징화/토큰화 방식 사용
 
입력 준비
토큰화
- 표준 아미노산: 1 토큰
 - 표준 뉴클레오타이드: 1 토큰
 - 비표준 아미노산/뉴클레오타이드: 1 토큰 당 원자
 - 기타 분자: 1 토큰 당 원자
 
검색 (MSA 및 템플릿 생성)
- 유사한 서열을 찾아 MSA와 템플릿 생성
 - 유클리드 거리 계산 후 디스토그램으로 변환
 
원자 수준 표현 생성
- 각 아미노산, 뉴클레오타이드, 리간드의 "참조 구조" 생성
 - 원자 수준의 단일 표현(q)과 쌍 표현(p) 생성
 
원자 수준 표현 업데이트 (Atom Transformer)
- q와 p를 업데이트하여 더 나은 표현 생성
 - Adaptive LayerNorm, Attention with Pair Bias, Conditioned Gating, Conditioned Transition 사용
 
원자 수준 -> 토큰 수준 집계
- 원자 수준의 표현을 토큰 수준으로 변환
 - MSA 및 사용자 제공 정보 추가
 
표현 학습
템플릿 모듈
- 템플릿을 사용하여 z 업데이트
 
MSA 모듈
- MSA와 z를 업데이트
 - Outer Product Mean, Row-wise Gated Self-Attention Using Only Pair Bias 사용
 
Pairformer 모듈
- s와 z를 업데이트
 - Triangle Updates, Triangle Attention 사용
 
구조 예측
확산의 기본 원리
- 확산 모델을 사용하여 구조 예측
 - 노이즈를 추가하고 제거하여 최종 구조 생성
 
GN⁺의 정리
- AlphaFold3는 단백질, 핵산, 소분자 등의 복잡한 구조를 예측함
 - 시각적 다이어그램과 함께 복잡한 모델 구조를 설명하여 이해를 돕음
 - 머신러닝과 생명공학 분야에서 중요한 발전을 이룬 모델임
 - 유사한 기능을 가진 프로젝트로는 RosettaFold 등이 있음
 
Hacker News 의견
- 
이 글은 구조 생물학자가 이해할 수 있도록 논문을 번역해줘서 감사함
 - 
PTM의 수가 제한된 AF3가 모든 원자를 개별 토큰으로 처리해야 한다는 것을 알게 됨
 - 
이는 PTM이 PDB에서 매우 적게 나타나기 때문일 것임
 - 
신경망과 AI 기술이 미래에 어떻게 구현될지 엿볼 수 있는 글임
 - 
많은 엔지니어링과 기존 기술의 영리한 조작이 강력하고 잘 훈련된 모델과 결합됨
 - 
현재 ChatGPT 같은 것은 데이터 일반화와 처리의 기초 모델을 만드는 첫 단계에 있음
 - 
입력을 모델이 최적으로 이해할 수 있도록 처리하는 작업이 많이 이루어지지 않음
 - 
이 분야에 대한 기초적인 연구는 있지만 Alphafold 같은 정교한 것은 아직 없음
 - 
사람들은 LLM을 결합하고 시스템 프롬프트를 사용해 입력 처리를 돕고 있음
 - 
더 복잡한 시스템이 생기면 진정한 AGI와 유사한 것을 볼 수 있을 것임
 - 
매우 복잡함
 - 
단백질 서열을 정렬하는 데 사용되는 MSA 알고리즘에 대해 듣지 못했음
 - 
놀라운 글임, 감사함
 - 
더 자세히 읽어볼 예정임