SimpleFold - 단백질 접힘은 생각보다 간단함

(github.com/apple)

2P by GN⁺ 9달전 | ★ favorite | 댓글 1개

SimpleFold는 Apple이 공개한 최초의 flow-matching 기반 단백질 접힘 예측 모델이자 단백질 구조 예측 오픈소스 프레임워크
기존 복잡한 도메인 특화 설계 대신 범용 Transformer 레이어와 flow-matching 생성 훈련만으로 높은 성능을 달성
3B(30억) 파라미터로 학습돼 역대 최대 규모를 자랑하고, 공개 벤치마크에서 SOTA(최첨단) 모델과 경쟁력을 보임
복잡한 구조적 모듈(삼중 어텐션, 쌍 표현 등)이 없어 효율적이며 대형 데이터셋 확장에 유리함
사용자 맞춤형 데이터로 모델 튜닝 및 재학습이 가능해 생명정보/제약 등 다양한 현업 활용도가 높음

SimpleFold 소개 및 의의

SimpleFold는 Apple이 발표한 최초의 flow-matching 기반 단백질 접힘 예측 모델임
기존 대표 모델들과 달리, 복잡한 트라이앵글 어텐션(triangle attention) 이나 쌍(pair) 표현 바이어스 없이 범용 Transformer 레이어만을 사용함
생성형 flow-matching 목표로 학습해, 단일 구성 뿐 아니라 앙상블 예측에서도 강력함을 보임
최대 3B 파라미터 규모로 확장해, 860만개 이상의 단백질 데이터와 실험 기반 PDB 데이터를 결합해 대규모 학습함
이는 지금까지 발표된 최대 규모의 단백질 접힘 모델임

주요 기능 및 장점

범용성: 제약 없이 다양한 도메인과 데이터셋에 적용이 가능함
효율성: 복잡한 도메인 특화 컴포넌트가 없으므로 학습 및 추론 속도, 모델 크기에 유리함
확장성: 100M~3B 파라미터까지 다양한 사이즈 제공, GPU/MLX(PyTorch/Apple 하드웨어) 모두 지원
생성형 학습: 여러 예측 결과를 한 번에 도출하는 앙상블 예측 지원
사용자 데이터 대응: 나만의 데이터셋으로 재학습, 튜닝, 커스텀 활용이 자유로움

사용 예시 및 지원 사항

Jupyter Notebook 예제(sample.ipynb) 제공, 실제 단백질 서열 입력으로 곧바로 구조 예측 가능함
고성능 추론: 명령줄 인터페이스에서 모델 사이즈 선택, 추론 백엔드(MLX, PyTorch) 지정, 결과 파일 및 신뢰도 지표(pLDDT) 반환 가능
벤치마크 데이터셋 결과: 표준 평가셋(CAMEO22, CASP14 등)의 SimpleFold 예측 결과 제공 및 오픈
평가: OpenStructure와 TMscore 등 기존 도구와 연결된 평가 스크립트 제공, 다양한 구조 예측 평가 가능함

학습 및 데이터 준비

학습용 데이터로 PDB 실험 데이터, AFDB SwissProt/AFESM/AFESM-E 등 860만개 이상의 정제된 단백질 구조 활용
데이터 리스트(타깃 리스트) 및 샘플 파일도 함께 공개해 연구자 맞춤형 데이터셋 구축 지원
MMCIF 파일 전처리, Redis 활용, Hydra 기반 설정 파일로 손쉽게 실험 환경 구축 가능함
예제 학습 스크립트(train.py, train_fsdp.py)와 설정(config) 제공

오픈소스 및 인용

MIT 라이선스로 공개, 어디에서든 자유로운 연구/상업 활용 가능함
코드 및 모델은 여러 오픈소스 및 협력자의 공헌을 포함하며, 자세한 내용은 ACKNOWLEDGEMENTS 참고 필요
활용 시 아카이브 논문(Arxiv:2509.18480) 인용

결론

SimpleFold는 기존 단백질 구조 예측 모델이 의존하던 복잡한 구조 대신, 단순하면서도 강력한 접근 방식으로 업계에 새로운 패러다임을 제시함
특히 범용 Transformer 구조와 생성형 훈련의 조합을 통해 생명과학, 신약개발, 바이오 정보 등 다양한 창의적 응용을 기대할 만함

GN⁺ 9달전 [-]

Hacker News 의견

여기서 놓치기 쉬운 점은, "간단한" 모델이 실제로는 실험적 구조에서 단순히 접힘을 배운 것이 아니라는 점임. 대부분의 학습 데이터가 AlphaFold 스타일 예측에서 왔고, 이는 이미 거대하고 MSA 기반의 복잡하게 설계된 모델들이 만든 수백만 개의 단백질 구조로 이루어짐. 즉, 모든 귀납적 편향과 MSA 도구들을 버릴 수 있는 게 아니며, 누군가는 그 모델들을 구축하고 돌려서 학습용 데이터를 만들어야 했음
- 내가 여기서 얻은 교훈은 단순성과 확장성임. 머신러닝 분야에서는 성능을 올리기 위해 점점 복잡해지는 모듈이 많이 나오다가, 갑자기 단순한 모델이 복잡한 모델과 맞먹는 돌파구가 등장하곤 함. 이런 '단순한' 아키텍처가 자체적으로 이렇게 잘 동작한다는 건 다시 복잡성을 넣어서 더 멀리까지 도달할 가능성도 있다는 의미임. 이제 MSA를 다시 집어넣는 게 가능할지 궁금함, 거기서 어디까지 갈 수 있을지도 궁금함. 내가 이해한 바로는, '러프' 생성 모델이 여러 괜찮은 추측을 내놓고, 좀 더 공식적인 '검증기'들이 물리/기하학 법칙을 지키도록 해줌. AI는 상상도 못할 정도로 큰 탐색 공간을 줄여서, 값비싼 시뮬레이션이 쓸모없는 곳에서 낭비되는 일을 줄여줌. 추측 네트워크가 개선되면 전체 과정이 더 빨라짐. 과거를 돌이켜보면 레드커런트 네트워크에 점점 복잡해지는 트랜스퍼 함수, 스킵 포워드 레이어 이전의 복잡한 전처리 체인, Relu 이전의 복합 정규화 목표, diffusion 이전의 복합 목적 GAN 네트워크, 풀컨볼루션 네트워크 이전의 복합 멀티패스 모델 등 생각남. 이런 점에서, 나는 이 연구가 최적의 아키텍처이기 때문이 아니라 오히려 아니기 때문에 매우 흥분됨
- 이게 그렇게 이상한 일인지 모르겠음. 거의 모든 단순한 것들은 한때 복잡했다고 여겨졌음. 발현(emergence)이란 게 바로 그런 거고, 보통 일반화되고 단순한 공식을 찾으려면 먼저 모든 복잡함을 겪어야 함. 자연의 현상들도 사실은 비교적 단순한 규칙에서 나온다는 건 명백함. 마치 Game of Life에서 그 규칙과 초기 값을 역으로 추정하는 것과 비슷함. 그런 일이 쉽다고 말하는 사람은 자신감이 너무 지나침. 하지만 정말로 P=NP라고 믿는 사람은 거의 없을 것임
- AlphaFold는 X선으로 접힌 단백질을 실험적으로 관찰해가며 검증한 모델임
- 맞음. 혹시 모르는 사람들을 위해 말하자면, MSA는 기존 PDB 구조에서 새로운 서열로 일반화할 때 쓰임. AlphaFold2 결과로 학습시키면 그 일반화 결과까지 이미 포함되어 있어서, 이제는 모델에 그 능력이 필요 없게 되는 것임(암기만 해도 되는 셈). 이 단순한 결론이 논문 저자들에게는 간과된 듯함
대학 기숙사에서 에너지가 거의 무료였고 미디어 서버가 남아돌던 시절 Folding@Home(https://foldingathome.org) 프로젝트에서 단백질 접힘을 처음 접했었음. 전문가는 아니지만, 요즘 하드웨어에서는 단백질 접힘이 예전보다 많이 단순화된 건지, 아니면 특정 문제에만 적용되는지 궁금함. Folding@Home 프로젝트도 아직도 있는 것 같음
- 내가 알기로 Folding@Home은 물리 기반 시뮬레이션 솔버였고, AlphaFold 및 그 후손(여기서 말하는 것도 포함)은 통계적 방법임. 통계적 방법은 계산량이 훨씬 저렴하지만, 이미 존재하는 단백질 접힘을 기반으로 하기에 학습 세트랑 비슷한 단백질이 아니면 예측력이 약함. 즉, 속도와 범용성 사이의 트레이드오프가 있지만, 그만큼 성능이 높아져서 원하는 단백질의 접힘 구조를 웬만하면 뽑을 수 있게 되었음. 과거엔 거의 불가능에 가까웠던 접힘 예측이 이제는 일반 워크플로우의 일부가 되어버림
- SETI@Home도 즐겼고, 결과가 뭔지 100% 몰라도 시각화 효과가 눈에 띄어 즐거웠음
- F@H 블로그 글(링크)에 따르면, 최종 접힌 형태뿐만 아니라 접힘 동역학을 아는 것도 여전히 중요하다고 언급함. ML로 예측된 단백질들 역시 시뮬레이션의 검증 및 작동 원리 파악을 위한 중요한 표적임
- Folding@Home은 여전히 활발하게 운영되고 있고 그동안 훌륭한 발견을 많이 해냈음 (논문/결과 링크)
"우리 방식은 최첨단(state of the art) 모델보다 더 단순하다"라는 논문의 내용임. 하지만 "모든 측정 지표에서 최첨단보다 상당히 뒤진다"고는 크게 말하지 않음. 논문 내기도 쉽지 않겠지만 대기업 이름 달고 preprint로 올리면 좀 더 눈길을 끄는 듯함
이 글 본문에 연결된 깃허브 저장소는 꼭 읽어볼 만함 (arXiv 링크)
- 초록만 봐도(내가 제대로 읽은 게 맞다면), "똑같이 AI는 필요하지만, 다른 방법들보다 훨씬 적은 AI만 써도 된다"는 말임
- 깃허브 링크에도 관심 있는 분들을 위해 공유함 (apple/ml-simplefold)
왜 Apple이 단백질 접힘을 하는지 궁금함
- Apple도 ML 리서치 그룹이 있음. 확실히 Apple다운 연구뿐만 아니라, 다양한 범용 최적화나 기초 연구 같은 여러 테마를 하고 있음 (Apple Machine Learning Research)
- 나도 모르겠음. 하지만 직접 매출을 기대하지 않아도 되는 R&D직에 지원하고 싶음. 어쩌면 이런 프로젝트들이 자사 AI 칩을 실험/다듬으려고 테스트로 사용되는 것일 수도 있을 듯함
- 로컬 추론 때문이라고 생각함. Apple은 이런 최첨단 모델을 소형화해 데스크탑에서 빠르게 추론할 수 있게 만들고 싶어하는 것 같음. 논문에서도 M2 Max 64GB에서 추론 결과가 Figure 1E에 나옴. 사실 이런 아이디어는 훌륭함. 작은 제약회사도 빠른 로컬 추론 기능 덕분에 많은 장벽을 쉽게 넘을 수 있음. 생성한 서열로 베이지안 최적화나 RL도 실험할 수 있음. 비교하면 AlphaFold는 꽤 많은 자원이 필요함. 게다가 다중 서열 정렬의 활용 자체도 좀 억지스럽고, 비슷한 단백질이 없는 경우에는 성능이 나빠지고, 전처리도 엄청 많이 해야 함. Meta의 ESM(몇 년 전)도 이미 정렬 없이도 잘된다는 걸 증명했음. AlphaFold가 특별한 마법을 가진 건 아니고, 그냥 seq2seq 문제라 다양한 방식이 다 잘 됨. attention-free SSMs도 포함해서.
- 컴퓨터를 팔기 위해서임? 20년 전만 해도 Apple은 WWDC에서 과학용 포스터 세션도 하고 Mac에 PyMol을 포팅하려고 노력했음. 논문에 나오는 단백질 그림은 PyMol로 만들었고, 지난 15년 동안 과학 논문 이미지의 절반 이상이 PyMol로 만들어졌음
- 이게 진짜 이유인지는 모르겠지만, "ai for science" 프로젝트 중 상당수는 실은 마케팅용임. 회사 제품에 직접적 이득이 되지 않거나 실질적인 성과가 없을지라도, 이런 프로젝트들은 "브랜드 위상"에 상당히 긍정적으로 작용함
AlphaFold가 공개된 뒤로, 고전적인 분자동역학(MD) 시뮬레이션은 단백질 접힘 분야에서 이제 쓸모없어졌는지 궁금함. DESRES 같은 곳에서 나오는 연구는 단백질 접힘과 직접 연관된 분야인지, 아니면 완전히 다른 연구를 하는지 궁금함
- MD는 원자들의 움직임을 다루고, AlphaFold는 결과 스냅샷만 제공함. 즉, AlphaFold는 동역학을 다루지 않음. MD의 핵심은 여전히 움직임임
- AlphaFold V3의 파라미터는 특정 단체에만 공급되고(비상업적 용도 한정), 누구나 받을 수 없다는 사실이 궁금해서 찾아봄 (V3 파라미터), 반면에 AlphaFold V2는 누구나 다운로드 받을 수 있음 (V2 파라미터)
- MD는 원래 구조 예측용으로 제대로 쓸 수 있는 방법이 아니었음. AlphaFold 때문에 쓸모 없어졌다기보단, 원래 MD는 단백질 접힘 그 자체(최종 구조가 만들어지기 전 과정, 혹은 접힌 후의 체계적인 움직임)를 연구하는 데 더 용이함
논문에 실린 단백질 그림이 뭔지 궁금해서 찾아봄: "Figure 1 SimpleFold 예측 결과… 실제 결과는 밝은 에메랄드 색, 예측은 진한 청록색". 근데 왜 그런 색 조합을 쓴 건지 더 궁금해짐
- 그림 a)는 단백질 7QSW(https://www.ebi.ac.uk/pdbe/entry/pdb/7qsw) 즉, 광합성의 핵심인 식물 단백질 RubisCO(https://en.wikipedia.org/wiki/RuBisCO)의 리본 다이어그램임. 색깔은 예측값과 실제(ground truth) 값을 구분할 때 쓰였음. 구분이 힘든 이유는 말씀하신 색상 선택도 있지만, 예측과 실제가 너무 가까워서임. 만약 예측이 정확하지 않았다면 3D 공간 상에서 따로 튀어나와 잘 맞지 않는 부위가 보여야 함
전문가가 이 접근법이 단백질 접힘 연구에 미칠 의미에 대해 평가해주면 좋겠음. 멋진 연구로 보이지만 실제로 어떤 영향이 있는지는 잘 모르겠음
- 이 모델은 표현이 단순해서 그냥 transformer만 사용함. transformer에 맞춘 여러 이론이나 도구를 그대로 사용할 수 있고, 가장 중요한 건 모델 확장이 쉬움. 그보다 중요한 점은, AlphaFold에 마법이 없었다는 사실임. 아키텍처나 학습 방법의 세부 자체보다는, 결국 큰 데이터셋에 큰 모델을 학습시키는 게 관건이었음. 실험적으로 AlphaFold를 써본 많은 사람들이 LLM과 비슷하게(학습 데이터셋과 유사한 입력엔 잘 맞지만, 일반화는 거의 안 됨) 동작하는 걸 관찰했음
- 향후 모델에 변화가 있을 수도 있음. 어떤 사람의 의견이 참고될 수 있음(SimpleFold와 단백질 구조 예측의 미래). 하지만 항상 연구는 시간이 걸리고, 실제 임팩트는 몇 달, 몇 년은 봐야 알 수 있음. 미래 예측은 제한적임
완전히 새로운 건 아니지만, 단백질 접힘 모델이 점점 단순화되는 흐름을 보는 게 매우 인상적임. AF2에서 AF3로도 모델 복잡도가 줄었고, 이번 연구는 그 흐름에서 또 한 단계 더 나아가 'bitter lesson'을 실천 중임
- AF3가 실제로 성능을 보장할 수 있었던 건, 학습 데이터에 AF2 결과(이미 많은 inductive bias가 들어간)를 넣었기 때문 아닐까 의문임
논문에서 다루는 Flow-matching 기법이 정말 흥미로움. 생성형 AI 문맥에서 공부하다 알게 되었는데, 열역학적 개념과 브라운 운동을 빌려 온 기법이 다시 단백질 접힘 문제 해결에 완벽하게 쓰이는 게 신기함

답변달기

SimpleFold - 단백질 접힘은 생각보다 간단함

SimpleFold 소개 및 의의

주요 기능 및 장점

사용 예시 및 지원 사항

학습 및 데이터 준비

오픈소스 및 인용

결론

함께 보면 좋은 글 β

댓글과 토론

Hacker News 의견