AlphaGenome: 게놈을 더 잘 이해하기 위한 AI
(deepmind.google)- Google DeepMind가 AlphaGenome이라는 새로운 DNA 서열 AI 모델을 공개함
- 이 모델은 유전자 조절 변이 효과 예측에서 정밀도를 높이고, 다양한 유전자 조절 과정을 예측할 수 있음
- 1백만 염기쌍까지 긴 DNA 서열을 입력받아 다양한 생명 현상을 고해상도로 예측하는 것이 특징임
- 기존 모델과 달리 다양한 생체 조직 및 세포 유형에 대해 변이의 영향을 한 번에 평가할 수 있음
- AlphaGenome은 연구자들이 유전자 기능과 질병 생물학을 이해하고, 새로운 치료법 발견을 가속화하는 데 기여할 것으로 기대됨
AlphaGenome 소개
- Google DeepMind는 AlphaGenome이라는 새로운 DNA 서열 AI 모델을 공개
- 이 모델은 유전자 조절에 영향을 미치는 단일 변이 혹은 돌연변이의 효과를 정밀하게 예측함으로써, 게놈 기능 연구와 질병 이해에 중요한 전환점을 제공
- API를 통해 연구 목적으로 미리 사용 가능하며, 향후 모델도 공개할 예정
AlphaGenome 작동 방식
- AlphaGenome은 최대 1백만 염기쌍 분량의 긴 DNA 서열을 입력값으로 받아 다양한 분자적 특성을 예측함
- 예측 가능한 특성에는 유전자 위치, RNA 생성량, DNA 접근성, 단백질 결합 부위 등 수천 가지가 포함됨
- ENCODE, GTEx, 4D Nucleome, FANTOM5 같은 대규모 공개 데이터로 모델을 학습함
- 내부적으로 컨볼루션 레이어로 짧은 패턴을 먼저 감지하고, 트랜스포머로 서열 전반의 정보를 결합한 뒤, 다양한 예측값을 도출함
- 분산 TPU 환경에서 대용량 연산을 처리하여 학습 효율을 높임
- 이전 Enformer 모델에서 발전해, 단백질 코딩 영역 전용 AlphaMissense와 달리 비암호화 영역(전체 게놈의 98%)까지 포괄적으로 분석함
AlphaGenome의 차별점
- 초고해상도, 장거리 서열 분석 : 1백만 염기쌍 단위로 분석하며, 한 염기 수준의 정밀도로 결과를 제공함
- 기존 모델보다 훈련 효율성이 높으며, 더 적은 자원으로 빠르게 학습함
- 통합 멀티모달 예측 : 다양한 유전자 조절 단계별 정보를 한 모델에서 동시에 예측
- 효율적 변이 점수화 : 변이된 서열과 정상 서열을 즉각 비교하여, 다양한 생명 현상의 변이 영향도를 신속하게 계산함
- 혁신적 스플라이싱 결합부 모델링 : 유전자 스플라이싱 위치와 발현 수준을 직접 예측하여, 희귀 질환 연구에도 기여함
첨단 성능 및 벤치마크 결과
- AlphaGenome은 게놈 예측 벤치마크 24개 중 22개, 변이 규제 효과 평가 26개 중 24개에서 외부 최고 모델들을 능가하거나 동등한 성능을 달성함
- 개별 작업에 특화된 모델들보다 다양한 형태의 생체 특성을 단일 API 호출로 동시에 예측할 수 있는 유일한 모델임
통합형 모델의 장점
- 여러 모달리티를 통합적으로 다룰 수 있어, 과학자가 다양한 가설과 실험을 빠르게 반복 가능함
- DNA 서열의 일반적 표현을 학습해, 커뮤니티에서 추가 학습·최적화가 쉬움
- 데이터나 적용 범위를 추가해 확장 가능한 유연성과 확장성 제공
강력한 연구 도구로써의 의미
- 질병 이해 : 희귀 변이 등 질병 원인 규명, 치료 타깃 탐색에 활용 가능성
- 합성 생물학 : 특정 기능을 가진 합성 DNA 설계에 활용 가능
- 기초 연구 : 게놈의 핵심 기능 요소 맵핑 및 세포별 조절 요소 발굴 지원
- 실제로 AlphaGenome은 T-ALL(급성 림프구성 백혈병) 관련 변이가 MYB DNA 결합 모티프 형성으로 인근 TAL1 유전자 활성화를 유발함을 예측하여, 해당 변이가 질병 유전자에 미치는 영향 메커니즘을 성공적으로 복제함
현재 한계
- 10만 염기 이상 떨어진 매우 먼 조절 요소 효과 파악은 여전히 도전 과제임
- 세포 및 조직 특이적 패턴 인식도 추가 연구 필요
- 개인 게놈 예측(개인 맞춤 진단·예측) 용도는 현재 고려하지 않음
- 분자 수준 예측만 가능하며, 모든 질병의 복잡한 원인을 완전히 설명하지는 못함
- 현재 연구용 발표 단계로, 직접적 임상 적합성 평가나 치료 적용은 아직 불가함
커뮤니티 지원 및 앞으로의 방향
- API를 비상업적 연구 목적으로 즉시 사용할 수 있으며, 연구 커뮤니티와 폭넓은 협업을 통해 AlphaGenome의 활용도를 높일 계획임
- 커뮤니티 포럼 등을 통해 피드백과 사용 사례를 받고 있음
- 더 많은 데이터, 종, 모달리티가 추가된 확장 버전으로 진화할 예정임
- 게놈 해석과 관련된 새로운 의료 및 생명과학 연구 혁신 촉진 기대
마무리
- AlphaGenome은 한 번에 다양한 관점에서 유전 변이의 의미를 해석하고, 기초 및 임상 연구를 가속화할 새로운 AI 기반 게놈 분석 도구임
- 외부 전문가 집단과 협력하여, 가능한 많은 사람들에게 게놈 데이터 기반 혁신을 확산할 계획임
유전자 예측을 다루는 AI 모델의 멀티모달리티란 어떤 모달들인가? 하는 궁금증이 생겨서 o3 에게 물어보니 전사량, 전사 시작끝 위치, 스플라이싱 등등을 모달리티라고 한다고 알려주네요.
Hacker News 의견
-
기업의 압박이 심해지고 있다는 신호를 볼 수 있는 부분으로, 단일 A100에서 돌릴 수 있는 모델임에도 코드 공개나 파라미터 공개는 없이 API 뒤에서만 구동하고 논문 31페이지에는 모델 전체를 의사 코드로 복붙해두는 모습 관찰, Google/Demis/Sergei에게 그냥 파라미터라도 공개해달라는 바람, 이렇게 작은 모델이 API 뒤에만 있어서 암까지 치료할 수 있을 리 없고, GCloud 수익도 크게 날 것 같지 않다는 생각
-
세포 시뮬레이션 분야에서 돌파구가 생겨, 분자동역학처럼 유용하면서도 현대 슈퍼컴퓨터에서 가능한 수준의 시뮬레이션 구현 기대, 내부에서 어떤 일이 일어나는지 볼 수 없다는 게 생명과학 연구의 큰 장애물이라고 판단
- Arc에서 실제로 이 작업에 도전 중, 자세한 내용은 arcinstitute.org의 관련 뉴스에서 확인 가능
- 이 부분은 양자 컴퓨팅이 해결해줄 수 있다고 생각하지만, 아직 10년 정도 걸릴 것으로 예상, AI 가속화는 예측이 어려움
- 진정한 결정론적 시뮬레이션을 만들려는 노력이 더 많아졌으면 하는 바람, 결과만 보여주는 블랙박스보다는 내부 과정을 드러내는 방식이 더 중요하다고 생각
-
DeepMind만이 높은 임팩트를 주는 AI 응용 연구를 하는 건 아니지만, 이 분야에서 돋보이게 두각 드러내는 점이 궁금, 기술 마케팅이 뛰어난 걸까, 아니면 다른 이유 때문인지 질문
- 이번 논문은 잘 만들어진 연구이지만, 획기적 혁신으로 보긴 어렵고, 비슷한 시도가 이미 오랫동안 이어졌다는 의견
- DeepMind가 오래전부터 이 일을 해왔고 구글이 제공하는 막대한 자원이 뒷받침함, perplexity에 따르면 alphafold 2 데이터베이스 구축에 “수백만 GPU 시간” 소요
- 생명과학 분야에서 Arc Institute가 매우 신선한 연구를 진행 중, 제약사 가운데서는 Genentech 또는 GSK가 AI 그룹에서 훌륭한 성과 내는 중
- 구글 산하 조직이니 2조 달러짜리 회사의 지원은 단지 마케팅 이상의 이점을 가져온다고 생각
-
입력 크기를 인간 게놈 크기인 3.2Gbp로 확장하는 상상을 해보니 흥미로운 상호작용이 나타날 것 같음, U-net과 transformer가 연구의 중심이 되고 있는 것도 흥미 포인트
- 실제론 2메가베이스 이상은 필요하지 않다고 생각, 게놈이 하나의 연속적 서열이 아니라서 크로모좀과 topologically associated domain 단위로 물리적으로 분리/조직됨, 2메가베이스 정도면 cis regulatory element와 effector gene 사이의 주요 상호작용 범위 거의 다 포함
- “모든 게 U-net과 transformer 중심으로 돌아가는 게 흥미롭다”는 데에, ‘망치만 가진 사람’ 관점 언급
-
기업 내부에선 게놈 데이터를 이용해 광고 효율을 높이는 아이디어도 나올 것으로 추정, 예를 들어 대장암 위험이 보이면 “대장 건강 보조제” 광고, 유전자 정보로 성향 분석해서 “이 유전자는 블랙 유머를 좋아하는 경향과 상관 있음, 이 유전자를 가진 사람들 대상으로 새 영화 홍보” 같은 마케팅 전략 가능 예상
-
RNA 예측 성능의 큰 도약은 mRNA 연구실에 큰 기회 제공 예상
- (바로 이어지는 답글: 이 점은 미국 외 지역에서 더 뚜렷하게 나타날 수 있다고 생각)
-
2008년 구글 입사 직후 생명과학 분야에 많은 투자를 주장했음, 구글이 데이터 처리와 ML 역량에서 세계적인 결과를 내고 그 방법이 다른 생물학자들에게도 재현되도록 도울 수 있다고 확신, 실제로 exacycle을 통해 단백질 폴딩/디자인에서 흥미로운 결과 생산, 이후 Cloud Genomics 출시로 대규모 데이터셋 저장/분석 서비스까지 진행, 결국 DeepMind는 내가 생각했던 목표를 훨씬 멋지게 실현한 셈, 최근 논문은 볼거리가 엄청 많아 커뮤니티가 내용을 소화하는 데 시간 걸릴 듯
- Sundar가 구글 CEO로서 영감 주는 리더는 아니라는 평가엔 동의하지만, 취임 전인 2015년 분기별 이익 3B에서 2025년 1분기 35B로 10배 성장 견인, 광고 사업 고수로 지금의 수익성 이끌었다고 생각, AI 전환은 약간 늦었지만 gemini 등에서 경쟁력 있다고 판단, DeepMind도 대단한 성과, “Sundar는 hype는 적지만 실적은 뛰어나다”는 평가
- “오랜 숙원이 이뤄져 기쁘다”는 의견이 꽤 자기도취적으로 들린다는 의견, 대부분의 사람들도 대단한 아이디어를 갖고 있어도, “드디어! 내 아이디어가 세상에…”처럼 말하긴 어색한 점 지적
- 혹시 예전에 Santa Cruz 셔틀에서 이런 주제로 대화했던 적 있는지 묻는 질문, 당시 얘기가 엄청 흥미로웠고 AlphaGenome 등장에도 여전히 설렌다는 소감
- 현직 Googler 시점에서 Sundar에 대한 생각은 굉장히 복합적, AI 분야에 초기부터 인프라 및 도구에 투자한 점은 인정, Demis보다는 Jeff Dean에게 더 큰 공을 돌릴 필요 있다고 생각
-
논문에서 가장 큰 문제 중 하나인, 연관성이 높은 DNA 구간 중에서 정말로 인과적인 변이와 비인과적 변이를 구별하는 작업(유전학에서 fine mapping으로 부름)을 무시한 점이 실망, 효과적인 약물 타깃을 위해 핵심 조절 영역을 정확히 좁히는 일이 매우 중요, 최근 Nature 논문에서는 이 문제의 예시와 자가면역에서 대식세포 기능 조절용 후보 약물까지 연결된 사례가 있음
- 이번 결과가 그런 방향에 더 가까워진 것인지 궁금, 전문 지식은 깊지 않지만 기능 예측이 좋아지면 실제로 중요한 변이와 의미 없는 변이를 구별하기 쉬워질 것 같음, 다음 단계는 제대로 된 통계 fine mapping 방법과의 통합이 될 것으로 생각