$2,000 이하로 내 DNA 시퀀싱하는 방법
(maxlangenkamp.substack.com)- DNA 시퀀싱 비용이 Moore의 법칙보다 더 빠르게 감소하는 중임
- Oxford Nanopore MinION을 이용하면 $1,100 정도로 집에서도 DNA를 시퀀싱할 수 있음
- 실제 실험에서는 채혈, DNA 추출, 나노포어로 시퀀싱 등 단계를 거쳤음
- 결과적으로 전체 게놈의 약 13%만을 커버했고 오염, 장비 결함 등으로 분석은 제한적이었음
- 그럼에도 불구하고 저렴하게 직접 DNA 일부를 시퀀싱하는 의미 있는 경험을 얻음
서론
- DNA 시퀀싱 비용이 빠르게 하락해 과거 23억 달러, 13년이 걸렸던 인간 게놈 해독을 이제는 Oxford Nanopore(약 $1,000) 장비만으로 48시간 이내 직접 해볼 수 있게 됨
- 기존에는 불안정한 제3자 업체에 샘플을 보내야 했으나, 이 글에서는 직접 실험실이 없는 환경에서 시퀀싱을 시도함
DNA 시퀀싱 과정 개요
- 목표는 10ml의 혈액에서 A, C, G, T로 이루어진 인간 게놈 서열(약 30억)을 얻는 것임
- 전체 단계 요약
- 혈액 채취
- 혈액에서 인간 DNA 추출
- 추출된 DNA를 전기적 방식으로 Oxford Nanopore 장비에 통과시켜 각 염기를 판독함
DNA 시퀀싱의 간략한 역사
-
Sanger 시대(1960~2003): 아날로그 기반, 매뉴얼 처리, 매우 느린 진행
- 결함이 있는 뉴클레오타이드를 이용해 DNA 복제를 끊고, 각 조각을 전기로 분리한 후, 바코드처럼 판독
- 인간 게놈 해독에 13년, 23억 달러 소요
-
Illumina 시대(2005~2010년대): 병렬화 및 자동화
- 합성을 통한 시퀀싱 방식 도입, 처리 속도 및 효율이 크게 개선됨
-
단일 분자 시퀀싱 시대:
- 전기적 나노포어를 통해 DNA 염기를 직접 판독, 조각을 쪼갤 필요가 없음
- 이번 실험에서도 이 방식을 사용함
필요한 장비 및 비용
- Oxford Nanopore MinION 스타터 키트 ($1,000): USB 기반 시퀀서, 플로우 셀 및 준비 화학 시약 포함
- Zymo DNA 추출 키트 (무료 샘플)
- 미니 원심분리기 (Amazon, $50)
- 실험용 소모품 (eppendorf 튜브, 란셋, 피펫 등, $50)
- 총 비용 약 $1,100
실험 단계 상세
Step 1: 혈액 채취
- 약 200㎕(0.2ml)의 혈액 필요, 작은 란셋으로는 충분히 나오지 않아 반복적으로 손가락을 찌르는 방식으로 채혈함
Step 2: DNA 추출
- 혈액에는 대부분 DNA가 없는 적혈구 등 불순물이 많음
- 백혈구에서 DNA만 분리해야 하며, Zymo 키트의 효소와 원심분리 필터를 이용해 진행함
- Nanopore 준비 키트의 어댑터 부착 과정도 따름
Step 3: Nanopore로 시퀀싱
- 준비된 DNA를 MinION의 작은 포트에 주입 후, USB로 연결
- MinKNOW 소프트웨어가 실시간 베이스콜링을 수행하며, 전기 신호를 신경망 알고리듬으로 A, T, C, G로 예측함
결과 및 한계
- 총 약 1기가베이스의 데이터를 두 번 시퀀싱하는데 성공함(전체 인간 게놈 30억 염기 중 약 13%)
- 첫 번째 실험은 하드웨어 오류로 중단, 플로우 셀 결함(2048개 중 623개의 포어만 작동)
- 25%는 박테리아 등 오염이 확인됨
- SNP(단일 염기 다형성) 분석을 위해서는 여러 번 반복 시퀀싱이 필수인데, 대부분의 염기서열이 중복 없이 한 번만 판독됨
- 그럼에도 $1,100의 저비용으로 의미 있는 인간 게놈 일부 시퀀싱 경험을 얻음
감사의 말
- 본 실험에 함께 참여한 친구들에게 감사를 전함
Hacker News 의견
-
우리는 아직 "나노포어 시퀀싱 시대"에 들어섰다고 보기 어렵고, 여전히 합성 기반 시퀀싱 방식이 주류임
- 유전체를 잘라서 작은 조각으로 만들고 이를 기준으로 다시 조립해야 하는데, 이 과정에서 여러 문제가 발생함
- 나노포어 시퀀싱은 오류율이 높아 임상현장에서는 여전히 합성 기반이 쓰이고 있음(특히 Illumina가 최근 10년간 기술적으로 뛰어남)
- 그래도 나노포어 장비는 작고 저렴해서 매력적임, 오류율은 반복 시퀀싱으로 어느 정도 극복 가능함
- 합성 기반 기술로 신뢰 있는 업체를 통하면 1000유로나 달러 이하에 전체 유전체를 30배 커버리지로 시퀀싱 가능함, 180달러짜리도 봤지만 신뢰는 잘 모르겠음
- 전체 인간 유전체라면 나노포어는 아직 시기상조겠지만, 플라스미드 시퀀싱 같은 용도라면 이미 매우 유용함
- 나는 업계 관계자가 아니어도 대학에서 튜브만 맡기면 다음날 아침에 이메일로 결과를 15달러에 받을 수 있음, 이 모든 게 나노포어 기반 워크플로우 덕분임
- 오류율은 반복 시퀀싱으로 보완 가능하지만, 가끔 오류가 상관관계를 갖기도 함
- 전체적으로 단편 시퀀싱이 훨씬 비용 효율적임, 우리 스타트업도 Illumina로 세포주 QC하는데 260달러밖에 안 듦
- 시퀀싱 방식은 목표에 따라 다름, NAO에서는 폐수 내 다양한 바이러스 검출하려고 Illumina의 대형 플로우셀(25B)로 저렴하게 시퀀싱함
- 하지만 비강 스왑 같이 표적 바이러스가 많을 땐, 긴 읽기 길이와 저렴한 Run Cost 덕에 나노포어가 더 적합함
- 짧은 읽기를 위한 임상 시퀀싱은 이미 충분히 잘 되어 있어서, 나노포어가 이를 대체할 이유는 없음
- 임상 현장의 미래는 중~대규모 변이 탐지에 있음, 이쪽은 아직 잘 밝혀지지 않아서 나노포어가 연구 및 희귀 질환 진단에 많이 쓰이고 있음
- SBS(합성 기반 시퀀싱)는 매우 믿을 만하지만, 시장 점유율이 크다고 기술 발전이 멈춘 것은 아님
- 시퀀싱의 혁신은 ML, RNA-DNA 동시 분석, 장/단독 읽기 결합 등에서 일어나고 있음
- 사실 진단실에서도 나노포어 기술을 점점 더 많이 쓰고 있음, 준비 과정 비용이 더 저렴하고 qPCR 수준의 민감도도 나옴
- 추가로 메틸화 등 더 다양한 정보를 제공함
- 최근 나노포어를 이용한 급성 백혈병 분류 논문도 있음 논문 원문
- 시간이 다소 과장되긴 했지만, 진단에는 "잘 작동한다"는 점이 중요함
-
이 아이디어(기사) 흥미로웠지만, 장비 문제와 한 번 시도하고 바로 포기하는 바람에 약간 실망스러웠음
- 플로우셀에서 처음부터 작동하는 홀이 623개밖에 없다는데, 이게 평소에도 있는 일인지 궁금함, 제대로 시도한 사례가 더 있는지 찾고 싶음
- 실제로 나도 비슷한 시도를 해봤음, 혈액이 아니라 타액을 사용했고, Qiagen 키트로 DNA 추출함
- 내 나노포어 플로우셀은 거의 모든 홀이 잘 작동했음, 아마 논문 사례는 저장 방법의 문제였던 듯함
- 조작성에 따라 활성 홀이 달라질 수 있음, 내 경험상 샘플 준비에 따라 비활성 홀이 많이 생김
- 샘플이 제대로 준비 안 돼 있으면 홀이 막히거나 활성도가 떨어짐
- 예전에 Oxford Nanopore 데이터 분석해보니, 샘플 준비 실력에 따라 품질이 너무 달라져서 어떤 동료가 준비했는지 데이터만으로도 구분 가능했음
- 저자들의 ‘차고’에서 준비한 샘플 퀄리티가 떨어졌을 것이라 예상함
- 참고로, 차에서 전력 공급하는 이동형 시퀀싱 실험실을 만든 동료도 있었음
- 그 동료가 겪었던 가장 큰 기술적 병목도 샘플 준비였음, 컴퓨팅 쪽은 크게 어렵지 않았음
- 활성 홀이 적은 것은 "정상"이라고는 할 수 없지만, 꽤 자주 일어나는 현상임
- NGS 작업 중 경험상 전체 플로우셀 중 1/4이 불량이었음, ONT는 셀 자체테스트에 실패하면 교환 정책도 있었음
- 샘플에 따라 다르지만, 대개 1200개 이상 활성홀이 보통이고 적어도 800개는 보장해줌
- 그래서 이번 경우엔 환불을 요청해볼 만함
- 이 사례는 "실제로 해보면 어떻게 될까"를 보여준 점이 재밌었음
- 유전체 계보학에 조그만 경험이 있지만, 기술적 문제 많을 거라 예상했었음
-
Nebula, Dante 같은 업체는 대략 300달러 정도면 30x 또는 100x 커버리지의 전체 유전체 시퀀싱을 제공함
- 사실 1000달러 유전체 시퀀싱은 10년 전에 이미 실현됐음
- Nebula 알아봤었는데, Meta, Microsoft, Google에 유전체 데이터를 넘겼다는 혐의로 집단소송 중임
- 서브레딧에도 키트를 보낸 뒤 수년 동안 결과를 받지 못한 사례가 많음
- 시퀀싱 품질, DTC(직접소비자) 유전체 데이터의 허위 양성률 등 문제도 있고, 23andMe도 비슷한 사건이 있었어서 민간기업에 내 유전체를 보내기 꺼려짐
- DanteLabs 크기 유전체시퀀싱 최저가는 399유로(466달러)임 DanteLabs 상품 링크
- 2,000달러에는 DNA 추출장비와 시퀀서 자체가 포함됨, Nebula 등에서 쓰는 시퀀서는 100만 달러 넘는 장비일 가능성이 큼
- 더 저렴하게 하고 싶으면 WGS 대신 exome 시퀀싱이나, 경우에 따라서 단순 유전자형 분석(genotyping)도 가능함
- 이미 100달러 WGS를 실현하는 업체가 있을 수도 있음
- 그래도 본질적으로 누군가(회사)가 내 유전체 데이터 소유권을 가지게 되는 셈임
- 합법적 이해관계란 명분 하에 아무거나 할 수 있음, 그 회사가 해킹당하거나 매각될 리스크도 이미 현실이었음
- 1000달러라는 건 "규모의 경제 가격"임
- 일정량 이상 대량 처리할 때 가능해지는 가격대임
-
mynucleus.com에서는 뺨 면봉만으로 500달러에 전체 유전체 시퀀싱이 가능함(할인코드 savraj10 사용 시 10% 할인)
- 피 필요 없음, 2,000종 이상 질병 위험도 제공, 배우자도 검사하면 미래 자녀 예측도 가능
- 새로운 투자 소식 곧 발표 예정이고, 원시 데이터 다운로드 지원, SOC2 및 HIPAA 보안 준수도 보장함
- 한편, 23andMe에서 일어난 개인정보 유출 사태처럼 혹시 Nucleus가 파산할 경우 유전체 데이터가 제3자에 팔리는 걸 어떻게 막을 수 있는지 궁금함
- 홈페이지에 데이터 프라이버시 차별화 내용이 잘 안 보임
- Nucleus 역시 "데이터를 팔지 않는다"고 주장하지만, 23andMe도 그랬음
- 근본적으로 어떤 회사든 이 부분에 대해 완전한 신뢰를 못 주는 게 현실임
- 3,000달러 아낄 수 있다는 이유만으로 Nucleus에 유전체를 맡기는 건 신중하게 고려해야 함
- 내 입장에선 내 유전체 시퀀싱 자체보다 제3자에게 신뢰를 맡기는 것에 더 부담이 큼
- 기사에서 언급한 13% 커버리지만으로는 어떤 유전체 분석도 쓸모없음, 제목이 과장임
- 커버리지가 어느 정도 나오는지 궁금함
- 예전엔 엄청나게 비쌌거나 일반인은 이용도 못 했던 서비스가 이제 500달러면 된다는 것에 놀람
- Monero로 결제 가능한지 궁금함
-
나는 Nebula(지금은 리브랜딩 후 더 비싸짐)를 이용해서 가족들 유전체도 시퀀싱했고, 꽤 간단히 진행함
- "Lifetime" 플랜으로 FASTQ 파일을 R2 버킷에 저장해둠, Nebula 250달러에 월 50달러 정기구독 있으나 바로 해지 가능함
- 내 VCF 파일은 이곳에서 볼 수 있음
- 특정 변이(rs104894396)에 대해 LLM에 넣어 분석하거나, SNPedia에서 찾아볼 수 있음
- 실제로 아내와 캐리어 스크리닝도 했는데, Nebula가 아닌 다른 방법을 썼음
- 둘 다 GJB2 유전자가 연관된 난청 유전자를 보유 중임이 확인되어, 자녀의 배아도 시퀀싱하여 건강한 아이를 갖기로 함
- 실제 유전체 데이터 샘플이 궁금하다면 내 데이터를 테스트 파일로 활용 가능함(남성이므로 chrY 변이도 확인 가능)
- Dante도 써봤고, 두 업체의 결과값 비교도 해보고 싶었음
- Dante는 시퀀스를 사용자에 연결하는 방식이 달라서 불편했음(코드 별도 보관)
- 문의에 아무 답변이 없어서 운영 방식에 대해 알지 못함
- 나노포어 기술도 정말 흥미롭지만, 트위터에서 기기 품질관리 이슈가 있다는 얘기도 봤음
- 언젠가 딸아이 유전체와 같이 비교해보고 싶음
- 재미있는 점으로, 당신에겐 CYP11B1 rs4541(g;a)이 있음, 감초를 싫어했을 수도 있음
- CYP17A1 −34 T>C, rs743572(A;G)도 가지고 있음
- 전체 유전자 조합에 따라 신체적 혹은 행동적 특성이 다양하게 나타날 수 있음
- 예를 들어, 저체중, 불안, 청소년기 여드름, 기립성 어지럼, 소금 욕구, 수면 장애 등이 있을 가능성이 있음
- 비타민 D, 마그네슘, B비타민 계열 결핍 경향 등이 있으며, 이로 인해 다양한 신체적, 신경적 증상이 나타날 수 있음(TMJ, 근육 경련, 근시 등)
- 특정 유전자로 전략 보드게임을 좋아하고, 왼손잡이일 확률, 지능, 수면 패턴, 시각적 재능 등도 유추 가능함
- 하지만 이런 유전 변이 하나만으론 전체를 설명하기 어렵고, 반드시 의사와 상의해 식단, 생활을 조절해야 함(나는 의사가 아닌, 생물학과 유전체를 취미로 파고 있는 프로그래머임)
- 전체 DNA를 공개하는 데 이렇게 너그러운 이유가 정말 궁금함
-
불행하게도 현재 1000달러 MinION Starter Kit는 더 이상 판매하지 않으며, 기사 링크도 404로 사라짐
- 이제는 플로우셀 포함 MinION 제품이 4950달러부터 시작임
-
만약 DNA 시퀀싱을 하려면 장비를 구매해서 완전히 오프라인 상태에서 직접 다루지 않는 이상, 절대 하지 말 것임
- 내 유전체 정보는 물론이고 미래 자손과 혈연 관계 모두에게 잠재적 리스크를 안기는 셈임
- 최악의 시나리오가 얼마나 심각한 지 상상 이상임
- 게다가 건강 예측력도 에피제네틱 데이터 없인 거의 없음
- 오히려 불안이나 노시보 효과로 건강에 악영향을 줄 수 있음
- 실제론 의사의 진단 확정용으로만 소용이 있고, 이쪽이 더 안전함
-
전기 주전자를 이용한 PCR(thermocycler) 대체법이 웃겼음
- 바로 이런 방식으로, 온수통을 번갈아 이용해 DNA 증폭하던 시절이 있었음
- 혈액에서 백혈구만 추출해서 시퀀싱하면 결과가 더 나았을 텐데, 혈잠과 미니 장비만으론 쉽지 않음
- 2010년대 초 생물학 입문 실습에서 온탕 교환과 계란타이머로 수동 PCR을 경험했었음
- 이후 실제 thermocycler 사용해보고 장비의 소중함을 더 크게 느꼈음
-
시퀀싱 비용이 무어의 법칙보다 더 빨리 떨어진다는 그래프(2001~2015) 이후의 데이터를 보고 싶음
- 2021년까지만 나온 차트들밖에 없는데, 2015년 이후론 오히려 진전이 느린 듯함
- 나노포어가 더 신뢰성 높아지면 다시 혁신적 변화가 올 수도 있음
- 그래프가 2001년부터인데, 나는 90년대 중반 EMBL에서 얇은 필름 전기영동 시퀀서 개발에 참여했었음
- 당시엔 하루에 수백개 베이스 정도가 최고였음
- NHGRI가 이 플롯을 계속 업데이트하다 2022년 이후 자금난으로 멈춘 듯함
- 잘 보면 5년 내 100달러 유전체 시대도 올 수 있을 것 같음
-
Dante, Nebula 평판이 별로 좋지 않고, ySeq는 8개월 대기임
- 이번 기사에 나온 나노포어 장비도 제대로 작동하지 않음
- 2025년 유럽에서 내 유전체 시퀀싱 받는 게 쉽지 않음