2P by GN⁺ 3일전 | ★ favorite | 댓글 1개
  • 딥러닝 모델을 활용한 효소 기능 예측 논문은 큰 주목과 인용을 받는 반면, 팩트체크를 통해 오류를 지적한 논문은 거의 관심을 받지 못함
  • Transformer 기반 모델로 22백만 개 효소 데이터를 학습해 450개 미확인 효소 기능을 예측한 연구가 Nature Communications에 실림
  • 그러나 수백 건의 잘못된 예측과 데이터 중복, 생물학적으로 불가능한 결론 등이 후속 논문에서 드러남
  • 전문가의 심층 분석 없이는 AI 결과의 신뢰성 평가가 어렵고, 잘못된 데이터가 계속 전파될 위험이 커짐
  • 화려한 AI 모델보다 근본적인 데이터 검증과 도메인 지식 통합의 중요성이 재조명됨

Deep learning gets the glory, deep fact checking gets ignored

  • 딥러닝 기반 효소 기능 예측 논문은 22백만 개의 효소 데이터를 학습해 Transformer 모델로 450개 미확인 효소 기능을 예측하고, Nature Communications에 등재되어 큰 관심을 받음
  • 그러나 후속 논문에서는 잘못된 예측 수백 건과 기존 데이터베이스와의 중복, 생물학적으로 불가능한 결과, 반복적인 오류 등이 다수 발견됨
  • 예를 들어 E. coli의 특정 유전자 기능을 AI가 잘못 예측했고, 이미 기존 연구에서 그 기능이 아님이 밝혀졌음에도 모델이 오류를 범했음
  • 이와 같은 오류를 밝혀낸 논문은 bioRxiv에 등재되었으나, 조회수와 인용이 미미해 출판 인센티브 구조의 문제점이 드러남
  • 전문가들은 AI 모델링보다 데이터 검증과 도메인 전문성의 필요성을 강조하며, 잘못된 정보가 데이터베이스를 통해 재전파되는 위험을 경고함

The Problem of Determining Enzyme Function

  • 효소는 생명체 내에서 중요한 반응을 촉진하는 역할을 하며, Enzyme Commission(EC) 번호로 다양한 기능이 분류됨
  • 아미노산 서열로부터 EC 번호를 예측하는 작업은 입력과 출력이 명확해 기계학습에 적합하다고 여겨짐
  • UniProt 데이터베이스에 22백만 개 이상의 효소와 EC 번호가 정리되어 있어 학습 데이터가 풍부

An Approach with Transformers (AI model)

  • 연구진은 Transformer, 컨볼루션 레이어, 선형 레이어로 구성된 모델을 사용해 미확인 효소의 기능을 예측함
  • 주목할 만한 점은, 모델의 해석 가능성을 위해 high attention region이 생물학적으로 의미 있는지 분석함
  • 450개 미확인 효소 중 3개만 실험(in vitro) 으로 검증해 정확함을 입증했다고 주장함

The Errors

  • Nature 논문에서 발표된 450개 '새로운' 결과 중 135개는 기존 데이터베이스에도 이미 존재하는 결과였음
  • 148개 결과는 반복성이 매우 높아 동일 효소 기능이 여러 번 예측되는 등 생물학적으로 불가능한 오류가 다수 확인됨
  • E. coli가 생성하지 않는 물질의 합성 효소로 잘못 예측하거나, 기존 실험 결과와 상충하는 경우도 다수 발견됨
  • 데이터 누수(data leakage) 가능성도 제기되었으며, 실제 ground truth가 없는 영역의 예측에서 오류가 빈번하게 발생함

The Microbiology Detective

  • 후속 논문의 Dr. de Crécy-Lagard는 Nature 논문의 예측 결과 중 한 효소(yciO)가 과거 연구와 명백히 상반됨을 확인함
  • yciO와 TsaC가 진화적으로 연관 있지만, 실제 실험에서는 yciO가 TsaC의 기능을 대체하지 못함을 수차례 입증함
  • 단순 구조 유사성만으로 기능을 동일하게 보는 알고리듬 한계가 드러남
  • 효소 기능 판별에는 유전자 주변 맥락, 기질 결합, 대사 경로 등 다양한 증거를 종합적으로 고려해야 함

Hundreds of Likely Erroneous Results

  • 후속 논문팀은 Nature 논문 예측 결과 450건 중 135건이 이미 데이터베이스에 등록된 내용임을 확인함
  • 148건은 동일 기능 반복 예측 등 데이터 편향, 특성 부족, 아키텍처 한계 등으로 발생한 문제로 분석됨
  • 여러 결과는 생물학적 맥락이나 기존 문헌 조사로 오류가 입증됨

Rethinking Enzyme Classification and “True Unknowns”

  • 효소 기능 예측에는 알려진 기능 전파(propagation)진짜 미지 기능 발견(discovery) 이라는 두 과제가 섞여 있음
  • Supervised ML은 진짜 미지의 기능 예측에는 본질적으로 한계가 있음
  • 잘못된 예측이 UniProt 같은 데이터베이스에 입력되고, 이 데이터로 다시 모델이 학습되는 오류의 순환 구조가 나타남

Need for Domain Expertise

  • AI 연구와 달리, 데이터 검증 및 도메인 전문가의 심층 분석은 인센티브가 부족해 연구자들의 관심을 덜 받음
  • 실제로 고위험 AI 프로젝트의 실패 원인 중 하나가 불충분한 도메인 지식 적용임이 논문에서 드러남
  • 대부분의 딥러닝 논문은 도메인 전문가의 세밀한 검증을 거치지 않으며, 겉보기에는 인상적인 논문도 실제로는 오류가 많을 수 있음

결론 및 제언

  • 화려한 AI 모델 개발보다 근본적 데이터 검증과 도메인 지식 통합의 중요성이 강조됨
  • 연구 인센티브와 지원이 실질적 검증 연구에 더 집중되어야 함을 주장함
  • 오류 검증과 데이터 품질 향상이 장기적으로 AI 발전에 더 큰 기여를 할 수 있음을 시사함
Hacker News 의견
  • 데이터 누수 가능성이 있다는 점을 자주 잊어버리는 경향이라는 생각임. 데이터 누수는 없다고 강력한 증거가 있기 전까지 항상 있다고 가정해야 하고, 반대로 누수가 없다는 것을 입증해야 할 책임은 저자들에게 있다는 의견임. 작은 데이터셋에서는 누수가 훨씬 쉬운 문제인데, 직접 데이터를 쭉 들여다볼 수 있어서 오히려 더 쉽게 생길 수 있음. 미묘한 실수로 데이터가 망가지는 게 굉장히 흔한 현상임. 이제는 인간이 전부 검토할 수 없는 엄청나게 거대한 데이터셋이므로, 필터링이 불완전하다는 걸 다들 알고 있는데도 누수가 없다고 믿는 것이 가능하지 않음. 필터링했다 라고 말할 수는 있지만, 정말 누수가 없다고 말할 수는 없음. 우리가 실제로 접근할 수 있는 데이터셋에서도 자주 문제를 발견하고 있음. 이런 일을 계속 경험하고 있는데도 왜 계속 데이터가 멀쩡하다고 가정하는지 모르겠음. 아마도 지나친 기대에 휩싸인 자기기만이 아닐까 생각임. 문제를 고치려면 현실을 정확히 봐야 한다는 의견임

    • 모든 시스템은 결함이 있기 마련이라는 점임. 얼만큼의 결함까지 받아들일 수 있느냐가 진짜 논점이라는 생각임. 예를 들면, Medicare와 Medicade에서 사기 사례가 7.66%였는데, 액수로는 엄청 크지만 그렇다고 시스템이 전적으로 실패했다는 건 아니고, 나머지 93%는 제대로 돌아간 것임. AI 모델도 마찬가지로, 오류율이 10%라면 시스템 전체가 나쁘다는 뜻이 아니라, 그 정도 비율은 수용 가능한지에 대한 논의가 필요하다는 입장임. 근거자료 참고

    • 증명의 책임이 어디에 있냐는 논점이 많은 사람들이 생각하는 것처럼 신념의 지침이 되지는 않는다는 의견임

  • AI가 연구를 하기 전에, 우선 기존 연구 재현부터 성공해야 한다고 생각임. 예를 들어, 딥러닝 논문을 AI에게 주고 이를 구현하게 만들면 진짜 능력을 평가 가능하다고 봄. 이런 기본이 안 되면 새로운 아이디어를 기대할 수 없는 상황임

    • 나는 처음에 "논문의 앞부분만 AI에게 주고 나머지는 AI가 완성하게 해보자"고 제안할 줄 알았음. 만약 이 정도 검증도 아직 안 된다면, AI가 혁신적 발견을 만들어낼 수 있다고 보지 않는다는 의견임

    • OpenAI에서 이와 관련한 벤치마크를 만들었음 paperbench 링크

    • 완전히 투명하게 검증 가능한 기록 시스템을 갖추고, 논문이 미리 데이터셋에 노출된 적이 없다는 것까지 보장해야 함. 논문에서 학문적 부정행위가 드물지만 가끔 발생하기도 하고, LLM은 아무렇지 않게 거짓 정보를 생성할 수 있음

    • 예시로, 어떤 논문의 실험 통계 데이터를 AI에게 주고 원시 데이터를 재현하게 할 수도 있을 것 같음

    • 이 아이디어는 충분히 흥미로울 뿐 아니라, 재현성 검증 문제도 어느 정도 해결할 수 있을 것 같음. 다만, AI가 재현한 연구도 결국 사람이 꼼꼼하게 검토해야 한다는 점은 여전함. 현실적으로 현재 LLM이 쓸 수 있는 다양한 역할이 있는데, 예를 들면 동료 평가 과정에서 데이터 처리 코드 검증을 보조하거나, 논문 조사를 도와주고 아이디어 브레인스토밍에 활용하는 방안이 있음

  • "Nature Communications"와 "Nature"는 완전히 다른 위상임. 둘을 같은 대우로 부르지 않는 게 맞음. 그리고 altmetrics는 큰 의미가 없는 수치임. 공공의 열기 정도를 재려는 게 아니라면 과학적 인용과는 별 상관 없음

  • 딥러닝 논문 대다수를 보면 도메인 전문가가 결과물을 정말 세밀하게 검증하는 경우가 잘 없음. 인상적으로 보이는 논문들 중 엄격한 검증을 통과하지 못할 논문이 많지 않을까 궁금함. 하지만 실제로 내 분야 AI 논문은 내가 직접 읽는 건 물론이고, 다른 전문가들도 많이 체크하는 것으로 보임. 다만, 컴퓨터공학이나 소프트웨어 쪽 결과물은 생물학보다 검증하기 쉬운 것처럼 느껴짐(혹은 내가 바이오를 잘 몰라서 그런 느낌일 수도 있음)

    • 생물 분야에서 라벨의 유효성 검증 자체가 수년이 걸리는 경우가 많음. OP가 예시로 든 경우도 마침 누군가가 몇 년을 들여 미리 특정 예측값을 검증해둔, 굉장히 운이 좋은 예시임. 대부분은 3~5년씩 자기 커리어를 걸고 무작위 모델 예측을 검증하려 들지 않음

    • 내 분야에서는 논문에서 해당 기법을 썼을 때 사람들이 세밀하게 검토하고 비판을 내놓는 경우가 흔함. 문제는 이런 비판을 다른 분야 사람들이 진지하게 받아들이지 않는 경우가 많음

  • AI에 필요한 건 '현실 검증기' 서브시스템이라는 주장임. LLM의 경우 마치 우리의 무의식이 끊임없이 떠드는 잡음을 계속해서 내뱉는 것과 같음. 실제로 우리의 뇌는 "내가 한 말이 반증 가능성 있는 진실인가?" 같은 내부 필터가 있어서 거짓말을 걸러냄. (물론 이게 모두에게 통하지는 않다는 농담도 곁들임)

    • 전적으로 동의함. 몇 달 전 늦은 밤, 반쯤 잠든 상태에서 내 뇌가 끊임없이 여러 구문과 생각들을 만들어내는 걸 인지했음. 종종 이 모든 아이디어가 필터를 거쳐 문장으로 정제되는 걸 생생하게 느꼈음. 나만의 이상한 경험이지만, AI에도 이런 알고리즘이 꼭 필요하다고 느끼는 상황임. 박사 과정을 밟게 된다면 이걸 연구 주제로 삼고 싶음

    • 인간의 '현실 검증기' 시스템은 GAN에서 디스크리미네이터와 비슷하지만, 강하게 감정에 의해 영향을 받음. 심리학 연구에서 확인된 바로, 인간의 진위 판단 회로는 항상 감정적 신호부터 시작되고, 그 뿌리는 신념에서 비롯됨. 누군가 내 신념과 강하게 어긋나는 말을 할 때, 감정적 반응이 가장 먼저 찾아오고 이후에야 이성적 판단이 개입됨

  • 연구자로서 LLM을 접한 경험과 부합함. 텍스트 이해와 생성 능력에는 깊이 감탄했지만, 훨씬 더 어려운 미해결 문제에서 순식간에 답을 내놓는 모습은 늘 아쉬움으로 남음. 복잡한 질문은 시간을 두고 고민해야 하는데, LLM은 이런 깊이나 고민 없이 자신감 넘치게(전혀 틀린 답이라도) 답을 던지는 경향임

  • Rachel Thomas의 멋진 기사라는 소감임. 딥러닝은 결국 [생성형] 정보 검색 도구라는 주장을 다시 확인시켜 주는 사례임. 훈련 데이터는 현실의 도메인을 반영하긴 하지만, 본질적으로 매우 손실이 큰 데이터셋임. 예를 들어 유전자 데이터/라벨이 생물학의 실제 구조를 완벽하게 대변하지는 못하므로, 결과 역시 종종 잘못되거나 말이 안 될 수도 있음. 오히려 이상하게 너무 잘 맞을 때는 설계상 정보 검색 툴(LLM) 특성상 데이터 누수가 섞였을 가능성도 언급함. 정보 이론적으로 볼 때, 데이터셋의 한계는 모든 모델에 공통된 미지의 위험 요소임. 결론적으로, 알고리즘의 결함이 아니라 훈련 데이터셋의 문제라는 생각임. 우리는 자연어라는 도메인 내에서 워낙 유연하게 작동하고, 어린아이도 글을 읽으면 말이 되는지 판단이 가능함. NLP 분야에서 LLM이 성공하는 건 이러한 데이터 덕분임. 반면, 원천 데이터가 본질을 충실하게 담지 못하는 복잡한 분야에서는 더 많은 한계가 있음

  • 허위 정보가 과학에도 스며들고 있다는 우려임. 근거 없는 자극적 발언이 진짜 연구 뒷받침보다 더 많은 관심을 받는 모습이 소셜 미디어 현실과 비슷하게 과학에도 나타나고 있다 지적임. 하지만 트위터와 Nature 저널을 같은 선상에서 볼 순 없고, 명망 높은 학술지와 동료 평가 시스템이 이런 문제를 막아주는 '마지막 보루'라는 신뢰가 있었음. 그렇다면 이번 사태는 Nature의 실패가 맞는지에 대한 의문임

    • 임팩트 큰 학술지일수록 논문 철회 및 검증되지 않은 비율이 더 높다는 통계가 있는 점을 상기해야 한다는 조언임. 이런 문제의 근본적 원인은 논쟁적이지만, 한 논문이 진리를 증명하는 건 아니고, 다양한 연구기관, 여러 연구진이 독립적으로 결과를 검증하는 게 진짜 신뢰 기준임

    • 과학계의 허위 정보 문제가 이제 막 커진 건 아니라 몇 년 전부터 '재현성 위기' 논란이 계속되고 있는 현실임

    • ML Quantum Wormhole 논문 사례처럼, 잘못된 연구가 대중 과학기사를 넘어서 저명 학술지에도 실리고 있다는 실망감임. 실수라기보단 연구자와 리뷰어 모두가 제대로 된 검증을 생략한 사례가 너무 많다는 의견임. 개인적으로 기존 학술지 체계에 회의적이었고 자유로운 학술 출판을 바랐지만, 이제는 오히려 학술지 자체가 자기 스스로 신뢰를 깎아먹고 있는 모습임. 하지만 이런 일이 과학에 대한 대중의 신뢰를 악화시키는 데 결국 기여하게 된다는 점이 제일 걱정임. 과학 내부의 미묘한 논쟁을 대중이 알아차리기도 힘들고, 이런 일들이 반과학 진영에 또 다른 빌미를 제공할 뿐임

    • Bullshit asymmetry principle(Brandolini의 법칙)이 떠오른다는 말임 이 원칙 링크

  • 우리는 아름답게 성공했던 단 한 번의 ML/AI 사례만 극적으로 홍보하고, 실패했던 수십 번의 시도를 외면하게 되는 경향이 있음

    • 나아가 '딥 스토캐스틱 패러팅(deep stochastic parroting)'도 사랑하는 것 같음. 직접 겪어본 경험이나 꾸준히 쌓이는 증거, 논리적 추론을 외면하고, LLM의 명확한 효용을 일부러 부정하려 함. 그리고 그 부정 입장에는 늘 뻔한 유행어들로 근거를 덧붙임