2P by GN⁺ 2일전 | ★ favorite | 댓글 1개
  • 플라즈마 물리학 연구에서 AI 활용에 대한 기대와는 달리, 실제 적용 결과는 과장된 성과 및 한계 중심임
  • AI를 이용한 PDE(편미분방정식) 풀이 방식(PINN 등)은 신뢰성과 성능 면에서 기존 수치적 방법보다 확실한 우위 제공 미비함
  • 약한 비교 기준(weak baseline)보고 편향 때문에 AI 성과에 대한 논문 대부분이 실제보다 과도하게 긍정적인 평가임
  • AI의 과학적 활용이 급증하고 있으나, 과학 진보 혁신을 주도하는 도구라기보다 점진적·제한적 기여 가능성에 무게 둠
  • 과학 논문 구조 및 연구자 인센티브 탓에 실패 사례 미공개·과장 보고가 반복되며, AI의 과학적 영향 평가 시 본질적 회의적 시각 필요성 강조함

서론 및 연구 배경

  • 필자 Nick McGreivy는 Princeton에서 플라즈마 물리학으로 박사 학위를 취득한 후, AI가 과학 연구(특히 물리학) 혁신에 기여할 수 있다는 기대감으로 머신러닝 활용 연구로 전향함
  • AI가 일렉트로닉스, 인터넷, 집적회로 등과 같은 범용 기술처럼 과학 전반을 획기적으로 바꿀 수 있을지에 관심을 가짐
  • 실제로는, AI를 활용한 PDE(편미분방정식) 풀이 연구에서 유명 논문의 발표된 성과 대비, 실제 적용 시 기대 이하의 결과 경험

PINN(Physics-Informed Neural Network) 적용 경험

  • AI를 이용한 PDE 풀이 분야에서 PINN이 대표적 방법으로 급부상하였고, 필자 또한 이 방식을 실험적으로 시도함
  • 기존 논문에서는 PINN이 고전 유체, 양자역학, 반응-확산 시스템 등 다양한 분야 PDE 문제에서 효과적 솔루션을 제공했다고 보고했으나, 실제로는 아주 간단한 PDE(1D Vlasov 등)에도 불안정하거나 신뢰성이 크게 떨어지는 결과 경험
  • 간단한 튜닝으로 개선이 어렵고, 복잡한 PDE(1D Vlasov-Poisson 등)에서는 아예 적절한 해 도출 실패함
  • 주변 연구자들도 유사한 실패를 경험하였으나, 이러한 부정적 결과는 거의 논문으로 발표되지 않음

PINN 실험을 통한 교훈

  • 영향력 있는 1차 논문 저자조차 특정 셋팅에서는 PINN이 실패함을 인지했으나, 설득력 있는 결과만 공개함
  • 과학 논문 생태계에서 긍정적 결과 위주 보고와 AI 관련 실패 실험 미공개 관행은 생존자 편향(survivorship bias) 심화 요인임
  • PINN 방식은 수치적으로 아름다운 개념이지만, 불안정성·미세조정 난이도·처리 속도 저하 등 실용적 한계로 인해 선택을 포기한 경험 공유함
  • 원 논문은 14,000회 이상의 인용을 받으며 수치 방법 분야 최고 인용 논문이나, 실제 PDE 풀이에선 기존 방법 대비 경쟁 우위 없음
  • 최근에는 PINN이 역문제(inverse problems) 등 특정 영역에서 효과를 발휘할 수 있다는 주장도 있으나, 이에 대한 연구자 간 논쟁 존재

부적절한 비교 기준이 유발한 과잉 낙관

  • 필자는 이후, 전통적 수치 기법과 마찬가지로 PDE 해를 격자나 그래프 픽셀 집합으로 취급하는 딥러닝 접근법을 시도함
  • 여러 논문에서 AI로 PDE를 기존 방법보다 최대 수천~수만 배 빠르게 해결한다고 발표하였으나, 실제로는 비교 기준으로 삼은 베이스라인(기준) 자체가 약한 방식에 불과한 경우가 대다수임
  • 대표 논문 분석 결과, AI가 강점을 보인다는 76편 중 60편(79%)은 충분히 성능 좋은 기존 수치 방법과 공정하게 비교하지 않은 것으로 판명됨
  • 이 같은 약한 비교 기준과 네거티브 결과 비공개로 인해 "AI가 혁신적 성과"라는 평가는 실제보다 과장된 경향 확인됨
  • 관련 연구 결과는 학계와 산업 전반에 논란을 일으켰으며, 일부는 미래 연구 방향성 및 AI의 잠재력 강화를 주장, 일부는 현재 과대평가 문제 경계 심화 표명

과학에서 AI의 역할 및 한계

  • 대표적 성공 예는 AlphaFold의 단백질 접힘 예측, 기상 예보(예측 정확도 최대 20% 향상), 신약개발(임상 1상 성공률 상승) 등이 있으나, 광범위한 혁신보다는 기존 기술 대비 보완적·점진적 진전 위주임
  • 글로벌 빅테크나 언론, 학계 등은 AI의 "과학 혁신적 도구" 내지는 "과학 패러다임을 바꿀 변혁의 주역"으로 포장하지만, 현재 수준 AI로는 기대만큼의 본질적 혁신 한계 명확히 존재

AI 채택 동기와 연구 생태계의 구조적 문제

  • 과학자들이 AI를 도입하는 주된 이유는 과학 자체 발전보다는 개인적 성과(더 높은 연봉, 경력, 논문 인용, 연구 자금 유치 등) 때문임
  • 실제로 AI 이용 연구자가 상위 인용 논문 및 연구 경쟁력 면에서 일반 과학자 대비 유리한 환경 제공 받는 현상 확인
  • AI 활용 연구자는 "해결할 과학 과제"를 정의하기보다는, 애초에 "AI로 풀 수 있는 과제를 뒤에서부터 찾아가는" 구조적 함정 노출
  • 이로 인해, 실제 과학 발전보다는 AI의 잠재력 시연에 집중, 이미 해결된 문제나 부수적 효과만 도출하는 경우 많음

논문 보고의 구조적 한계와 과학 내 낙관 편향

  • 부정적 결과의 미보고(생존자 편향)로 인해, AI 활용 성공 사례만 쏟아지고 실패는 공개되지 않아, 전체 효과 평가 왜곡
  • 논문 구조상 데이터 누수, 약한 비교 기준, 체리피킹, 미보고 등 체계적 오차나 편향이 반복적으로 발생함
  • 평가자와 이해관계자가 동일한 공동체 내에 있어, 성과 평가는 이익에 직결되는 이해상충 구조에서 이루어짐
  • 이러한 현상은 과학 내 AI 영향 평가 시, "영양학 논문에서 단일 연구 결과를 무조건 신뢰하지 않는 태도"와 비슷한 본질적 회의와 비판적 검증 습관 필요성 전달

결론

  • AI는 단기적으로는 과학 혁신을 이끄는 혁명적 도구라기보다, 기존 방식의 점진적·선택적 보완 수단일 가능성에 무게가 실림
  • 연구 생태계의 구조적 인센티브, 과대평가 및 실패 미보고, 약한 비교 기준 문제로 인해, AI의 실제 과학적 성과를 평가할 때 항상 비판적·회의적 관점 유지 필요성 강조
  • 이상적인 AI 혁신에는 구조적 개혁(도전 과제 출제, 실패 사례 공개, 공정 비교체계 발전 등)이 병행되어야 한다는 메시지 전달
Hacker News 의견
  • 제목이 바뀐 건지 헷갈림 발생, 현재 제목은 "I got fooled by AI-for-science hype—here's what it taught me"임

    • 제목이 원래에서 바뀐 상황, 개인적으로는 오히려 나빠졌다는 느낌, 원래 제목을 선호해야 하며, 이 논문의 원제목엔 문제가 없었다고 생각, 박사 과정 학생이 AI가 과학 연구에 기여한다는 의심스러운 사례들을 비판적으로 분석하는 내용임

    • 아니, 헛것이 아니라 실제로 바뀐 제목 확인, 아카이브 주소까지 예시로 제시

  • AI 기반 FEM 스타일의 구조 해석 솔버를 써본 “행운” 경험 있음, 선형 소규모 변형 문제에서 그럭저럭 쓸 만하지만, 복잡해지면 성능이 뚝 떨어짐, 기존 방식이 5분 걸려 정확한 해를 내는 동안, 30초 만에 대충 푸는 정도, 비선형 적용 시 완전히 망가짐, 아주 상위 레벨 개념 선정 정도로 활용 가능하나 이마저 미흡, 어떤 모델은 그냥 곡률 감지기 수준, 직선인 건 파랑, 곡률 큰 건 빨강, 나머지는 보간 수준

    • 결국 “second principles” 솔버에 가까운 느낌, 본 적 없는 상황에는 전혀 새롭게 해결 못하는 한계

    • 이런 모델을 반복 해법에서 프리컨디셔너로 쓸 수 있는지 궁금증

  • 새롭고 핫한 기술이 지나친 주목을 받는 현상에 항상 위험 존재, 기사에서 중요한 인용은 “대부분의 과학자가 의도적으로 남을 속이려는 건 아니지만, 유리한 결과를 보여야 할 강한 압박이 있어 결국 오도될 가능성 발생”, 누군가의 인센티브를 이해하는 게 정보를 해석하는 데 매우 유용하다는 점 강조

    • AI라는 단어만으로 돈과 펀딩을 찾는 이들이 존재, 실제로는 그저 기계학습이 들어간 소프트웨어가 대부분이며, 이건 오래전부터 있던 방식, 기술 자체가 크거나 정밀하지 않다는 생각
  • 결국 이건 학계의 고질적 문제 반복, 진실 탐구 대신 인용 수와 출세에 더 집중, AI도 그런 주제 중 하나일 뿐임

    • 일반화하기 싫지만, 독일 내 HPC 센터 몇 군데를 돌아다니며 본 패턴은, 물리학을 전공했다가 잘 안 된 이들이 많고 AI 관련 예산도 이들이 대부분 가져가 ML4Science 형태의 프로젝트가 남발, HPC 센터가 원래 물리학자만 위해 존재하는 곳이 아닌데 예산의 쏠림이 아쉬움, 독일은 AI 본연의 연구에 더 투자해야 한다고 느낌

    • 현실적으로 출세주의 문제는 학계가 점점 민간 시장 논리를 이어받으면서 생긴 부작용, 내가 소프트웨어 개발자로 배운 점은 모든 결정이 자기 이익, 커리어 위주라는 점, 누구나 자기 잘난 것만 신경 쓰고 일이 끝나면 남 책임, 이 마인드에 맞서지 않으면 오히려 불리해지는 환경, 결국 똑같은 결론으로 가면서 자기만 손해 보는 구조

    • "no longer"라는 표현이 왜 쓰였는지 사실 이해가 안 됨

  • “몇 주 실패 후, 다른 대학 친구에게 연락하니 그도 PINNs로 좋은 결과 못 봤다”라는 대목에서, 연구에선 AI와 별개로, 끊임없는 협업의 중요성 실감, 남들이 이미 실패한 길을 다시 걷지 않도록 도와주는 장점

    • 연구자들이 실패한 실험도 논문으로 발표해야 하는 필요성 제기

    • 나에게 과학 AI 에이전트 개념이 별로 설득력 없어 보이는 또 다른 이유, 연구란 본질적으로 매우 협력 중심의 과정, 아무리 문헌 검토를 잘해도 실제 만나고 대화하지 않으면 좋은 연구자일 수 없다는 의문

  • AI 부스터는 아니지만, 부정적 결과가 논문화되지 않고, 논문에서 모두 자신 논문만 과대포장하는 건 AI만 문제 아님, 과학자 평가 방식과 학술지 산업 구조의 문제, 전통 미디어와 마찬가지로 청중 끌기에 집착하는 현상, 어쨌든 겨울이 오고 있다는 느낌

    • 종종 AI 논문에는 “GPU 수십억 개 동원에 무한 시간 돌리면 마법처럼 된다는 결과” 류, “비공개 실제 데이터셋으로 테스트했더니 최고” 류의 말만 반복, 큰 기업에서 나온 논문은 명백한 허점이 있어도 무시하고 넘어갈 수가 없음, 결국 자원 싸움, 나처럼 예산 적은 대학 연구자들은 재현도 못 하고, 논문에 나온 수치 그저 믿어야 하는 처지

    • 15년 전, AI 실용 논문을 쓴 후 다른 분야로 넘어갔다가 최근 다시 돌아옴, 전 분야에 만연한 문제지만 AI는 특히 명성과 돈을 쫓는 연구자가 몰림, 과장된 주장과 편집된 데이터도 더 심한 듯, 책임감 있는 연구자도 경쟁하려면 어느 정도 과장하게 됨

    • AI는 단순히 현재 유행의 자석일 뿐, 문제점이 더 선명히 드러나는 이유

    • AI는 특히 “그럴듯한 논문”을 쓰는 걸 더 쉽게 만들어주는 점

  • HN에서 AI/ML을 둘러싼 인식이 왜 이렇게 극명하게 갈리는지 의문, 지금껏 본 적 없는 새로운 영역, 문자 입력만으로 코드까지 생성하는 기능은 예전엔 없었음, 최근에 이미지 분할 스크립트를 UI까지 포함해 claude에게 시켰는데 1분 만에 생성, 이런 혁신적 예시 한둘이 아님, 이미지 생성도 신세계, 이 블로그 기사에도 과장이 있지만, 연구자 입장에선 AI로 코드 생산성만으로도 효율성이 크다는 점 충분, 더욱 흥미로운 건 데이터에 대한 인식 변화, 예전엔 “인터넷은 절대 잊지 않는다” 하던 것이 지금은 실제로 페이지 삭제와 캐시 기능도 사라지고, 데이터를 다루는 법을 점점 잊었음, 그런데 AI 등장 후 데이터의 가치가 다시 부상, 피드백을 주고 결과에 반영되는 강화의 시대에 진입, 하드웨어, 알고리즘, 데이터, 도구, 프로토콜 등 모든 방향에서 발전이 진행 중, 아직 더 많은 실험과 GPU, 대형 데이터센터가 필요, 지금은 병목 상황, 대기업들이 몇 주, 몇 달을 들여 대모델을 트레이닝 중

    • “이미지 분할 코드 생성해줬다”는 말은 사실 화려하게 스택오버플로 데이터를 복붙하는 수준, 예전엔 Google로 정보 찾던 것과 같은 맥락, 외형상 새롭고 인상적이라도 본질적으로는 GIS에서 식당 찾는 수준으로 그치는 느낌, 현실에서는 전혀 reasoning 없이 데이터 바탕으로 상관관계 출력만 있을 뿐, 여전히 유용하지만 한계도 분명

    • HN에서 AI/ML에 대한 분위기가 다른 기술에 비해 왜 이렇게 갈리는지에, 각자 개인의 합리적 입장에서 해석할 필요, 혁신적이라는 시선과 데이터 도난, 프라이버시 경시에 대한 우려가 모두 합리적 근거, 다양한 시각이 있음을 먼저 인정하고, 내 입장을 잠시 내려놓고 상대방 입장을 제대로 이해하려는 태도 중요

    • 프로그래머의 근본 역할은 인간 언어를 컴퓨터 언어로 바꾸는 것, LLM은 그 경계를 명확히 침범하는 존재, 얼마나 깊게 진입할지는 불확실하지만 이미 장벽은 허물어짐, 이 상황은 두려움부터 위기 의식까지 다양하게 해석 가능, 수년간 갈고 닦은 고소득 스킬에 위협, 프로그래머가 완전히 대체되지 않더라도 연봉 수십만 달러를 간신히 지키는 정도면 충분히 위협적

    • HN은 원래 “지금 이 트렌디한 기술이 진짜냐 허상이냐”로 항상 분열, 다양한 기술에서 이런 논쟁은 반복, 때로는 내 입장도 달라졌던 경험, 결국 겉으로 보기와 크게 다르지 않다는 생각

    • 이와는 반대로, “AI가 과학을 혁신할 것”이라는 담론은 근거보다 너무 앞서간 느낌

  • 기사 처음엔 AI 전체가 과장이라고 보이나 실제로 문제 삼는 건 PINN이라는 특정 아키텍처, 마지막엔 DL 모델로 PDE를 더 빠르게 푸는 성과도 언급

    • PINN만의 문제가 아니라 훨씬 광범위, PINN이 별로라는 건 오랫동안 알려졌지만, 물리 문제에 ML을 쓰는 일반적 실패도 만연, ML이 잘 먹히는 상황은 (1) 데이터가 아주 많고 좁은 분야일 때(MLIP 등), (2) 어마어마한 데이터와 대형 모델을 쓸 때(Alphafold), 그런데 대부분의 물리 문제 ML은 그 중간쯤, 실험 데이터 부족&비싼 시뮬레이션, 데이터셋/모델 크기도 애매, 결국 다들 도전해보고 실패, 그래도 논문 냄, 유명 랩이나 PI/특이하게 보이면 좋은 학회지 실어주고 인용 수만 올라감, 결국 데이터 일부만 복제하는 한계, 다른 사람이 범용성 강화에 집중해야 한다는 결론만 남음

    • 저자가 한 건 PINN에 한정 안 됨, 여러 모델을 체계적으로 분석한 논문도 썼고, 별도 섹션까지 있음

    • PINN을 어떤 AI 솔루션으로 바꿔도 여전히 과장된 부분 발견, 지금까지 현실적으로 AI의 쓸모도는 “전문가들의 단순작업 자동화 & 3중 검증 필요” 수준이 사실적 평가

  • 훌륭한 분석과 예시, 또 다른 문제는 AI 논문이 대부분 새롭고 “정식” 저널에 실리는 비중이 적어도, 인용 수는 많다는 것, 재현이나 주장 검증이 정말 힘듦, 연구 방식과 데이터가 해마다 바뀌기 때문, 결론이 과거 모델 특성 때문인지, 일반화할 수 있는 결론인지도 모호

    • 나는 과학자나 연구자는 아니지만, 통계나 데이터 해석에 기반한 결과는 언제나 의심부터 하게 됨
  • 블로그 소유자 이름(“Timothy B. Lee”)을 보고, 70살 넘은 HTTP와 웹의 발명자가 이런 첨단 블로그를 한다는 사실에 놀람