딥러닝은 주목받지만, 딥팩트체킹은 외면받음

▲

GN⁺ 11달전 | parent | ★ favorite | on: 딥러닝은 주목받지만, 딥팩트체킹은 외면받음(rachel.fast.ai)

Hacker News 의견

데이터 누수 가능성이 있다는 점을 자주 잊어버리는 경향이라는 생각임. 데이터 누수는 없다고 강력한 증거가 있기 전까지 항상 있다고 가정해야 하고, 반대로 누수가 없다는 것을 입증해야 할 책임은 저자들에게 있다는 의견임. 작은 데이터셋에서는 누수가 훨씬 쉬운 문제인데, 직접 데이터를 쭉 들여다볼 수 있어서 오히려 더 쉽게 생길 수 있음. 미묘한 실수로 데이터가 망가지는 게 굉장히 흔한 현상임. 이제는 인간이 전부 검토할 수 없는 엄청나게 거대한 데이터셋이므로, 필터링이 불완전하다는 걸 다들 알고 있는데도 누수가 없다고 믿는 것이 가능하지 않음. 필터링했다 라고 말할 수는 있지만, 정말 누수가 없다고 말할 수는 없음. 우리가 실제로 접근할 수 있는 데이터셋에서도 자주 문제를 발견하고 있음. 이런 일을 계속 경험하고 있는데도 왜 계속 데이터가 멀쩡하다고 가정하는지 모르겠음. 아마도 지나친 기대에 휩싸인 자기기만이 아닐까 생각임. 문제를 고치려면 현실을 정확히 봐야 한다는 의견임
- 모든 시스템은 결함이 있기 마련이라는 점임. 얼만큼의 결함까지 받아들일 수 있느냐가 진짜 논점이라는 생각임. 예를 들면, Medicare와 Medicade에서 사기 사례가 7.66%였는데, 액수로는 엄청 크지만 그렇다고 시스템이 전적으로 실패했다는 건 아니고, 나머지 93%는 제대로 돌아간 것임. AI 모델도 마찬가지로, 오류율이 10%라면 시스템 전체가 나쁘다는 뜻이 아니라, 그 정도 비율은 수용 가능한지에 대한 논의가 필요하다는 입장임. 근거자료 참고
- 증명의 책임이 어디에 있냐는 논점이 많은 사람들이 생각하는 것처럼 신념의 지침이 되지는 않는다는 의견임
AI가 연구를 하기 전에, 우선 기존 연구 재현부터 성공해야 한다고 생각임. 예를 들어, 딥러닝 논문을 AI에게 주고 이를 구현하게 만들면 진짜 능력을 평가 가능하다고 봄. 이런 기본이 안 되면 새로운 아이디어를 기대할 수 없는 상황임
- 나는 처음에 "논문의 앞부분만 AI에게 주고 나머지는 AI가 완성하게 해보자"고 제안할 줄 알았음. 만약 이 정도 검증도 아직 안 된다면, AI가 혁신적 발견을 만들어낼 수 있다고 보지 않는다는 의견임
- OpenAI에서 이와 관련한 벤치마크를 만들었음 paperbench 링크
- 완전히 투명하게 검증 가능한 기록 시스템을 갖추고, 논문이 미리 데이터셋에 노출된 적이 없다는 것까지 보장해야 함. 논문에서 학문적 부정행위가 드물지만 가끔 발생하기도 하고, LLM은 아무렇지 않게 거짓 정보를 생성할 수 있음
- 예시로, 어떤 논문의 실험 통계 데이터를 AI에게 주고 원시 데이터를 재현하게 할 수도 있을 것 같음
- 이 아이디어는 충분히 흥미로울 뿐 아니라, 재현성 검증 문제도 어느 정도 해결할 수 있을 것 같음. 다만, AI가 재현한 연구도 결국 사람이 꼼꼼하게 검토해야 한다는 점은 여전함. 현실적으로 현재 LLM이 쓸 수 있는 다양한 역할이 있는데, 예를 들면 동료 평가 과정에서 데이터 처리 코드 검증을 보조하거나, 논문 조사를 도와주고 아이디어 브레인스토밍에 활용하는 방안이 있음
"Nature Communications"와 "Nature"는 완전히 다른 위상임. 둘을 같은 대우로 부르지 않는 게 맞음. 그리고 altmetrics는 큰 의미가 없는 수치임. 공공의 열기 정도를 재려는 게 아니라면 과학적 인용과는 별 상관 없음
딥러닝 논문 대다수를 보면 도메인 전문가가 결과물을 정말 세밀하게 검증하는 경우가 잘 없음. 인상적으로 보이는 논문들 중 엄격한 검증을 통과하지 못할 논문이 많지 않을까 궁금함. 하지만 실제로 내 분야 AI 논문은 내가 직접 읽는 건 물론이고, 다른 전문가들도 많이 체크하는 것으로 보임. 다만, 컴퓨터공학이나 소프트웨어 쪽 결과물은 생물학보다 검증하기 쉬운 것처럼 느껴짐(혹은 내가 바이오를 잘 몰라서 그런 느낌일 수도 있음)
- 생물 분야에서 라벨의 유효성 검증 자체가 수년이 걸리는 경우가 많음. OP가 예시로 든 경우도 마침 누군가가 몇 년을 들여 미리 특정 예측값을 검증해둔, 굉장히 운이 좋은 예시임. 대부분은 3~5년씩 자기 커리어를 걸고 무작위 모델 예측을 검증하려 들지 않음
- 내 분야에서는 논문에서 해당 기법을 썼을 때 사람들이 세밀하게 검토하고 비판을 내놓는 경우가 흔함. 문제는 이런 비판을 다른 분야 사람들이 진지하게 받아들이지 않는 경우가 많음
AI에 필요한 건 '현실 검증기' 서브시스템이라는 주장임. LLM의 경우 마치 우리의 무의식이 끊임없이 떠드는 잡음을 계속해서 내뱉는 것과 같음. 실제로 우리의 뇌는 "내가 한 말이 반증 가능성 있는 진실인가?" 같은 내부 필터가 있어서 거짓말을 걸러냄. (물론 이게 모두에게 통하지는 않다는 농담도 곁들임)
- 전적으로 동의함. 몇 달 전 늦은 밤, 반쯤 잠든 상태에서 내 뇌가 끊임없이 여러 구문과 생각들을 만들어내는 걸 인지했음. 종종 이 모든 아이디어가 필터를 거쳐 문장으로 정제되는 걸 생생하게 느꼈음. 나만의 이상한 경험이지만, AI에도 이런 알고리즘이 꼭 필요하다고 느끼는 상황임. 박사 과정을 밟게 된다면 이걸 연구 주제로 삼고 싶음
- 인간의 '현실 검증기' 시스템은 GAN에서 디스크리미네이터와 비슷하지만, 강하게 감정에 의해 영향을 받음. 심리학 연구에서 확인된 바로, 인간의 진위 판단 회로는 항상 감정적 신호부터 시작되고, 그 뿌리는 신념에서 비롯됨. 누군가 내 신념과 강하게 어긋나는 말을 할 때, 감정적 반응이 가장 먼저 찾아오고 이후에야 이성적 판단이 개입됨
연구자로서 LLM을 접한 경험과 부합함. 텍스트 이해와 생성 능력에는 깊이 감탄했지만, 훨씬 더 어려운 미해결 문제에서 순식간에 답을 내놓는 모습은 늘 아쉬움으로 남음. 복잡한 질문은 시간을 두고 고민해야 하는데, LLM은 이런 깊이나 고민 없이 자신감 넘치게(전혀 틀린 답이라도) 답을 던지는 경향임
Rachel Thomas의 멋진 기사라는 소감임. 딥러닝은 결국 [생성형] 정보 검색 도구라는 주장을 다시 확인시켜 주는 사례임. 훈련 데이터는 현실의 도메인을 반영하긴 하지만, 본질적으로 매우 손실이 큰 데이터셋임. 예를 들어 유전자 데이터/라벨이 생물학의 실제 구조를 완벽하게 대변하지는 못하므로, 결과 역시 종종 잘못되거나 말이 안 될 수도 있음. 오히려 이상하게 너무 잘 맞을 때는 설계상 정보 검색 툴(LLM) 특성상 데이터 누수가 섞였을 가능성도 언급함. 정보 이론적으로 볼 때, 데이터셋의 한계는 모든 모델에 공통된 미지의 위험 요소임. 결론적으로, 알고리즘의 결함이 아니라 훈련 데이터셋의 문제라는 생각임. 우리는 자연어라는 도메인 내에서 워낙 유연하게 작동하고, 어린아이도 글을 읽으면 말이 되는지 판단이 가능함. NLP 분야에서 LLM이 성공하는 건 이러한 데이터 덕분임. 반면, 원천 데이터가 본질을 충실하게 담지 못하는 복잡한 분야에서는 더 많은 한계가 있음
허위 정보가 과학에도 스며들고 있다는 우려임. 근거 없는 자극적 발언이 진짜 연구 뒷받침보다 더 많은 관심을 받는 모습이 소셜 미디어 현실과 비슷하게 과학에도 나타나고 있다 지적임. 하지만 트위터와 Nature 저널을 같은 선상에서 볼 순 없고, 명망 높은 학술지와 동료 평가 시스템이 이런 문제를 막아주는 '마지막 보루'라는 신뢰가 있었음. 그렇다면 이번 사태는 Nature의 실패가 맞는지에 대한 의문임
- 임팩트 큰 학술지일수록 논문 철회 및 검증되지 않은 비율이 더 높다는 통계가 있는 점을 상기해야 한다는 조언임. 이런 문제의 근본적 원인은 논쟁적이지만, 한 논문이 진리를 증명하는 건 아니고, 다양한 연구기관, 여러 연구진이 독립적으로 결과를 검증하는 게 진짜 신뢰 기준임
- 과학계의 허위 정보 문제가 이제 막 커진 건 아니라 몇 년 전부터 '재현성 위기' 논란이 계속되고 있는 현실임
- ML Quantum Wormhole 논문 사례처럼, 잘못된 연구가 대중 과학기사를 넘어서 저명 학술지에도 실리고 있다는 실망감임. 실수라기보단 연구자와 리뷰어 모두가 제대로 된 검증을 생략한 사례가 너무 많다는 의견임. 개인적으로 기존 학술지 체계에 회의적이었고 자유로운 학술 출판을 바랐지만, 이제는 오히려 학술지 자체가 자기 스스로 신뢰를 깎아먹고 있는 모습임. 하지만 이런 일이 과학에 대한 대중의 신뢰를 악화시키는 데 결국 기여하게 된다는 점이 제일 걱정임. 과학 내부의 미묘한 논쟁을 대중이 알아차리기도 힘들고, 이런 일들이 반과학 진영에 또 다른 빌미를 제공할 뿐임
- Bullshit asymmetry principle(Brandolini의 법칙)이 떠오른다는 말임 이 원칙 링크
우리는 아름답게 성공했던 단 한 번의 ML/AI 사례만 극적으로 홍보하고, 실패했던 수십 번의 시도를 외면하게 되는 경향이 있음
- 나아가 '딥 스토캐스틱 패러팅(deep stochastic parroting)'도 사랑하는 것 같음. 직접 겪어본 경험이나 꾸준히 쌓이는 증거, 논리적 추론을 외면하고, LLM의 명확한 효용을 일부러 부정하려 함. 그리고 그 부정 입장에는 늘 뻔한 유행어들로 근거를 덧붙임