경영학 저널에 실린 결함 있는 논문이 6천 회 이상 인

▲

GN⁺ 3달전 | parent | ★ favorite | on: 경영학 저널에 실린 결함 있는 논문이 6천 회 이상 인용됨(statmodeling.stat.columbia.edu)

Hacker News 의견들

나는 2003년부터 유지해온 오픈소스 에이전트 기반 모델링 툴킷을 개발했음
최근 다른 언어로 만든 새 툴킷 논문이 내 소프트웨어와 비교하며 자신들이 더 낫다고 주장했는데, 실제로는 내 툴을 잘못 실행했고 데이터도 왜곡했음
수정 요청을 했지만 저널은 체면 때문에 조용히 묻어버렸고, 저자들도 변명만 늘어놓았음
이런 일이 학계에서 너무 흔하다는 게 문제임
- 나도 비슷한 일을 겪었음. 경쟁자가 내 소프트웨어를 잘못 이해한 채 논문을 냈고, 잘못된 데이터로 결론을 내렸음
  그 일을 겪고 나서 학술 논문에 대한 신뢰가 크게 떨어졌음
- 예전에 내가 만든 학술용 소프트웨어가 있었는데, 다른 연구팀이 내 프로그램을 비교 대상으로 삼은 논문을 심사하게 되었음
  그들의 테스트 방법론이 근본적으로 잘못되어 있었고, “진짜 정답”이 없는 문제를 임의의 기준으로 학습시켜 자기 결과가 최고라고 주장했음
  나는 게재 불가를 권고했고 저널도 동의했지만, 몇 달 뒤 그 논문이 수정 없이 다른 저널에 게재된 걸 보고 학문적 절망을 느낌
- 혹시 당신이 내가 아는 Sean Luke라면, 메릴랜드 대학 학부 시절 당신의 강의가 내 컴퓨터 과학 사고방식에 큰 영향을 줬음. 감사함
- 예전에 동료가 논문 코드를 검토해달라 해서 봤는데, 복잡도 계산을 잘못해서 완전히 틀린 결론을 냈더라
  결국 “심리학 전공자에게 코딩을 맡기지 말자”는 결론을 냈음. 최소한 CS 전공자에게 검증을 받았어야 함
- 대학원 시절 내 지도교수가 데이터를 조작한 걸 저널에 신고했지만 아무런 답변도 없었음
  학교 법무팀도 마찬가지였고, 그 이후로 학계에 대한 신뢰가 거의 사라졌음. 이게 바로 재현성 위기의 이유임
요즘은 인용 수가 예전만큼 의미 있지 않음
문제 있는 논문이 계속 복붙 인용되고 있음
그래서 인용 그래프 위에 신뢰 네트워크를 덧씌우는 서비스를 구상 중임
잘못된 논문을 무비판적으로 인용한 논문은 “오염 가능성 있음”으로 표시하고, 그런 논문이 많은 저자나 기관도 태그를 붙이는 식임
- 나도 GPT-3가 처음 나왔을 때 이런 아이디어를 탐구했음
  하지만 실제로 논문들을 읽어보니 엉터리 논문이 너무 많음
  나쁜 논문이 예외적이라는 전제 자체가 틀렸고, 결국 “진흙 속에서 다이아몬드 찾기” 수준이었음
  그래서 어떤 분야가 90%가 가짜라면, 그냥 그 분야를 무시하는 게 낫다는 결론에 이름
- 흥미로운 아이디어지만, 비판적 인용과 단순 인용을 구분하기가 어렵지 않음?
  관련 연구를 요약만 해도 불이익을 받을 수 있을 듯함
- 학회에서 가짜 연구로 커리어를 쌓은 사람들을 보고 전문가에 대한 신뢰가 줄었음
  하지만 신뢰 시스템을 만들어도 결국 게임화될 거라 회의적임
- 우리나라에서도 인용 고리(citation ring) 와 저자 수 부풀리기가 만연함
모든 분야에 형편없는 논문이 있지만, 진짜 비즈니스 학과 논문들을 보면 자존감이 회복됨
그 분야에서 제대로 된 연구를 하는 사람은 거의 갈릴레오급 예외임
- 나도 공학·경제·경영 복수전공을 했는데, 경영학은 신문 읽는 수준으로 느껴졌음
  흥미롭긴 하지만 깊이가 부족했고, 마치 역사 다큐멘터리처럼 피상적이었음
- 비즈니스 학과는 결국 저비용으로 이익을 내는 기술을 연구하는 곳이니, 그 자체가 결과물임
“단일 연구를 결정적 근거로 인용하지 말라”는 말에 전적으로 동의함
예를 들어 유명한 “Harvard Goal Study”는 실제로 존재하지 않음
하버드 도서관 FAQ에서도 그런 연구는 없다고 명시되어 있음
- “Jick Study”도 비슷한 사례임. 위키피디아 문서를 참고할 만함
- 단일 연구는 무시해야 함. 진짜 효과라면 다른 연구자들이 부분 재현을 통해 확장 연구를 함
  반대로 후속 인용이 거의 없다면, 그건 도망쳐야 할 신호임
근본적인 문제는 “publish or perish” 문화임
교수 임용과 연구비가 인용 수에 달려 있어서 상호 인용과 논문 양산이 일상화됨
- 인용만으로 평가하는 게 문제임
  데이터 공개와 재현 검증을 포함한 다단계 평가 시스템이 필요함
- 결국 학교 시절의 성적 경쟁 구조가 성인 세계의 “논문 경쟁”으로 이어진 것임
- 이건 전형적인 Goodhart의 법칙 사례임
세상에는 형편없는 과학 논문이 너무 많음
내가 좋아하는 글은 John P. A. Ioannidis의 “Why Most Published Research Findings Are False”임
- 훌륭한 논문이지만, 일부 기술 업계 사람들은 이걸 핑계로 “내 현실이 곧 진실”이라며 현실 회피에 이용함
- Ioannidis는 재현성 위기 연구로는 위대했지만, COVID-19 관련 발언에서는 음모론적 태도로 실망스러웠음
문제의 핵심은 통계적 유의성과 학술지 구조임
“유의미한 결과 없음”은 출판되지 않기 때문에, 자연스럽게 편향된 결과만 남음
사전 등록과 재현 가능한 데이터 공개가 중요하지만, 승진 경쟁과 상업적 이해관계 때문에 잘 지켜지지 않음
- 관련된 xkcd 만화가 있음 https://xkcd.com/882/
“술 취한 운전자는 나쁜 사람이 아니다”라는 주장에 동의하기 어려움
남의 생명을 위협하는 행동을 두둔하면 “나쁨”의 의미가 사라짐
연구자들이 비윤리적 행동을 해도 “훈련 탓”이라 하는 건 책임 회피로 들림
- 사람을 “나쁘다”고 단정하는 건 이분법적 사고임
  시스템이 나쁜 행동을 쉽게 만들면, 결국 구조적 문제가 원인임
  “훈련됐다”는 건 “가르침을 받았다”는 뜻이 아니라, 환경에 의해 길들여졌다는 의미임
- “나쁜 행동” 대신 “어리석은 행동”이나 “무책임한 행동”이라 표현하는 게 더 정확함
  ‘bad’라는 단어는 도덕적 함의가 약함
- 모두가 그렇게 하던 시절에는 문화적 착각 속에서 자신이 다르다고 믿었음
  결국 Dunning-Kruger 효과로 인해 스스로를 과신한 결과였음
  이런 착각에 빠지는 게 인간이라면, 인간 자체를 나쁘다고 할 수는 없음
“재현 연구자는 조심해야 한다”는 말은 과학의 본질에 어긋남
재현 불가능한 결과는 무의미하며, 재현 연구는 오히려 장려되어야 함
한 저널의 논문 인용 수가 사이트마다 다르게 표시됨
SSRN은 109회, ResearchGate는 3936회, Google Scholar는 6269회로 나옴
인용 수 기준이 제각각이라 신뢰하기 어려움
또 “모든 논문에 대한 댓글·정정·철회 요청을 공개하자”는 제안이 있었는데,
그렇게 하면 아인슈타인 논문에도 이상한 댓글이 넘칠 것 같음
- 실제로 Google Scholar 기준으로 6269회 인용된 게 맞음
- 하지만 PubPeer처럼 익명 댓글을 허용하는 플랫폼을 보면,
  생각보다 악용 문제는 크지 않음