경영학 저널에 실린 결함 있는 논문이 6천 회 이상 인용됨
(statmodeling.stat.columbia.edu)- 기업 지속가능성과 주가 성과의 상관관계를 주장한 논문이 6천 회 이상 인용되었으나, 중대한 오류와 허위 기술이 드러남
- 연구를 재현하려고 시도했던 Andy King은 저자와 학계, 저널, 대학 모두가 자신의 오류 수정과 검증 요청을 반복적으로 무시했다고 밝힘
- 논문은 통계적 유의성 오표기, 방법론 오기, 비현실적 표본 매칭 등 다수의 문제를 포함하며, 일부는 단순 오타로 처리됨
- King은 LinkedIn 공개와 복제 연구 전문 저널(JOMSR) 을 통해 문제를 제기했으나, Harvard Business School과 London Business School은 경미한 사안으로 결론
- 저자는 여전히 논문을 철회하지 않았고, 글은 과학적 신뢰성 관리 시스템의 붕괴와 개혁 필요성을 강조함
문제의 논문과 재현 시도
- 논문 “The Impact of Corporate Sustainability on Organizational Processes and Performance” 는 6천 회 이상 인용되며, 월가 경영진과 전직 미국 부통령까지 인용한 영향력 있는 연구로 평가됨
- Andy King은 해당 논문을 재현하려다 방법론 불일치, 통계적 오류, 누락된 검정, 비정상적 표본 구성을 발견
- 저자에게 여러 차례 이메일을 보냈으나 응답 없음
- 기존 연구들이 재현/복제 (Replication) 연구자들의 요청을 무시하거나 지연하는 관행이 일반적이라는 Bloomfield et al.(2018) 연구도 있음
학계와 저널의 대응
- King은 동료 학자들에게 도움을 요청했으나, 대부분 갈등 회피나 시간 부족을 이유로 거절
- 일부 학자는 “출판된 논문의 오류를 지적하는 것이 경력에 더 해롭다”고 언급
- 저널 Management Science에 비판 논평을 제출했으나, “어조가 부적절하다” 는 이유로 거절됨
- 저자들은 주요 결과의 유의성 표기가 잘못되었음을 인정했으나, 이를 ‘오타’ 라고 주장
- King의 추가 수정 요청은 모두 거부됨
외부 공개와 복제 연구 출판
- King은 LinkedIn에 오류를 공개한 후, 저널이 뒤늦게 정정 공지(erratum) 를 게재
- Replication 연구는 Journal of Management Scientific Reports(JOMSR) 에 게재되어, 복제 연구 전용 저널의 역할을 강조
- King은 원 논문이 보고된 방법과 실제 사용된 방법이 다르며, 실제 방법으로는 결과를 재현할 수 없음을 확인
연구윤리 조사와 대학의 반응
- King은 Harvard Business School과 London Business School에 연구윤리 위반 신고를 제출
- 저자들은 “편집 과정의 실수로 잘못된 문장이 남았다”고 해명했으나, 모든 초안에서 동일한 오류가 반복됨
- Harvard는 조사 진행 여부를 비공개로 유지, LBS는 “의도적 허위가 아니다”라며 교육적 조치만 권고
- King은 “데이터 접근 여부는 본질이 아니며, 잘못된 기술은 연구의 해석 가능성을 무너뜨린다”고 비판
제도적 실패와 개혁 제안
- 논문은 일부 정정만 이루어졌고, 잘못된 방법 기술은 여전히 수정되지 않음
- King은 “신뢰할 수 있는 과학 관리 시스템이 작동하지 않는다”며 다음을 제안
- 단일 연구 인용 자제 및 복제 여부 확인
- 오류 발견 시 즉시 정정
- 비윤리적 행위 동료에게 경고
- 복제 연구와 JOMSR 같은 저널 지원
- 기관의 연구윤리 정책 강화
- 또한 학문 관리의 투명성·독립적 감시·단계적 제재를 제도화하고, FurtherReview 같은 사후 검증 체계 도입 필요성 제시
Andrew Gelman의 논평
- Gelman은 저자들의 행위를 연구 부정행위로 규정하면서도, 개인보다 시스템적 문제에 초점을 맞춤
- “과거의 오류를 인정하지 않는 태도”가 과학을 ‘죽은 학문(dead science)’ 으로 만든다고 지적
- 학문 공동체가 오류 수정과 책임 있는 태도를 장려하지 않는 한, 동일한 문제가 반복될 것이라 경고
Hacker News 의견들
-
나는 2003년부터 유지해온 오픈소스 에이전트 기반 모델링 툴킷을 개발했음
최근 다른 언어로 만든 새 툴킷 논문이 내 소프트웨어와 비교하며 자신들이 더 낫다고 주장했는데, 실제로는 내 툴을 잘못 실행했고 데이터도 왜곡했음
수정 요청을 했지만 저널은 체면 때문에 조용히 묻어버렸고, 저자들도 변명만 늘어놓았음
이런 일이 학계에서 너무 흔하다는 게 문제임- 나도 비슷한 일을 겪었음. 경쟁자가 내 소프트웨어를 잘못 이해한 채 논문을 냈고, 잘못된 데이터로 결론을 내렸음
그 일을 겪고 나서 학술 논문에 대한 신뢰가 크게 떨어졌음 - 예전에 내가 만든 학술용 소프트웨어가 있었는데, 다른 연구팀이 내 프로그램을 비교 대상으로 삼은 논문을 심사하게 되었음
그들의 테스트 방법론이 근본적으로 잘못되어 있었고, “진짜 정답”이 없는 문제를 임의의 기준으로 학습시켜 자기 결과가 최고라고 주장했음
나는 게재 불가를 권고했고 저널도 동의했지만, 몇 달 뒤 그 논문이 수정 없이 다른 저널에 게재된 걸 보고 학문적 절망을 느낌 - 혹시 당신이 내가 아는 Sean Luke라면, 메릴랜드 대학 학부 시절 당신의 강의가 내 컴퓨터 과학 사고방식에 큰 영향을 줬음. 감사함
- 예전에 동료가 논문 코드를 검토해달라 해서 봤는데, 복잡도 계산을 잘못해서 완전히 틀린 결론을 냈더라
결국 “심리학 전공자에게 코딩을 맡기지 말자”는 결론을 냈음. 최소한 CS 전공자에게 검증을 받았어야 함 - 대학원 시절 내 지도교수가 데이터를 조작한 걸 저널에 신고했지만 아무런 답변도 없었음
학교 법무팀도 마찬가지였고, 그 이후로 학계에 대한 신뢰가 거의 사라졌음. 이게 바로 재현성 위기의 이유임
- 나도 비슷한 일을 겪었음. 경쟁자가 내 소프트웨어를 잘못 이해한 채 논문을 냈고, 잘못된 데이터로 결론을 내렸음
-
요즘은 인용 수가 예전만큼 의미 있지 않음
문제 있는 논문이 계속 복붙 인용되고 있음
그래서 인용 그래프 위에 신뢰 네트워크를 덧씌우는 서비스를 구상 중임
잘못된 논문을 무비판적으로 인용한 논문은 “오염 가능성 있음”으로 표시하고, 그런 논문이 많은 저자나 기관도 태그를 붙이는 식임- 나도 GPT-3가 처음 나왔을 때 이런 아이디어를 탐구했음
하지만 실제로 논문들을 읽어보니 엉터리 논문이 너무 많음
나쁜 논문이 예외적이라는 전제 자체가 틀렸고, 결국 “진흙 속에서 다이아몬드 찾기” 수준이었음
그래서 어떤 분야가 90%가 가짜라면, 그냥 그 분야를 무시하는 게 낫다는 결론에 이름 - 흥미로운 아이디어지만, 비판적 인용과 단순 인용을 구분하기가 어렵지 않음?
관련 연구를 요약만 해도 불이익을 받을 수 있을 듯함 - 학회에서 가짜 연구로 커리어를 쌓은 사람들을 보고 전문가에 대한 신뢰가 줄었음
하지만 신뢰 시스템을 만들어도 결국 게임화될 거라 회의적임 - 우리나라에서도 인용 고리(citation ring) 와 저자 수 부풀리기가 만연함
- 나도 GPT-3가 처음 나왔을 때 이런 아이디어를 탐구했음
-
모든 분야에 형편없는 논문이 있지만, 진짜 비즈니스 학과 논문들을 보면 자존감이 회복됨
그 분야에서 제대로 된 연구를 하는 사람은 거의 갈릴레오급 예외임- 나도 공학·경제·경영 복수전공을 했는데, 경영학은 신문 읽는 수준으로 느껴졌음
흥미롭긴 하지만 깊이가 부족했고, 마치 역사 다큐멘터리처럼 피상적이었음 - 비즈니스 학과는 결국 저비용으로 이익을 내는 기술을 연구하는 곳이니, 그 자체가 결과물임
- 나도 공학·경제·경영 복수전공을 했는데, 경영학은 신문 읽는 수준으로 느껴졌음
-
“단일 연구를 결정적 근거로 인용하지 말라”는 말에 전적으로 동의함
예를 들어 유명한 “Harvard Goal Study”는 실제로 존재하지 않음
하버드 도서관 FAQ에서도 그런 연구는 없다고 명시되어 있음- “Jick Study”도 비슷한 사례임. 위키피디아 문서를 참고할 만함
- 단일 연구는 무시해야 함. 진짜 효과라면 다른 연구자들이 부분 재현을 통해 확장 연구를 함
반대로 후속 인용이 거의 없다면, 그건 도망쳐야 할 신호임
-
근본적인 문제는 “publish or perish” 문화임
교수 임용과 연구비가 인용 수에 달려 있어서 상호 인용과 논문 양산이 일상화됨- 인용만으로 평가하는 게 문제임
데이터 공개와 재현 검증을 포함한 다단계 평가 시스템이 필요함 - 결국 학교 시절의 성적 경쟁 구조가 성인 세계의 “논문 경쟁”으로 이어진 것임
- 이건 전형적인 Goodhart의 법칙 사례임
- 인용만으로 평가하는 게 문제임
-
세상에는 형편없는 과학 논문이 너무 많음
내가 좋아하는 글은 John P. A. Ioannidis의 “Why Most Published Research Findings Are False”임- 훌륭한 논문이지만, 일부 기술 업계 사람들은 이걸 핑계로 “내 현실이 곧 진실”이라며 현실 회피에 이용함
- Ioannidis는 재현성 위기 연구로는 위대했지만, COVID-19 관련 발언에서는 음모론적 태도로 실망스러웠음
-
문제의 핵심은 통계적 유의성과 학술지 구조임
“유의미한 결과 없음”은 출판되지 않기 때문에, 자연스럽게 편향된 결과만 남음
사전 등록과 재현 가능한 데이터 공개가 중요하지만, 승진 경쟁과 상업적 이해관계 때문에 잘 지켜지지 않음- 관련된 xkcd 만화가 있음 https://xkcd.com/882/
-
“술 취한 운전자는 나쁜 사람이 아니다”라는 주장에 동의하기 어려움
남의 생명을 위협하는 행동을 두둔하면 “나쁨”의 의미가 사라짐
연구자들이 비윤리적 행동을 해도 “훈련 탓”이라 하는 건 책임 회피로 들림- 사람을 “나쁘다”고 단정하는 건 이분법적 사고임
시스템이 나쁜 행동을 쉽게 만들면, 결국 구조적 문제가 원인임
“훈련됐다”는 건 “가르침을 받았다”는 뜻이 아니라, 환경에 의해 길들여졌다는 의미임 - “나쁜 행동” 대신 “어리석은 행동”이나 “무책임한 행동”이라 표현하는 게 더 정확함
‘bad’라는 단어는 도덕적 함의가 약함 - 모두가 그렇게 하던 시절에는 문화적 착각 속에서 자신이 다르다고 믿었음
결국 Dunning-Kruger 효과로 인해 스스로를 과신한 결과였음
이런 착각에 빠지는 게 인간이라면, 인간 자체를 나쁘다고 할 수는 없음
- 사람을 “나쁘다”고 단정하는 건 이분법적 사고임
-
“재현 연구자는 조심해야 한다”는 말은 과학의 본질에 어긋남
재현 불가능한 결과는 무의미하며, 재현 연구는 오히려 장려되어야 함 -
한 저널의 논문 인용 수가 사이트마다 다르게 표시됨
SSRN은 109회, ResearchGate는 3936회, Google Scholar는 6269회로 나옴
인용 수 기준이 제각각이라 신뢰하기 어려움
또 “모든 논문에 대한 댓글·정정·철회 요청을 공개하자”는 제안이 있었는데,
그렇게 하면 아인슈타인 논문에도 이상한 댓글이 넘칠 것 같음- 실제로 Google Scholar 기준으로 6269회 인용된 게 맞음
- 하지만 PubPeer처럼 익명 댓글을 허용하는 플랫폼을 보면,
생각보다 악용 문제는 크지 않음