모든 것은 서로 상관관계가 있음 (2014–23)
(gwern.net)- 사회과학 및 생명과학에서는 거의 모든 변수 간에 일정 수준의 상관관계가 존재함
- 이 현상은 단순한 우연이나 통계적 오류가 아니라, 복잡하게 얽힌 유전적·환경적 요인에서 비롯된 실제적 사실임
- 표본 수가 커질수록, 유의한 상관관계는 대부분의 변수 쌍에서 나타나며, 연구자는 개별 상관관계보다 상관 패턴 자체에 주목하게 됨
- ‘Crud factor’는 거의 모든 변수쌍에서 작은 상관관계가 존재함을 의미하며, 임의의 이론 및 변수쌍 선정만으로도 높은 확률로 유의미한 결과가 나옴
- 이러한 상황에서는 전통적인 유의수준(0.05) 이 갖는 의미가 약화되며, 사회과학 통계 해석 시 주의를 요구함
개요 및 배경
- 심리학과 사회학에서는 “모든 것이 어느 정도 서로 상관관계를 가진다” 는 주장이 널리 받아들여짐
- 특정 특성이 여러 유전적 및 환경적 요인에 의해 결정되고, 이 요인들 간에도 자체적으로 상관관계가 존재함
- 따라서 실질적으로 거의 모든 측정 가능한 변수는 어느 정도 상호 관련성이 존재함
“Crud Factor”와 통계적 발견
- “Crud factor” 란, 사회과학(그리고 일부 생명과학) 연구에서 임의의 변수 쌍 간에도 작은 상관관계가 항상 존재하는 현상을 지칭함
- 1966년 미네소타 고등학생 57,000명을 대상으로 실시한 대규모 데이터에서, 가족, 교육, 취미 활동, 진로, 종교 등 다양한 변수들 간 105개의 교차표(crosstabulation) 분석 결과 모두 통계적으로 유의미함
- 전체의 96%가 p<10⁻⁶ 수준의 극히 낮은 확률로 우연일 가능성을 배제함
- 변수 수를 45개까지 넓히면 총 990개의 조합 중 92%가 통계적으로 유의하였음
- 한 변수와 다른 모든 변수들 간 유의미한 관계의중앙값(median) 은 44개 중 41개임
실제 변수들 간 사례
- MCAT 점수와 형제 수, 출생순서, 성별, 직업계획, 종교 선호 등과의 관계에서도 모두 높은 통계적 유의성이 발견됨
- 예: 여자 학생이 남자보다 점수가 높음, 형제 수가 많을수록 점수 하락 경향, 첫째/외동이 막내보다 똑똑함, 종교 집단마다 뚜렷한 차이 등 다수 존재함
- 대표적 개신교 5개 교파별로도 여러 변수와의 관계에서 높은 유의성이 관찰됨
- 예: 외동이 Presbyterian일 확률이 Baptist의 거의 2배, 교파별 학교 호감도 및 직업 희망 차이 등 다수의 상관성
MMPI 문항 사례
- MMPI(성격검사) 550개 문항 중 507개(92%)가 성별에 따른 유의미한 차이를 보임
- 일부 문항은 뚜렷한 성향의 차이를 명료하게 설명할 수 있으나, 다른 항목들은 이유가 복합적 또는 설명 불가
- 이러한 결과는 표본 수가 매우 많은 대규모 연구에서 나타나므로 통계적 오류(type I error)가 아니라 실질적 현상임
사회과학적 상관관계와 이론 검증의 한계
- 임의의 이론과 변수쌍을 랜덤하게 조합하더라도, 평균 상관관계(crud factor)가 0.30 수준이라면, 실질적으로 세 번 중 한 번 꼴로 유의미한 차이 발견 가능
- 통상 사회과학에서 의미 있게 바라보는 유의수준(0.05)보다 이런 현상이 훨씬 자주 발생
- 연구자가 이론적으로 예측하지 않은 변수쌍에도 상관관계가 쉽게 드러나므로, 통계적 유의성만으로 실질적 인과관계를 뒷받침하기 어려움
- 복합적 원인(유전자/환경) 및 관찰 데이터의 풍부함이 이런 다방면의 상관관계를 만듦
실천적 결론
- 사회과학 데이터 해석 및 이론 검증 시, ‘crud factor’에 의한 “평범하지만 진짜 존재하는 상관관계” 를 항상 염두에 둘 필요가 있음
- 유의수준 통계(예: p<0.05)의 의미를 맹신하기보다는, 변수 간 실질적 인과성과, 패턴 해석에 더욱 집중하는 접근이 필요함
- “모든 좋은 것은 함께 오는 경향이 있다”라는 Thorndike의 격언처럼, 실제 세계에서는 너무 많은 것들이 서로 얽혀 있음
Hacker News 의견
-
내가 가장 거슬리는 점 중 하나에 대해 이야기함
사람들은 "통계적으로 유의미하다(statistically significant)"라는 표현을 "주목할 만하다/의미가 있다"라는 뜻으로 오해함
측정된 차이를 발견했고 통계가 이것이 '중요하다'고 말한다고 받아들이는 데, 이는 잘못된 방식임
사실 유의성 검정은 관측된 차이가 '좋은 측정'일 확률만을 알려줌
즉, 어느 정도의 신뢰 수준으로 "차이가 실제로 존재함"이라고 말할 수 있는 것임
측정된 차이가 가치판단적으로도 '의미 있는지'는 따로 판단해야 하며, 주로 측정된 차이의 크기에 따라 판단함
너무 당연해 보이지만, 산업 현장이나 여러 과학 분야에서 매우 흔하게 나타나는 오류임
예시로 "이 조치가 [지표]에 p<0.001로 변화를 줬다, 엄청 유의하군! 변화 크기는 0.000001%다"
이런 경우, 정말 '의미' 있는 건지 다시 생각할 필요가 있음- 지적한 대로 유의미(significant)가 곧 '의미 있음(meaningful)'을 뜻하지는 않음
다만 예시에 대해서는 조금 부연하고 싶음
아주 작은 p-value가 항상 '의미 있는' 효과를 의미하지는 않지만, 효과 크기와 무관하지도 않음
p-value 자체가 (효과크기)/(노이즈/샘플 수의 제곱근)으로 나옴
즉, 더 큰 검정 통계량은 더 작은 p-value를 의미함
매우 작은 p-value는 주로 큰 효과나 엄청나게 큰 샘플 크기(n)에서 나옴
그래서 극도로 큰 N일 때에만 미세한 효과로도 p<0.001이 나올 수 있음
하지만 현실 연구에서, p<0.001이 나오면 샘플수 제한 때문에 효과도 실제로 클 확률이 높음 -
Using Effect Size—or Why the P Value Is Not Enough
통계적 유의성은 결과 중 가장 흥미롭지 않은 부분이라고 하면서, 결과를 효과 크기로 설명해야 함을 강조함
단순히 처치가 효과가 있는가만이 아니라, '얼마나' 효과가 있는지에 주목해야 함
– Gene V. Glass - 완전히 동의함
그런데 단순한 'pet peeve'로 부르기보다는, 통계에 대한 병적인 오해라고 봄
이런 오해는, 특히 인기 건강/웰니스 미디어에서 잘못된 결과로 이어질 수 있음
건강·영양 관련 연구가 통계적으로 유의미하다고 보고되지만, 실제 효과는 미미한 경우가 많음
그래서 사람들은 이런 연구 결과만 믿고 삶과 습관을 크게 바꾸기도 하는데, 사실 그럴 근거가 없음 - N(표본 수)을 충분히 올리면 이런 '좋은 측정값'이나 '통계적으로 유의미한 차이'를 어디서든 찾을 수 있음
더 나쁜 것은, 사전에 검증할 가설을 정하지 않고, 과거 데이터를 뒤져서 '통계적으로 유의미한' 상관관계만 찾아내는 경우임 - 3blue1brown의 이 영상을 정말 좋아함
여기서 유의성을 확률을 업데이트하는 방식으로 생각해야 한다고 제안함
한 번의 테스트(혹은 연구)가 확률을 X%만큼 업데이트해주므로, '의미' 있는 판단에는 대개 더 많은 실험이 필요하다는 논지임
- 지적한 대로 유의미(significant)가 곧 '의미 있음(meaningful)'을 뜻하지는 않음
-
정말 전형적인 "rationalist" 스타일 글임
통계 현상에 대한 올바른 관찰이 양념처럼 들어있는 한켠엔 이상한 정치적 구문도 있음
예시 문장: "이론 및 경험적 고려는 '알고리즘 편향'이나 '보호 대상 집단'에 대한 인과 추론 의심을 불러일으킨다: 배제하지 않는 게 바람직하지 않을 수 있고, 불가능하거나 의미 없을 수도 있다"
너무 이상한 문장임, 맥락 설명도 없이 갑자기 튀어나옴
숨은 잠재 변수가 범죄성을 결정하니까, black box(parole 모델)에 "is_black"을 써도 된다고 주장하는 것 같은데, 말도 안 된다고 생각함
사실 모델이 어떻게 동작하는지에 대한 관심은 통계 해석보다 더 깊은 문제임
모델 선택 과정에서 자유도가 너무 많아지면, 어떤 결과든 나오도록 설계할 수 있음
예시로, parole 모델에 "likes_hiphop" 같은 변수가 들어가 있다면, 이게 왜 들어갔는지, 정말 '최적 모델'이었는지 확인해야 함
결국 사회 현상에서 변수들끼리 상관관계가 많다는 사실은, 어떤 모델이든 최소한 부분적으로는 정치적인 산물일 수 있음을 상기하게 함- 이상하다고 느낀 문장이 맥락상 크게 어색하지 않음
"이론적·경험적 고려"라는 구절은 위에서 나온 논의를 의미함
즉, 모든 것이 서로 상관되어 있기 때문에, 상관관계를 본다고 해서 이게 본질적 의미가 있다고 확신할 수 없다는 이야기임
사회과학자들은 복잡한 모델을 만들고, 많은 변수를 관찰하면서, 자신들의 가설을 뒷받침하는 상관관계를 찾지만, 이런 상관관계가 어디서나 발견될 수 있으므로 실제 증거로는 약하다고 지적함
그리고 "is_black" 같은 변수를 모델이 실제로 썼다고 단정할 수도 없음
단지 어떤 black box 모델이 흑인에게 불리한 결과를 내놓는다고 해서, 진짜 'is_black' 변수가 들어가 있다고 볼 수 없는 것임 - "rationalists"는 사람이나 집단의 서열 매기기에 집착하는 경향이 있다고 봄
특히 유전, IQ 같은 주제에서 근거가 약한 연구와 데이터로 결론을 내리는 모습이 자주 보임 - 해당 인용구에 대해
사회과학 모델링에는 이론적 배경이 반드시 필요하다고 생각하지만, TFA(원글)가 특정 정치적 이슈에서도 같은 입장을 취할지 의문임
예를 들어, 소수 집단을 위한 조직의 채용에서 "is_white" 변수를 쓰는 경우에도 똑같이 말할지 궁금함 - gwern에 대한 평이 딱 맞다고 생각함
본인이 스마트하다는 분위기를 내면서 근거 없는 추정을 사실처럼 던지는 스타일임
특히 scaling/AI 커뮤니티에서 gwern을 유난히 좋아하는 것도 신기함
- 이상하다고 느낀 문장이 맥락상 크게 어색하지 않음
-
글에서 은하수를 여행하는 히치하이커를 위한 안내서(The Hitchhiker's Guide to the Galaxy) 명언을 언급하지 않아 아쉬움
"우주에 있는 모든 물질은 서로 어떻게든 영향을 주기 때문에 이론적으로는 요정 케이크 한 조각만 봐도 우주 전체, 태양, 행성, 궤도, 사회적·경제적 역사까지 모두 추론이 가능하다"는 메시지가 떠오름- 이런 논리를 성립시키려면 우주의 T_zero(초기 상태) 구성이 필요하지 않을까 생각함
서로 다른 T_zero 구성은 T_current(현재 상태)와 연결되고, 같은 물리적 구성이더라도 그 전의 "우주-케이크" 상태가 다를 수 있음
또한 완전히 결정론적 체계만을 가정하는 것임 - 불교에서는 '연기법(Pratītyasamutpāda)'이라는 개념이 있음
관련 설명 링크 - 입자는 숙명론에 시달리지 않음
- 이런 논리를 성립시키려면 우주의 T_zero(초기 상태) 구성이 필요하지 않을까 생각함
-
과거에는 통계 없이도 세상 진실을 밝혀냈었음
통계가 생긴 뒤 유용한 도구가 된 것은 맞지만, 그런 방법이 남용되면서 멍청함이 똑똑함처럼 포장되는 문제도 늘었음
그러니 이번 '상관관계 노이즈' 관찰도 질문해 볼 가치를 가짐
무엇보다 논리, 도메인에 대한 기초 지식이 먼저임
단순히 숫자만 세는 건 오해를 부를 수 있다 생각함- "과거에는 통계 없이 살았다"는 말에, 그때가 훨씬 더 나빴음을 지적하고 싶음
논리만으로는 새로운 지식을 배울 수 없음
논리는 이미 아는 것을 다시 설명할 뿐이고, 기초 지식은 경험이나 실험이 필요함
실제 세상 관찰은 항상 완벽하지 않기 때문에, 통계적 해석이 필수임
통계 등장 전엔 (a) 부자들이 앉아서 세상에 대해 깊게 고민함, (b) 카리스마 있는 인물이 자신의 바람대로 설교함, (c) 똑똑한 사람이 가끔 맞히는 식이었음
통계가 생김으로써, 누구든 결과에 근거하여 옳고 그름을 알 수 있게 되어, 기득권만의 영역이 아니게 됨
물론 통계적 추론의 장점 중 하나는 '상호비교(intercomparison)'로, 과정 자체에 대한 이해가 없어도 차이에서 결론을 도출할 수 있다는 점임
하지만 그렇기 때문에 결과 조작이나 오해도 쉬워짐 - 조지 루카스가, 사회에 새로운 것이 들어오면 사람들은 항상 지나치게 그것을 남용한다고 말한 적 있음
관련 영상
- "과거에는 통계 없이 살았다"는 말에, 그때가 훨씬 더 나빴음을 지적하고 싶음
-
주제와 다른 이야기지만, 이 블로그가 정말 아름답다고 느낌
드롭캡(drop cap), 화면 오른쪽에 보이는 인라인 댓글, 진행 표시줄 등에서 프로젝트에 대한 애정이 느껴짐- gwern의 드롭캡 관련 글이 흥미로울 것 같음
-
이 글은 정말 방대한 글임
나도 저런 본격적인 글을 쓸 수 있으면 좋겠다는 바람이 생김
저자의 다른 글들도 보면 정말 기계처럼 끊임없이 생산하는 것 같음- 기억이 맞다면 Gwern은 외진 곳에서 매우 검소하게 살며, 그래서 사적인 연구에 많은 시간을 쓸 수 있다고 함
- 많은 시간, 반복, 어려운 질문에의 집착, 연구 및 Haskell에의 전문성이 저자의 비결임
물론 누군가가 재정 후원을 해주면 더 좋음 - 나는 저런 글을 읽을 수라도 있으면 좋겠음
- gwern은 정말 대단하다고 생각함
-
이런 논쟁은 몇십년째 있었던 것임
비판적 시각을 잃지 않는 건 중요함
하지만 개인적으로 일에서 이런 논리와 씨름해 볼수록, 실은 그리 유용하지 않고 비어있는 느낌을 받음
'crud'는 통계적 우주 배경복사처럼 패턴 속에 존재하고, 무의미하다고 치부하기보단 가끔 중요할 때도 있음
변수들의 연관이 쉽게 설명되지 않을 때가 있는가 하면, 조절해야 할 잠재적 혼란 변수에 대한 이해에 핵심이 될 때도 있음
항상 상관관계가 있는 것은 아니며, 진짜로 연관이 0인 경우도 존재함
'0이 아닌 의미 있는 효과 크기'를 정하는 것도 매우 임의적이고 주관적임
이 현상을 바라보는 데 더욱 생산적인 틀이 있을 것 같음 -
Correlated. 다른 사례?<i>Everything Is Correlated</i> - 예전 논의
- Correlated, 맞나요?
-
그래서 실험 과학이 관찰 연구와 다른 이유임
통계 분석은 한 가설에 더 신뢰를 두도록 할 이유만 주고, 진짜 실험적 접근이 보강되어야 함
블로그의 예시는 대부분 의학·사회·행동과학 등에서 제대로 통제된 실험이 어렵거나, 표본 수 부족으로 인과관계를 명확히 밝히기 어려운 경우임- 미시경제학은 대규모 관찰 연구에서 실험 및 준실험 디자인 중심으로 진화했음
물론 설계 상의 실패는 분석으로 고칠 수 없지만(You can’t fix by analysis what you bungled by design - 출처), 어느 정도는 편향을 줄이는 방향임
- 미시경제학은 대규모 관찰 연구에서 실험 및 준실험 디자인 중심으로 진화했음
-
“이로 인해 유의성 검정의 의미가 모호해진다; 이는 a priori(선험적)로 거짓임을 아는 시나리오에서 데이터의 확률을 아주 정확하게 계산하는 것에 불과하다”는 글 인용에 대해
의미 있는 결과에 도달할 때 모형이 단순화되어 있고, 엄밀히 말하면 거짓임을 인정하고 계산하는 것은 흔한 일이라고 생각함
예를 들어 뉴턴의 법칙, 전기회로 해석도 단순화 덕에 가능하며, 은행권에서도 1년을 360일로 계산했었음
실제로 잘 작동하는데 내가 뭘 놓친 건지 궁금함- 문제는 돈만 충분하다면(즉, 아주 큰 표본 N을 확보하면) 언제든 '유의미한' 결과를 만들어낼 수 있다는 점임
이런 점은 연구를 진리 추구로 볼 때 심각한 딜레마임 - 과거에 원리금상환 계산기를 만들 때, '일수 계산(day count)' 방식만도 47가지가 있었음
(1개월 미만 구간의 지급액 산정 등) - 그런 단순화로 인해 생기는 최대 오차가 항상 알려져 있음
다르게 말하면, 아인슈타인은 뉴턴의 정밀화 버전임
특수상대성 이론이 저속 한계에서 뉴턴 운동으로 수렴하듯이
실제로 통계에서 '거짓'은 존재하지 않고, "x%의 확률로 사실이 아님"으로 해석해야 함
x를 낮추고 싶으면 '더 열심히 통계'를 해야 하고, 샘플 수(N)를 늘리는 게 가장 확실함
글에서 완전히 잘못하고 있는 점은, 충분히 큰 N이면 진실/거짓을 절대적으로 취급해도 된다는 것임
왜냐하면 '우주가 백만번 만들어져도 한 번 나올까 말까'하는 확률 수준까지 가니까
다만 현실에서는 사회과학, 의학, 경제학 등 대다수가 아주 작은 N에서 작업하므로 통계 문제가 필연적으로 큼
그래서 '더 열심히 통계'를 하려고 하지만, 실상은 N을 늘리지 못하고 수치를 조작하거나, N을 조금만 늘린 뒤 문제를 해결했다고 주장함 - 궁극적으로는 단순화로 인한 오차 크기가 실제로 얼마나 되는지, 그 정량적 규모가 관건임
- 문제는 돈만 충분하다면(즉, 아주 큰 표본 N을 확보하면) 언제든 '유의미한' 결과를 만들어낼 수 있다는 점임