GN⁺: 예측에는 오차 범위가 필요합니다
(andrewpwheeler.com)범죄 분석 및 범죄 예측의 오류 범위 필요성
- 범죄 예측에는 오류 범위가 포함되어야 함을 강조하는 내용
- 리처드 로젠펠드가 최근 범죄학자에 기고한 글에서 국가 범죄율 예측에 대해 논의
- FBI가 범죄 통계를 1년 늦게 발표하는 것에 대한 불만이 있지만, 학계는 더 늦게 "예측"을 제공함
ARIMA 모델을 사용한 분석
- 파이썬에서 ARIMA 모델을 사용하여 합리적인 예측 오류가 어떻게 보이는지 분석
- 데이터와 코드는 GitHub에서 제공
- 데이터 로딩 및 라이브러리 가져오기에 대한 간단한 설명과 함께 데이터 형식을 올바르게 설정하는 과정 설명
모델 피팅 준비
- 리처드의 논문과 유사한 조건으로 ARIMA(1,1,2) 모델 피팅
- 리처드의 모델에 대한 설명과 비교, 그리고 모델의 출력 결과 제공
예측 및 오류 범위
- statsmodels 패키지를 사용하여 새로운 데이터를 추가하고 한 단계 앞선 예측을 수행
- 예측의 표준 오류가 시간이 지남에 따라 증가하는 것을 보여주는 예측 결과 제공
리처드의 추정치와 비교
- 리처드의 예측치와 비교하여 각 모델의 MAPE(Mean Absolute Percentage Error)를 계산
- 예측 간격을 보여주며, 관찰된 값이 여전히 추정된 모델과 일치함을 강조
최종 포인트
- 리처드가 매크로 수준의 범죄 예측에서 계속해서 큰 오류를 범해도 중요하지 않음을 주장
- 국가 수준의 범죄 예측이 정책 대응에 도움이 되지 않는다고 주장
- 실제 범죄 예측의 응용 예로, 도시 성장에 따른 경찰 인력 증가 필요성을 예측하는 방법을 제시
GN⁺의 의견
이 글에서 가장 중요한 점은 범죄 예측에 있어 오류 범위의 중요성과 예측의 불확실성을 인정하는 것의 필요성을 강조하는 것임. 범죄 예측이 정책 결정에 직접적으로 유용하지 않을 수 있음에도 불구하고, 예측 모델링은 범죄학 이론의 타당성을 검증하는 데 중요한 도구로 사용될 수 있음. 이 글은 데이터 과학과 범죄학의 교차점에 있는 사람들에게 흥미로운 인사이트를 제공하며, 예측 모델의 한계와 이를 극복하기 위한 방법에 대한 심도 있는 논의를 제공함.
Hacker News 의견
-
예측과 의사결정의 연결성
- 예측은 일반적으로 의사결정으로 이어져야 함.
- 예측이 의사결정과 분리될 때 그 가치가 불분명해짐.
- 로젠필드는 과거 데이터에 대한 통계적 결론에 무게를 더하기 위해 예측을 사용하려 하고 있으나, 이는 의심스러움.
-
오차 막대의 의미
- 오차 막대의 의미는 명확하지 않음.
- 하나는 신뢰 구간(모델이 출력이 이 범위 내에 있을 확률을 95%로 제공).
- 다른 하나는 표준 편차(자신의 예측과 결과 사이의 제곱 차이를 예측하는 것).
-
오차 막대의 중요성
- 오차 막대는 새로운 처리의 이점을 비교할 때 더 나은 이해를 제공.
- 일부는 이것이 문제를 혼란스럽게 만든다고 생각.
- 의미 있는 오차 막대를 얻는 것은 어떤 경우에는 매우 어려움.
-
통계 분포의 검토
- 중요한 지표에 대한 히스토그램(통계 분포)을 정기적으로 살펴봄.
- 웹 서비스 호출 속도 문제에서 두 개의 명확한 피크가 나타남.
- 로그아웃된 사용자와 로그인된 사용자를 나타내는 두 피크를 통해 문제의 원인을 더 깊이 파악.
-
날짜 추정치에 대한 오차 막대
- 날짜 추정치(즉, 마감일)에도 오차 막대가 있어야 함.
- 날짜는 예측이며, 불확실성 추정치 없이는 의미가 없음.
-
불확실성 정량화의 중요성
- 데이터 과학과 특히 머신러닝에서 불확실성 정량화는 종종 간과됨.
- 실무자들은 항상 통계적 배경을 가지고 있지 않음.
-
예측과 측정의 비교
- 예측은 미래에 대한 측정으로 볼 수 있음.
- 불확실성에 대한 지식 없이 하는 모든 측정은 의미가 없음.
-
날씨에 대한 오해
- 처음에는 이 글이 날씨에 관한 것으로 생각함.
-
현재 또는 과거의 예측, 즉 나우캐스팅
- 데이터를 기다리는 동안 현재 또는 과거를 예측하는 예술.
- 오차 범위 없이는 부정확한 과학/통계임.
-
오차 막대 없이도 유용한 예측
- 때로는 단순한 점 예측만으로도 행동을 안내하는 데 필요함.
- 예측 분포의 전체 지식이 좋은 결정을 내리는 데 도움이 될 수 있음.
-
가우시안 프로세스 회귀의 장점
- 가우시안 프로세스 회귀(또는 크리깅)는 큰 장점을 가짐.
-
모든 추정/예측/예보/내삽/외삽에 대한 신뢰/예측/허용 구간의 필요성
- 팀이 문제에 투입하는 가정을 포함하는 신뢰/예측/허용 구간이 있어야 함.