예측에는 오차 범위가 필요합니다

(andrewpwheeler.com)

2P by GN⁺ 2023-12-05 | ★ favorite | 댓글 1개

범죄 분석 및 범죄 예측의 오류 범위 필요성

범죄 예측에는 오류 범위가 포함되어야 함을 강조하는 내용
리처드 로젠펠드가 최근 범죄학자에 기고한 글에서 국가 범죄율 예측에 대해 논의
FBI가 범죄 통계를 1년 늦게 발표하는 것에 대한 불만이 있지만, 학계는 더 늦게 "예측"을 제공함

ARIMA 모델을 사용한 분석

파이썬에서 ARIMA 모델을 사용하여 합리적인 예측 오류가 어떻게 보이는지 분석
데이터와 코드는 GitHub에서 제공
데이터 로딩 및 라이브러리 가져오기에 대한 간단한 설명과 함께 데이터 형식을 올바르게 설정하는 과정 설명

모델 피팅 준비

리처드의 논문과 유사한 조건으로 ARIMA(1,1,2) 모델 피팅
리처드의 모델에 대한 설명과 비교, 그리고 모델의 출력 결과 제공

예측 및 오류 범위

statsmodels 패키지를 사용하여 새로운 데이터를 추가하고 한 단계 앞선 예측을 수행
예측의 표준 오류가 시간이 지남에 따라 증가하는 것을 보여주는 예측 결과 제공

리처드의 추정치와 비교

리처드의 예측치와 비교하여 각 모델의 MAPE(Mean Absolute Percentage Error)를 계산
예측 간격을 보여주며, 관찰된 값이 여전히 추정된 모델과 일치함을 강조

최종 포인트

리처드가 매크로 수준의 범죄 예측에서 계속해서 큰 오류를 범해도 중요하지 않음을 주장
국가 수준의 범죄 예측이 정책 대응에 도움이 되지 않는다고 주장
실제 범죄 예측의 응용 예로, 도시 성장에 따른 경찰 인력 증가 필요성을 예측하는 방법을 제시

GN⁺의 의견

이 글에서 가장 중요한 점은 범죄 예측에 있어 오류 범위의 중요성과 예측의 불확실성을 인정하는 것의 필요성을 강조하는 것임. 범죄 예측이 정책 결정에 직접적으로 유용하지 않을 수 있음에도 불구하고, 예측 모델링은 범죄학 이론의 타당성을 검증하는 데 중요한 도구로 사용될 수 있음. 이 글은 데이터 과학과 범죄학의 교차점에 있는 사람들에게 흥미로운 인사이트를 제공하며, 예측 모델의 한계와 이를 극복하기 위한 방법에 대한 심도 있는 논의를 제공함.

▲

GN⁺ 2023-12-05 [-]

Hacker News 의견

예측과 의사결정의 연결성
- 예측은 일반적으로 의사결정으로 이어져야 함.
- 예측이 의사결정과 분리될 때 그 가치가 불분명해짐.
- 로젠필드는 과거 데이터에 대한 통계적 결론에 무게를 더하기 위해 예측을 사용하려 하고 있으나, 이는 의심스러움.
오차 막대의 의미
- 오차 막대의 의미는 명확하지 않음.
- 하나는 신뢰 구간(모델이 출력이 이 범위 내에 있을 확률을 95%로 제공).
- 다른 하나는 표준 편차(자신의 예측과 결과 사이의 제곱 차이를 예측하는 것).
오차 막대의 중요성
- 오차 막대는 새로운 처리의 이점을 비교할 때 더 나은 이해를 제공.
- 일부는 이것이 문제를 혼란스럽게 만든다고 생각.
- 의미 있는 오차 막대를 얻는 것은 어떤 경우에는 매우 어려움.
통계 분포의 검토
- 중요한 지표에 대한 히스토그램(통계 분포)을 정기적으로 살펴봄.
- 웹 서비스 호출 속도 문제에서 두 개의 명확한 피크가 나타남.
- 로그아웃된 사용자와 로그인된 사용자를 나타내는 두 피크를 통해 문제의 원인을 더 깊이 파악.
날짜 추정치에 대한 오차 막대
- 날짜 추정치(즉, 마감일)에도 오차 막대가 있어야 함.
- 날짜는 예측이며, 불확실성 추정치 없이는 의미가 없음.
불확실성 정량화의 중요성
- 데이터 과학과 특히 머신러닝에서 불확실성 정량화는 종종 간과됨.
- 실무자들은 항상 통계적 배경을 가지고 있지 않음.
예측과 측정의 비교
- 예측은 미래에 대한 측정으로 볼 수 있음.
- 불확실성에 대한 지식 없이 하는 모든 측정은 의미가 없음.
날씨에 대한 오해
- 처음에는 이 글이 날씨에 관한 것으로 생각함.
현재 또는 과거의 예측, 즉 나우캐스팅
- 데이터를 기다리는 동안 현재 또는 과거를 예측하는 예술.
- 오차 범위 없이는 부정확한 과학/통계임.
오차 막대 없이도 유용한 예측
- 때로는 단순한 점 예측만으로도 행동을 안내하는 데 필요함.
- 예측 분포의 전체 지식이 좋은 결정을 내리는 데 도움이 될 수 있음.
가우시안 프로세스 회귀의 장점
- 가우시안 프로세스 회귀(또는 크리깅)는 큰 장점을 가짐.
모든 추정/예측/예보/내삽/외삽에 대한 신뢰/예측/허용 구간의 필요성
- 팀이 문제에 투입하는 가정을 포함하는 신뢰/예측/허용 구간이 있어야 함.

답변달기