Census Bureau가 발행하는 통계 제품에서 노이즈 주입 금지
(desfontain.es)- 비밀 데이터셋에서 공개 통계를 만들 때 쓰는 노이즈 주입은 원자료 개인정보를 숨기면서 통계 유용성을 유지하는 공개 회피 도구임
- 미국 상무부 명령은 Census Bureau와 Bureau of Economic Analysis의 모든 통계 제품에서 노이즈 주입을 금지하며, 차등 개인정보보호를 직접 겨냥함
- Census Bureau는 1990~2010년 10년 단위 인구조사에서 스와핑을 주로 썼지만, 공개 통계로 개인 기록을 재구성하기 쉬운 문제가 드러난 뒤 2020년 인구조사에 차등 개인정보보호를 채택함
- 차등 개인정보보호는 기여도 제한과 정교하게 보정된 노이즈 추가를 결합해 비슷한 프라이버시 수준에서 더 높은 유용성을 제공함
- 노이즈를 빼면 향후 통계 공개는 과거보다 쓸모가 크게 줄거나 매우 불안전한 데이터가 될 수 있음
배경
- 통계 제품은 비밀 데이터셋에서 공개되는 여러 숫자이며, 해당 데이터셋에 기밀 정보가 있을 때 공개 숫자가 그 정보를 드러내지 않아야 함
- U.S. Census는 대표 사례이며, 통계는 공개되지만 미국 거주자가 작성한 개별 양식 내용은 비밀로 유지돼야 함
- 통계 분야에서 원자료의 프라이버시를 보호하면서 유용한 통계를 공개하는 기법은 공개 회피로 불림
- 공개 회피 기법에는 특정 기준을 넘지 못한 데이터를 제거하는 억제, 속성을 덜 정밀하게 만드는 일반화, 일부 레코드를 무작위로 제거하는 표본추출이 있음
- 공개 회피 기법에는 서로 다른 레코드의 속성을 무작위로 바꾸는 스와핑, 개인 1명의 최대 영향을 제한하는 기여도 제한, 통계에 무작위 숫자를 더하는 노이즈 추가도 있음
-
차등 개인정보보호와 2020년 인구조사
- 일부 기법을 결합하면 차등 개인정보보호를 달성할 수 있으며, 과학자들 사이에서 프라이버시 보호의 골드 스탠더드로 널리 여겨짐
- 차등 개인정보보호는 보통 기여도 제한과 신중하게 보정된 노이즈 추가 조합에 의존함
- Census Bureau는 1990년부터 2010년까지 10년 단위 인구조사에서 주로 스와핑을 사용함
- 이후 스와핑이 매우 안전하지 않으며, 공개 통계만으로 개인 기록을 재구성하기 쉽다는 점을 인식함
- Bureau는 연방법상 해당 기록을 기밀로 유지해야 하므로 몇 가지 대안을 시도했고, 공격을 막으면서 통계 유용성을 가장 잘 유지한 방식으로 2020년 인구조사에 차등 개인정보보호를 채택함
-
유용성 저하와 반발
- 차등 개인정보보호는 수학이 우아해서가 아니라, 공격을 완화하는 여러 선택지 중 데이터의 유용성을 가장 많이 보존했기 때문에 선택됨
- 정확한 프라이버시 매개변수도 강력한 증명 보장을 제공해서가 아니라, 허용 가능한 프라이버시 보호 수준에 도달하면서 데이터의 유용성을 최대한 끌어내기 위해 선택됨
- 새롭게 발견된 프라이버시 제약 아래에서 유용성을 가장 많이 보존했다는 말은 2010년 인구조사만큼의 유용성을 보존했다는 뜻은 아니었음
- 숫자는 덜 정확해졌고, 부정확성은 훨씬 투명해져 무시하기 어려워짐
- 인구학자와 사회과학자는 자신들이 다루는 데이터가 노이즈가 있는 데이터라는 점을 더는 무시할 수 없게 됐고, 이 데이터를 개념화하고 다루는 방식에서 큰 전환이 필요해짐
- Census 데이터를 실제로 개인 기록 재구성에 쓰던 사람들은 더는 그렇게 할 수 없게 됐고, 인구학자들은 이것이 흔한 관행이었다고 인정함
- 게리맨더링 노력의 일부로 정치 실무자들이 이런 재구성을 했다는 점도 공공연한 비밀임
명령의 내용
- 행정부는 노이즈 주입이 더는 허용 가능한 공개 회피 기법이 아니라고 결정함
- 명령은 차등 개인정보보호를 명확히 겨냥하지만, 무작위성을 수반하는 다른 기법에도 영향을 미치는 것으로 보임
- 명령문은 일반화를 항상 우선해야 하며, 억제는 “최후 수단”으로만 써야 한다고 명시함
- 명령이 왜 그렇게 구체적인지는 알 수 없음
- 명령은 “헌법, 법률, 규제 또는 기타 법적 조항과 충돌하는 것으로 해석돼서는 안 된다”고 신중히 밝히며, 해당 통계 제품을 둘러싼 기밀 유지 의무는 계속 적용됨
실제 영향
- 결과는 유용성이나 프라이버시, 또는 둘 모두에 심각할 수 있음
- 향후 통계 공개는 과거 공개물보다 쓸모가 없거나, 믿기 어려울 만큼 안전하지 않을 수 있음
- 공개 회피 도구상자에서 유용한 도구를 제거하면 프라이버시와 유용성 사이의 절충은 항상 더 고통스러워짐
- 이 연구 분야의 목적은 프라이버시 위험을 더 잘 이해하고 정량화하며, 유용성을 보존하면서 위험을 완화하는 더 나은 도구를 개발하는 데 있음
-
차등 개인정보보호의 위치
- 통계 공개에서 차등 개인정보보호는 현재 사용할 수 있는 가장 좋은 도구임
- 차등 개인정보보호는 절충을 더 세밀하게 정량화하는 방법을 제공하고, 비슷한 프라이버시 수준에서 경쟁 기법보다 데이터 유용성을 더 많이 끌어냄
- 차등 개인정보보호를 제거하면 비슷한 프라이버시 수준에서 유용성이 더 낮거나, 같은 유용성에서 프라이버시가 더 나쁜 기법만 남음
- 경쟁 기법들도 노이즈 추가에 의존함
-
다른 기법들도 무작위성을 사용함
- 다른 통계 기관에서 쓰는 Cell Key method는 통계에 노이즈를 더함
- Census가 1990년부터 2010년까지 사용한 스와핑도 과정에 무작위성을 주입함
- 표본추출은 통계 작업 전반에 널리 쓰임
- 대체)도 기술적으로 데이터에 노이즈를 더함
-
일반화와 억제의 한계
- 일반화와 억제는 매우 둔한 도구임
- 일반화와 억제는 통계가 이미 매우 거칠고, 공개되는 통계 수가 많지 않은 상황에서만 작동함
- U.S. Census처럼 소규모 집단에 관한 통계가 많은 복잡한 데이터 제품에서는 일반화와 억제가 데이터 유용성을 모두 파괴하거나 프라이버시 공격에 매우 취약해짐
- 유용성 파괴는 특히 소수 집단에서 두드러짐
-
노이즈가 공격을 어렵게 만드는 이유
- 통계 공개에 대한 프라이버시 공격은 연립방정식을 푸는 문제에 가까움
- 모든 통계가 완벽히 정확하다고 확실히 알 때 이 작업은 훨씬 쉬워짐
- 노이즈는 공격자가 확률을 계산하고, 불확실성을 정량화하고, 기준선을 신중하게 고려하도록 만듦
- 무작위성은 공식 보장이 없어도 공개 회피에 유용하며, 공격을 훨씬 어렵게 만듦
- 무작위성을 제거하면 공격은 사소해짐
왜 이런 일이 일어나는가
- 동기는 알 수 없음
- 목표가 향후 게리맨더링 노력을 돕기 위해 U.S. Census가 실제 재식별을 가능하게 하는 통계를 공개하도록 강제하는 것인지 알 수 없음
- 반대로 목표가 연구자들이 인구 내 불공정한 격차를 보이지 못하게 유용한 인구통계 데이터 공개를 막는 것인지도 알 수 없음
- Hanlon's razor는 대안적 해석을 제공함
- 통계 데이터 공개에는 근본적인 프라이버시/유용성 절충이 있으며, 이 절충은 성가신 문제임
- 많은 통계를 공개해도 높은 프라이버시 위험이 자동으로 따라오지 않는다면 훨씬 쉬운 상황이 됨
- 차등 개인정보보호는 이 절충을 명시적으로 드러내며, 따라서 무시할 수 없게 만듦
- 차등 개인정보보호 금지는 문제가 존재하지 않는 척하고, 문제가 사라지기를 바라는 방식일 수 있음
댓글과 토론
Hacker News 의견들
-
지난 인구조사 때 조사원으로 일했는데, 지역사회 신뢰가 이미 낮았고 흥미로운 만남도 많았음
친절한 얼굴로 꽤 침습적인 데이터를 수집하면서도, 그 데이터가 책임 있게 쓰이고 관리될 거라고 진심으로 믿었음
이제 민감한 정부 데이터를 무기화·수익화하지 못하게 막던 방화벽이 무너진 상황에서 2030년에 집집마다 다닐 사람들도 안쓰럽고, 자신에게 해가 될 정보를 자발적으로 제공할 사람들은 더 안타까움
“비싼 인구조사는 그냥 머릿수만 세면 된다”는 반응도 재미있게 느껴짐. 수집 데이터는 공통 이해의 중요한 기준선이었고, 앞으로 그 품질에는 좋지 않은 일이 될 것임
참고로 배정받은 곳이 주로 무응답 가구라서, 자연스럽게 내 지역 사람들은 정부를 싫어하거나, 이상하게 위협적인 전단을 무시하거나, 최근 이사 와서 조사 기간의 거주자를 모르는 것처럼 보였음- 인구조사 데이터 제품만 보더라도 그렇지만, 인구통계 데이터는 사실상 다른 모든 설문 연구의 외삽 기반임
수만 명 응답자를 바탕으로 한 전국 여론조사부터 작은 지역사회 조사까지 모두 여기에 기대고 있음
가장 다양한 참여를 얻은 인구조사 결과는 미국에 거의 무한한 보상을 주며, 전국 신문부터 농촌 카운티까지 모두에게 이익이 됨
가장 작은 지역사회가 인구조사의 개인정보 보호에 대해 남은 신뢰마저 잃으면, 이런 모든 면에서 가장 크게 잃게 됨 - 비슷한 일을 했는데 감정이 잘 요약되어 있음. 그런 신뢰를 다시 쌓기는 정말 슬프고 어려움
그리고 이 데이터를 악용하고 싶다고 자랑스럽게 말하는 정당으로 사람들이 계속 끌리는 것도 낙담스러움 - 진짜 하락은 Edward Snowden 이후 NSA 관련 정보가 쏟아져 나오면서 시작됐다고 봄
정부에 대한 불신을 크게 촉발했고, 사람들에게 설문에 응답하게 하는 일은 이미 어려웠음
일반인이 왜 Census Bureau가 자기 데이터를 실제로 안전하게 지킨다고 믿겠나 싶음
법이나 헌법이 어떻든, 어떤 기관에서 일하면 곧 정부로 보임. 응답률은 계속 내려가고, 이제 대통령이 경제 통계까지 공격함
냉소적으로 보면 통계기관을 계속 축소하고 통계를 더 쓸모없게 만들 것 같음. 이번 정책 변화도 그런 방향이고, 결국 민간 업계로 넘기려 할 것임
하지만 민간 업계는 정부가 현장에서 하는 일을 할 수 없음 - 국가는 그 나라를 구성하는 사람들이 어떤 상태인지 아주 자세히 이해하려고 인구조사를 함
정확한 정보가 있어야 개선 계획을 세우고 모두의 삶을 더 낫게 만들 수 있음
“그냥 머릿수만 세면 된다”는 태도는 요즘 많은 사람들의 사고방식을 흥미롭게 드러냄
삶을 더 낫게 만들고 싶어 하지 않거나, 어떻게 그래야 하는지 상상조차 못 하는 것처럼 보임. 정말 슬픈 일임
- 인구조사 데이터 제품만 보더라도 그렇지만, 인구통계 데이터는 사실상 다른 모든 설문 연구의 외삽 기반임
-
이번 주 Texas 공화당 주 전당대회에서 정강 초안에 차등 개인정보 보호에 반대하는 문구를 수정안으로 넣자고 했음
인구조사에 관여했다는 누군가의 예시로, 다리 밑 노숙자 1명이 차등 개인정보 보호 때문에 5명이 될 수 있으니 상식적으로 우스운 일이라고 정당화했다고 함
통과됐는지는 모르지만, 이런 종류의 일을 밀어붙이는 풀뿌리 압력이 저런 식임- 그게 풀뿌리라는 걸 어떻게 알 수 있음?
-
꽤 슬프다고 봄. 이상적으로는 국가는 현재 존재하는 사람들의 구성을 볼 수 있어야 하고, 그래야 우리가 함께 운영하는 조직에 대해 좋은 결정을 내릴 수 있음
데이터 수집 인프라를 의도적으로 손상시키는 건 나중에 후회할 실수라고 생각함
미국 성공의 상당 부분은 세밀한 데이터를 다루는 좋은 제도에서 나왔다고 봄. 정책을 결과에 맞춰 더 빠르게 조정할 수 있었기 때문임
사람들이 모든 국가 역량을 줄이려는 이유는 이해함. 정부가 자기 반대자들로 채워져 있고, 그 역량이 자신들에게 쓰일 거라고 느끼기 때문임
하지만 상대적 힘이 약해질수록 이런 관성을 이겨낼 능력도 줄고, 정부는 덜 유능해지며 결국 삶이 나빠지기 시작함
주택 단위 데이터가 즉시 필요한 건 아니지만, 인구조사 블록을 적절한 선거구에 배치하는 경우 등은 예외일 수 있음. 그래도 어느 집계 단위 이상에서는 가능한 한 좋은 정보를 써야 함- 인프라를 의도적으로 망가뜨리는 것은 이번 행정부의 반복되는 주제임
- 이건 정부 권력을 약하게 만들지 않음
그냥 정부를 더 멍청하게 만들어서, 나중에 올바른 일을 하려 해도 효과적인 결정을 내릴 정보가 없어 못 하게 만들 뿐임 - 세부 정보는 주 정부에 주고, 주가 프로그램을 운영하게 하는 쪽이 더 관심 감
연방은 집계 데이터만 가져가면 됨 - 그 이상은 미국 정부가 인구조사 비밀을 깨고 일본계 사람들을 인종 기준으로 수용소에 보냈을 때 학살을 가능하게 하는 것과 다름없어졌음
“모든” 국가 역량의 문제가 아니라, 국가는 필요한 일을 수행하기 위한 절대 최소 역량만 가져야 함
예를 들어 인종 정보를 수집하는 건 절대적으로 필요하지 않으니 해서는 안 됨
미래에는 정부가 반대자로 채워질 수 있기 때문임. 더 나아가 국가 행위자가 저지른 가장 큰 피해는 의도적 악의보다 “도와주려는” 시도에서 꾸준히 나왔음 - 이 기사는 인구조사를 덜 망가뜨리는 결정에 관한 것임
정확한 인구조사를 중요하게 생각한다면 오히려 축하해야 함
-
인구조사에는 무엇을 하든 일정 수준의 신뢰가 전제됨
이 데이터가 사기, 금융사기, 기타 악용에 쓰일 수 있도록 식별되지 않을 거라는 신뢰임
그런데 NY에서는 주택 매매 기록이 공개되고, 그 부작용으로 많은 모기지 회사가 결제 청구서를 가장해 보냄
차등 개인정보 보호는 절대적으로 필요하고, 사회과학자들이 개인 수준에서 데이터를 재구성하지 못하는 건 의도된 결과임
대부분의 목적에는 거시적 설명이면 충분하며, 그 이상을 요구하는 건 감시국가를 요구하는 것과 같음- 그건 솔직히 집행 실패이자 금융 시스템 설계 실패에 더 가까워 보임
독일에서는 모기지나 이를 보유한 은행이 뜨거운 감자처럼 다른 호구에게 팔려 다니는 일이 흔하지 않아서, 그런 편지가 오면 즉시 의심을 살 것임
- 그건 솔직히 집행 실패이자 금융 시스템 설계 실패에 더 가까워 보임
-
데이터셋에서는 금지하고, 분석 단계에서 넣으면 됨. 원하는 방식의 잡음을 고를 수 있음
여기 정치적 함의는 잘 모르겠지만, 어느 수준에서는 “이 사람/가구는 응답을 거부했다”를 포함한 실제 기준값이 필요함
다만 원자료를 공개하는 건 국가안보 관점에서 스스로 발등을 찍는 일처럼 보이고, 그 외에도 하지 말아야 할 이유가 많음- 제안이 정확히 뭔지는 모르겠지만, 잡음을 사람마다 독립적으로 추가하면 여러 사본을 사서 평균 내는 식으로 줄일 수 있음
이걸 잘못하는 방법은 아주 많고, 그래서 차등 개인정보 보호에 그렇게 많은 분석이 들어간 것임 - 잡음은 공개 데이터에 들어가는 것이지, 비공개 데이터에 들어가는 게 아님
- 제안이 정확히 뭔지는 모르겠지만, 잡음을 사람마다 독립적으로 추가하면 여러 사본을 사서 평균 내는 식으로 줄일 수 있음
-
차등 개인정보 보호가 이 상충관계를 명시적으로 만들어 무시할 수 없게 한다기보다, 두 목표 중 하나가 다른 하나보다 더 가치 있으니 희생하면 안 된다는 말일 수도 있음
-
여기서 “전부 공개해야 한다”고 하는 반응들은 나쁜 의미로 일차원적 사고라서 놀라움
인구조사는 질문을 하는 것뿐임
다양한 속성을 가진 사람들에게 데이터를 공개하고 무기화하기 시작하면, 사람들은 그냥 거짓말하거나 답하지 않게 됨
그러면 남는 건 없는 것보다 더 나쁜 데이터임. 사람들이 그 나쁜 데이터에 따라 행동하려 하기 때문임- 처음에는 사람들이 모르거나 신경 쓰지 않을 때 데이터를 모으고, 나중에 무기화하면 됨
얼마 전 다른 나라에서 적어도 한 번 일어났으니, 우려가 과민반응은 아니라고 봄 - 데이터를 무기화하는 주체가 바로 미국 정부임
가장 명백한 예는 Census Bureau가 2차대전 중 일본계 사람들의 명단을 만들어 수감에 사용한 일임
지금 진짜 추진력은 사람들의 투표권을 박탈할 명단을 만드는 데 있다고 봄 - 쉬운 해법은 데이터의 해상도와 범위를 절대적으로 필요한 수준까지 줄이는 것임
인구조사는 대표성 결정을 위한 정보를 제공하려고 존재함. 나머지는 부가 기능임
카운티나 선거구 수준에서는 데이터를 가질 수 있지만, 해상도가 올라갈수록 데이터를 제거해서 동네나 블록 수준에서는 인구수만 남기면 됨
한 블록 거주자의 인종, 민족, 사회경제적 배경을 아는 건 그들을 차별하는 데에나 유용함 - 진짜 질문은 왜 애초에 사람들이 이런 질문에 답하느냐임
나는 인구조사원이 올 때까지 기다렸다가 내 거주지에 몇 명이 사는지만 말함
그건 적절한 선거 대표성을 위해 필요하고, 그 외에는 전혀 필요 없음 - 이 행정부는 사실에 전혀 관심이 없음
- 처음에는 사람들이 모르거나 신경 쓰지 않을 때 데이터를 모으고, 나중에 무기화하면 됨
-
이런 내용을 조화시키기가 너무 어려움
2020년 인구조사에서 차등 개인정보 보호를 채택했다면서, 이 필터 하나를 빼면 유용성이나 개인정보 보호, 혹은 둘 다에 “끔찍한 결과”가 온다고 함
그런데 수백 년 동안 인구조사를 해왔고 괜찮았으며, 마지막 인구조사에만 개인정보 보호 요소를 추가했음
그중 하나를 제거한다고 갑자기 끔찍한 상황이라면 이상함. 이전에는 그런 개인정보 보호 기능이 없었으니, 사실 수백 년 전보다 훨씬 나은 상태 아닌가 싶음
그래서 감정적으로 과장된 문제처럼 느껴짐- 믿기 어렵겠지만 지난 수백 년 동안 수학적 기법과 컴퓨팅 능력이 늘었고, 모든 것이 디지털화되기도 했음
예전에는 비용 때문에 불가능했던 개인정보 공격이 이제는 몇 푼이면 가능함
또한 지적된 것처럼 사람들이 인구조사 데이터를 선거구 조작에 이미 사용해왔으니, 이런 공격은 현실이며 오래전부터 진행돼 왔음 - 100년 전에는 없고 지금은 있는 중요한 물건 하나가 컴퓨터임
과거에는 개인 기록을 재구성하는 일이 적어도 대규모로는 현실적이지 않다고 볼 수 있었음. 지금은 그렇게 볼 수 없음
4자리 비밀번호가 수백 년 동안은 안전했겠지만, 오늘날에는 같은 이유로 보안상 책임이 됨 - 이런 우려는 대부분의 개인정보 우려처럼 과장된 가상의 건강염려증처럼 보이다가, 어느 순간 더는 아니게 됨
- 컴퓨터와 데이터 과학·기계학습의 발전이 거의 전부를 설명함
오늘날 데이터를 재식별하는 데 쓰는 많은 기법은 예전에는 사용할 수 없던 계산 능력을 필요로 함
가능하더라도 자원이 규모를 제한했음. 통계학 학위자로서 하는 말임
또 연결도 있음. 인터넷, 소셜 미디어, 웹 추적, 해킹으로 대조할 데이터 원천이 훨씬 많아졌음
1970~80년대만 해도 미국인의 기록 흔적은 지금보다 극적으로 적었음 - 기사에 분명히 나오듯이, 개인정보 보호 기능은 1990년부터 인구조사에 있었음
다만 이전 보호 기능은 강하지 않았고 깨질 수 있었기 때문에 더 강한 기능으로 대체된 것임
1990년은 개인용 컴퓨터가 보급되고 개인이 쓸 수 있는 계산 능력이 폭발하던 시기였고, 그때부터 인구조사가 공개한 데이터에서 개인 정보를 분리해낼 수 있게 됨
그래서 그때 문제가 생긴 것임. 과장된 문제가 아님
- 믿기 어렵겠지만 지난 수백 년 동안 수학적 기법과 컴퓨팅 능력이 늘었고, 모든 것이 디지털화되기도 했음
-
특정 유럽 국가 출신 입장에서는 인구조사에서 어떤 답이 문제를 일으킬지 알 수 없음
“종교가 무엇인가”는 완전히 무해해 보이지만, 1940년대 어떤 외국 점령자가 그 답을 개인에게 연결할 수 있게 되자 사후적으로 치명적인 답이 됐음- 그런 외국 점령자라면 그냥 수정되지 않은 원자료를 요구하지 않겠음?
- 미국 인구조사에서는 종교를 묻지 않음
2020년 질문은 4월 1일 기준 이 집·아파트·이동식 주택에 몇 명이 살거나 머물렀는지, 빠뜨린 추가 인원이 있는지, 주거 형태가 무엇인지, 전화번호, 1번 사람의 이름, 성별, 나이와 생년월일, 히스패닉·라틴계·스페인계 여부, 인종 정도였음
거짓말을 막는 것도 딱히 없음 - 미국에서 인구조사로 종교를 묻는 건 법에 어긋남
누구도 종교적 신념이나 종교 단체 가입 여부에 관한 정보를 공개하도록 강요받아서는 안 됨
https://www.congress.gov/94/statute/STATUTE-90/STATUTE-90-Pg... - 프랑스는 예전에 목록을 아주 많이 만들었음. 목록을 좋아했고, 목록은 좋다고 여겼음
유대인 명단도 언젠가 뭔가 할 때 유용할 수 있다며 만들었고, 독일인들은 그걸 발견하고 매우 기뻐했음
미국이 사람들에게 인식된 출신 배경, 예컨대 AAPI, AA, Latino 등을 묻는 집착은 이상한 정도를 넘어 노골적으로 위험함
이런 질문은 하지 말아야 하고, 이름과 함께 절대 기록하면 안 됨
다행히 이제는 데이터 브로커에게 사서 Palantir가 표적화하게 하면 되니 그들에게는 더 쉬워졌음 - “종교가 무엇인가”는 인구조사에서 전혀 말이 안 된다고 봄
-
차등 개인정보 보호가 상충관계를 명시적으로 만든다는 말은 오히려 거꾸로라고 봄
차등 개인정보 보호 같은 기법은 이 분야를 숨 쉬듯 다루는 소수 전문가를 제외하면, 상충관계가 존재한다는 사실을 숨김
이 결정을 옹호할 만큼 충분히 알지는 못하지만, 실제 상충관계가 있다면 이런 기법에 접근하지 못하게 될 때 통계학자가 아닌 사람들도 그 상충관계를 마주하게 될 것 같음
대중에 관한 데이터가 결과를 위장해야 할 만큼 위험하다면, 애초에 수집하지 말아야 하는 데이터일 수도 있음- 사람들의 비공개 데이터는 의도치 않게 정기적으로 공개됨. Netflix 시청 기록과 의료 기록이 대표적인 예임
사람들은 새어 나가는 정보량을 꾸준히 과소평가하기 때문에 상충관계를 잘 판단하지 못함
그래서 안전한 양의 정보만 새어 나가게 강제하는 방식이 맞음
데이터를 공유하거나 수집하지 않는 편이 더 나은 경우도 있겠지만, 이 데이터에는 분명한 가치가 있으므로 저장하고 공개할 최적량이 0은 아님 - 개인적으로는 기술 회사에서 큰 조직으로서의 데이터 과학이 영향력을 잃은 큰 이유 중 하나가, 데이터 과학팀을 데이터의 문지기처럼 대하는 경향이었다고 봄
통계적 사고의 책임을 외주화하자, 한 사람이 주변 사람들이 제대로 이해할 필요도 없이 상충관계를 먼저 결정하는 이상한 권력감을 갖게 됨 - 그 논리라면 누구도 어떤 이유로도 절대 주소를 수집하면 안 됨
어떤 맥락에서도 개인식별정보를 주고받거나 수집할 수 없다면 사회가 어떻게 작동하겠음?
익명화와 보안은 핵심적이고, 많은 중요한 기능을 가능하게 함
잠재적으로 위험한 정보를 절대 제공하거나 수집하지 않는 세계에서 우편물은 어떻게 받을 수 있겠음?
- 사람들의 비공개 데이터는 의도치 않게 정기적으로 공개됨. Netflix 시청 기록과 의료 기록이 대표적인 예임