웹사이트들이 브라우저 핑거프린팅을 통해 사용자를 추적하고 있음

(engineering.tamu.edu)

11P by GN⁺ 8달전 | ★ favorite | 댓글 1개

브라우저 핑거프린팅은 쿠키 삭제만으로는 막을 수 없는 온라인 추적 방법임
Texas 대학 연구팀이 FPTrace라는 측정 프레임워크로 광고 입찰, HTTP 기록 변화를 통해 실제 추적 활용 사례를 입증
Fingerprint(지문)가 변경될 때 광고 입찰가 변화와 HTTP 기록 감소 현상이 발견됨
GDPR, CCPA 등 프라이버시 법률에 따라 추적 거부해도 핑거프린팅 기반 추적은 계속 발생함
연구진은 현행 프라이버시 도구와 정책이 불충분하다고 지적하며, 규제와 기술적 방어 강화 필요성을 강조함

Websites Are Tracking You Via Browser Fingerprinting

쿠키 삭제만으로는 온라인 프라이버시를 완벽히 보호할 수 없음
Texas A&M University가 주도한 최신 연구에 따르면, 웹사이트들이 브라우저 핑거프린팅이라는 방법으로 세션과 사이트를 넘나들며 사용자를 추적함
브라우저 핑거프린팅은 사용자의 스크린 해상도, 시간대, 기기 모델 등 다양한 정보를 조합해 고유한 브라우저 식별값을 생성함
- 쿠키와 달리 사용자가 쉽게 삭제하거나 차단할 수 없음
- 대부분의 사용자가 이러한 추적이 이루어지고 있다는 사실조차 인지하지 못함
- 프라이버시 중심 브라우저조차 완벽하게 차단하기 어려움

FPTrace 프레임워크로 웹 추적 실태 심층 조사

"알지 못하는 사이 남기는 디지털 서명"과 같음
기기나 브라우저의 조합만으로 사용자가 익명이라 해도 쉽게 추적 가능함
연구팀은 실제 광고 시스템에서 핑거프린팅이 어떻게 활용되는지 세계 최초로 실증적으로 규명함
- FPTrace라는 측정 프레임워크를 개발, 브라우저 핑거프린트가 광고 입찰 및 HTTP 통신에 미치는 영향을 분석함
- 핑거프린트가 바뀔 때 광고 입찰 값, HTTP 기록, 동기화 이벤트가 변하는 현상을 관찰하여 추적 실태를 밝혀냄

연구 결과 및 시사점

사용자가 쿠키를 삭제하거나 차단해도 핑거프린팅을 통한 추적이 지속적으로 이루어짐
핑거프린팅 사용 시 웹사이트 일부는 백엔드 광고 입찰 과정에 지문 데이터를 반영하는데, 이 과정에서 3자 업체에 식별 정보를 넘길 가능성도 확인됨
유럽 GDPR, 미국 CCPA 등 프라이버시 법률에 따라 추적 거부를 선택해도 핑거프린팅 기반 추적은 중단되지 않음
연구진은 현행 프라이버시 툴과 정책이 충분하지 않다고 강조하며, 더 강력한 기술적·제도적 방어책 필요성을 주장함
- FPTrace 프레임워크가 웹사이트 및 광고 제공자의 비동의 추적 여부를 감사하는데 도움이 되길 기대함

▲

GN⁺ 8달전 [-]

Hacker News 의견

나는 이 기술 분야에서 일하고 있는 사람으로서, 지문(fingerprint)이 실제로 얼마나 오래 지속되는지에 대한 이야기는 거의 듣지 못함을 느끼는 중임. 실제로 매우 정밀한 지문 정보도 반감기가 며칠밖에 되지 않음(특히 창 크기나 소프트웨어 버전 등으로 만든 경우 더욱 그렇다는 점 강조). 현재 주요 광고 네트워크들은 오히려 위치 데이터에 크게 의존하고 있음. 그래서 여러 기기간에 연결된 것처럼 보이거나, 배우자나 친구의 관심사를 반영한 광고가 피드에 많이 보이는 이유도 여기 있음. IP 기반의 위치만으로 아주 많은 영역에 광고를 뿌리는 흐름임. FPTrace라는 측정 프레임워크가 지문 기반의 사용자 추적을 분석하는 도구라는 점이 흥미로우며, 그들의 구체적인 연구 방법이 궁금해지는 부분임. 광고 네트워크들은 지문 자체보다는 기기 설정을 기준으로 광고 집단을 나눌 확률이 높다고 생각함. 예를 들면, 최신 소프트웨어와 최신 하드웨어를 쓰는 사용자는 '구매 의향이 높은 집단'으로 묶일 수 있음. 시간대 같은 단순한 요소도 광고 입찰 결과에 큰 영향을 미치므로, 이 연구에서 어떤 변수를 어떻게 제어했는지가 매우 중요하다 생각함
- 내 정보를 amiunique.org에서 확인한 결과, 정말로 나는 유일하다는 판정을 받음(어머니가 그러셨던 것처럼!). 다만 이 사이트에서는 어떤 요소를 바꾸면 비유일적으로 바뀌는지 알려주지 않고, 58개 자바스크립트 속성 중 16개가 최저 유사도 범주임. 그 중 버전 번호에 직접 의존하는 것은 2개, 화면 크기/해상도 관련이 6개임. 결국 금방 바뀌지 않을 여러 정보가 남아있다는 인상임. 시간이 지나면 정확한 값이 달라질 수는 있지만, '반감기가 며칠'이라는 표현은 이 기술의 실제 효과를 과소평가한 것처럼 느껴짐
- 윈도우 최대화 시 창 크기는 환경이나 모니터 교체, 데스크톱 환경 업데이트가 없으면 거의 바뀌지 않음. GPU 하드웨어 역시 빈번히 바뀌는 요소가 아니며, WebGL이나 WebGPU를 이용해 고유 특성이 손쉽게 지문에 활용 가능함. 설치된 폰트도 자주 바뀌지 않음. TCP 스택의 지문 역시 상당히 안정적임. 이런 요소 몇 가지만으로도, 개별 특성 하나만 바뀌어도 이전 지문 클러스터와 쉽게 연결 가능함. 더 심각한 것은 쿠키 같은 클라이언트 측 식별자를 동시에 지우지 않을 경우, 완전히 다른 두 지문 사이도 명확히 연동 가능하다는 점임
- 하드웨어 인터럽트 처리 시간과 그 지연 역시, 설치된 앱 조합이나 GPU 드라이버 버전 등 세부 요소에 따라 고유값이 달라질 수 있다는 점을 고려하면, 정말로 업데이트가 이루어져야만 분포가 변하고, 모든 분포가 동시에 바뀌는 일은 드물다는 생각임
- Siteimprove Analytics는 자사의 cookieless 추적 기술이 기존 쿠키 기반 추적보다 정확하다고 공개적으로 주장 중임. Visitor Hash는 개인 정보를 배제한 IP와 HTTP 헤더(브라우저 종류, 버전, 언어, user agent 등)를 해시해서 만들어지므로 기존 쿠키의 단점인 '짧은 수명' 문제를 해소하고, 고유 방문자 통계의 정확도를 높이는 데 유리함을 내세움. 다만 server-side 속성만 사용하며, 클라이언트 측 속성은 수집하지 않음. 인트라넷처럼 동일 IP/기기 환경에서 다수 유입시, 여러 사용자가 같은 Visitor Hash를 갖게 되어 방문이 하나로 뭉치는 단점이 있으니, 해당 유형 도메인은 cookieless 추적에서 제외할 것을 권장함
- 브라우저 지문은 선택하는 데이터 포인트에 따라 매우 견고하게 만들 수 있음(예: 설치된 플러그인, 콘텐츠 언어, 폰트 등). 데이터 포인트를 상황에 따라 동적으로 조정하거나, 사용자별로 다르게 활용하는 접근이 가능함. 또, 지문은 전체 데이터의 일부일 뿐임. 위치데이터처럼 다른 정보와 결합하면 제한이나 회피책을 상당 부분 무력화함. 예컨대, 기존 지문의 80% 유사한 새 지문이 동일 직장 IP에서 추가되고, 원래 지문이 사라진다면, 이 둘의 연계가 쉬움. 광고 회사 자체는 비용효율 및 합법성 방어 목적으로 '샷건 전략(광범위 타기팅)'을 선호하지만, 광고 외 목적의 조직은 데이터 포인트가 더 많아 훨씬 정밀하게 추적할 수 있음
amiunique.org에서는 브라우저가 화면 해상도, 시간대, 기기 모델 등 다양한 정보를 드러내며, 이들을 조합해 '지문'을 만들 수 있다는 점이 강조됨. 쿠키와 달리, 이런 지문 정보는 사용자가 삭제하거나 차단하기 어렵기 때문에 훨씬 탐지나 방지 자체가 힘듦. 아이러니하게도, 기기 및 OS, 브라우저 보안·개인정보 강화에 집착할수록 오히려 내 지문이 더 독특해지는 문제를 야기함. FOSS 생태계에 오랜 역사가 있었지만, 제대로 된 오픈소스 브라우저가 주류를 차지하지 못한 점은 아쉬움. 독점이 초기에 너무 수익이 컸기 때문이며, 개인적으로 오프라인 접근을 위해 웹 스크레이퍼 구상도 해봤지만 실용성은 떨어진다는 판단임
- "제대로 된 오픈소스 브라우저가 떠본 적이 없다"는 말은 정확하지 않음. Firefox는 한때 엄청나게 인기 있었고, 시장을 완전 장악했던 경험이 있음. 이후 Google이 불공정 행위로 이를 잠식했지만, 그건 나중 이야기임
- Firefox는 오랜 시간 동안 지문 추적의 효과를 줄이는 데에 거의 아무런 실질적 조치를 하지 않았다는 점이 놀라움. 2025년에도 여전히 브라우저가 너무 자세한 User Agent 스트링을 기본 전달하는 현실은 이해하기 어려움(Mozilla/5.0 (X11; Linux x86_64; rv:139.0) … 등). 웹사이트가 내가 X11을 사용 중인지, x86_64 리눅스인지 알 필요가 전혀 없음. 기본적으로 Referer(리퍼러)도 여전히 켜져 있음. 자바스크립트가 내 시스템에 설치된 폰트 목록을 알아내는 것도 가능함. 훨씬 세분화된 권한 제어와 합리적인 기본값이 필요함. 관련 플러그인은 있지만 설치·운용이 번거로움
- Brave처럼 지문을 무작위화해서 추적 회피를 시도하는 브라우저도 있지만, 개인적으로 실질적 효과는 의문임. 또 다른 방법은 다수가 쓰는 Tor와 같은 환경에 섞여 '흔적 감추기' 전략을 택하는 것임
- 서로 다른 두 개의 프라이빗 브라우저 창에서 모두 유일한 사용자로 판명되었음. 즉, 프라이빗 탭 간에는 지문 연동이 불가능하다는 뜻인지 궁금한 점 남음
- "제대로 된 오픈소스 브라우저"라는 기준에서 Firefox가 빠지는 이유가 무엇인지 궁금함
‘지문 추적이 실제 사용자를 얼마나 장기간 동일하게 표시하는지’를 측정하는 테스트가 coveryourtracks.eff.org나 amiunique.org보다 더 잘 설계됐으면 좋겠다는 바람임. 두 사이트 모두 고유성만 테스트할 뿐, 지속성은 체크하지 않음. 그래서 완전히 랜덤 넘버 생성기도 지문이라 인식할 수 있음. 실제 지문 보호 기술은 종종 무작위 출력을 포함하므로, Tor, Safari, LibreWolf처럼 통과한 브라우저도 이런 사이트에서는 오히려 실패 처리됨
- CreepJS는 자신의 지문에 이름(시그니처)을 붙이고, 다시 접속했을 때 동일 지문 여부를 확인할 수 있는 사이트임
- fingerprint.com이 이런 '시간 경과에 따른 결과 테스트'를 제공할 수 있다고 들음. fingerprinting as a Service 분야에서는 최고 수준이며, Meta와 Google이 그보다 앞설 뿐임
"지문 추적이 실제로 일어나고 있다"라는 점은 이미 다들 어느 정도 예감하고 있었지만, 구체적 증거 없이는 '기기 간 추적'이 정말 이루어지는지 입증하기 어려웠던 게 현실임. 이번 연구는 스터디를 위한 프레임워크와 대규모 실험 설계를 제안해 실제 지문 추적이 광고 영역에서 일어나는지를 실증적으로 확인하려고 한 것임. 기존 논문 대부분은 지문 관련 스크립트 실행 여부만 측정했기 때문에, 그것만으로는 추적 목적인지(혹은 봇/부정행위 방지, 인증 같은 방어적 목적인지) 알 수 없었음. 이번 연구는 브라우저 지문을 인위적으로 조정하면서 광고 변화까지 추적해, 실제 추적 맥락을 밝혀낸 것이 흥미로움(논문 링크). 논문 원문은 열람 불가라 더 구체적 내용은 확인하지 못함
쿠키는 특정 도메인마다 별도 저장되어 보안 경계 안에 있지만, 지문은 도메인에 상관없이 연산 가능함. 광고 서버 등이 지문만으로 사용자를 추적·파악하는 상황도 충분히 상상 가능하며, 이런 지문 정보만 모아도 피해자에 대한 정보를 수집할 수 있다는 점이 문제임
"왜 브라우저가 이렇게 많은 정보를 웹사이트에 기본적으로 노출하냐?"는 질문에 대해,
- 브라우저란 자체가 다양한 기능(API) 샌드박스로 이루어져 있음. 각각의 기능은 사용자 편의를 위한 것인데, 이들이 개별로는 중요해 보이지 않아도 합치면 하나의 독특한 지문이 됨. 진정으로 지문이 없는 환경을 원한다면, 웹의 자바스크립트 전체를 없애야만 한다는 결론임
- 개발자들이 기능 제공을 위해 이런 API를 원했고, 사생활 영향은 이미 "돌이킬 수 없는 상황"이 된 다음에야 주목 받게 됨
- 대부분의 정보는 실제로 유용하거나 필요함. 일부만 빼는 게 가능하긴 한데, 나머진 '행동 결과를 비교 분석하는 방식'임(예: 여러 font-family로 텍스트 박스를 렌더하면, 기기별 폰트 차이로 실제 크기가 달라짐 — 이 자체가 지문으로 활용 가능함)
- 브라우저가 일부 정보(예: user agent OS 버전 등)를 줄이거나 제거하면서, 예상치 못한 사이트 에러가 속출함. 예컨대 Apple이 user agent의 버전만 10에서 11로 바꿨을 때도 많은 사이트가 멈췄음. Referer 필드는 최근 브라우저에서 경로나 전체 누락 등으로 크게 제한되고 있음
- Mozilla 고위진의 프라이버시/보안/자유에 대한 실질적 의지가 항상 부족했다고 생가함. 때로는 단순히 '마케팅 관점'에서만 접근해, 실효성 없는 변화를 주거나, 대형 기술 기업의 이해와 완전히 충돌하지 않는 방식만 고집함. W3C에서조차 강하게 대립하는 인물이 없다는 점을 아쉬워함
앱이 웹사이트보다 훨씬 심각하게 사용자 추적함. 사이트들이 왜 끊임없이 앱 설치를 유도하는지에 대해, 브라우저에서 사용하는 많은 보호장치가 앱 환경에서는 모두 무력화되기 때문임. 앱은 로그인을 요구하고, 이후 모든 데이터를 제3자와 자유롭게 공유할 수 있음
- 내 앱은 그런 식 추적을 하지 않음. 이메일조차 받지 않으므로, 새로운 알림을 알려줄 유일한 방법으로 앱을 활용함. 앱은 지속성 측면에서 유리하고, 웹사이트는 상대적으로 덜 효과적임
- iOS에는 '앱 추적 금지 요청(Ask App Not to Track)'이라는 기능이 있음. 다만 특정 유형의 추적만 막고, 모든 추적을 차단하지는 못함
'지문 추적이 실제로 광범위하게 사용되고 있다'라는 사실에 대해, "아카데믹 영역 바깥에 있는 문서들을 안 본 사람"이나 "책임 있는 추적 벤더들은 이미 수년째 지문 추적을 명시적으로 밝히고 있다"고 지적함
- 본질은 학회나 산업계의 무지라기보다는, 이런 연구가 '실제로 지문 추적이 현재 얼마나, 얼마만큼 효과적으로 일어나는지'를 정량적으로 입증했기에 그 자체로 유용하다는 의견임. 공급업체가 정책상 이미 밝히고 있었더라도, 실제 효과나 규모에 대한 인사이트는 별도임. 이번 연구가 광고 등 '악의 없는(benign)' 환경에서도 추적 성공률을 검증했다면, 다른 주체가 추적할 때도 얼마나 효과적일지 알 수 있는 기반임
- 이미 학계에서도 수년 전부터 지문 추적 사용을 인지하고 있었음. 예전에는 Flash를 이용해 사용자가 설치한 폰트 정보를 직접 뽑아내는 기법도 널리 쓰였음(관련 논문). 이런 공식 언급이 실제와 다르다고 정정함
- FingerprintJS처럼 오래전부터 존재했던 오픈소스 지문 추적 프레임워크도 있음. 초창기에는 스팸 또는 악의적 방문자 추적용으로 많이 활용함
- 온라인 프라이버시를 지키는 것이 중요하긴 하지만, 결국 지문 추적 자체를 막으려는 대응방안들이 현실적 문제를 제대로 해결하지 못하고 오히려 웹을 더 불편하게 만든다는 주장도 있음. 비유를 들면, 규제가 있더라도 악의적 주체들은 여전히 지문 추적을 강행하고, 일반 사이트들만 기능 제약을 받아 역효과가 난다는 지적임
- 학술 연구에서는 업계 정책이나 고지 대신, 구체적으로 측정 가능하고 반박할 수 없는 '실증적 근거' 확보를 중시한다는 관점임
EFF의 fingerprint 페이지에 들어갈 때마다 매번 고유 지문 판정을 받음. 한 시간 뒤에 재접속해도 변함없음. 이 사이트가 fingerprint의 해시 값을 제공해서 몇 달 후에도 비교할 수 있으면 좋을 것 같음. 실제로 내 지문이 매번 바뀐다면 지문 추적도 훨씬 어려워질 것 같아서 한편으론 다행임
이렇게 많은 정성과 기술이 광고 타기팅에 쓰인다는 점에 회의적임. 나는 기본적으로 모든 광고를 차단하는데, 지문 추적 노력들이 다 허사임을 느끼는 중임

답변달기