# 유출된 Google Search API 문서 분석

> Clean Markdown view of GeekNews topic #15074. Use the original source for factual precision when an external source URL is present.

## Metadata

- GeekNews HTML: [https://news.hada.io/topic?id=15074](https://news.hada.io/topic?id=15074)
- GeekNews Markdown: [https://news.hada.io/topic/15074.md](https://news.hada.io/topic/15074.md)
- Type: news
- Author: [xguru](https://news.hada.io/@xguru)
- Published: 2024-05-29T11:53:51+09:00
- Updated: 2024-05-29T11:53:51+09:00
- Original source: [sparktoro.com](https://sparktoro.com/blog/an-anonymous-source-shared-thousands-of-leaked-google-search-api-documents-with-me-everyone-in-seo-should-see-them/)
- Points: 29
- Comments: 3

## Topic Body

- 얼마전 익명의 소스로부터 구글의 검색 API 문서가 대량으로 유출되었다는 이메일을 받음  
- 문서의 진위는 전 구글 직원들에 의해 확인되었고, 일부 전직 구글 직원들과의 대화로 추가 정보도 포함됨  
#### 주요 주장   
- 구글은 클릭 기반 사용자 신호를 사용하지 않는다고 반복적으로 부인해왔으나, 유출된 문서들은 이를 반박함  
- 서브도메인을 별도로 평가하지 않으며, 새로운 웹사이트에 대한 샌드박스가 없고, 도메인 연령을 고려하지 않는다는 구글의 주장도 부정됨  
- 구글 검색팀은 초기부터 검색 결과 품질을 향상시키기 위해 많은 웹 사용자의 **클릭스트림 데이터**(브라우저에서 방문한 모든 URL)를 필요로 했음  
- DoJ에서 인용된 **NavBoost 시스템**은 구글 툴바 페이지랭크에서 데이터를 수집하고, 더 많은 클릭스트림 데이터를 얻기 위해 Chrome 브라우저를 개발하게 된 주요 동기였음  
- NavBoost는 특정 키워드에 대한 검색 수, 검색 결과 클릭 수, 짧은 클릭과 긴 클릭을 분석하여 **사용자 의도를 평가**하고, 동영상이나 이미지에 대한 클릭이 많으면 NavBoost 관련 쿼리에 대한 동영상 또는 이미지 기능을 트리거함   
- **클릭 데이터 활용**: 구글은 쿠키 기록, 로그인된 Chrome 데이터, 패턴 감지 등을 사용하여 수동 및 자동 클릭 스팸을 방지하고, 사용자의 클릭 및 참여도를 분석하여 검색 결과에 반영함  
- **사이트 품질 평가**: NavBoost 데이터는 사이트의 전체 품질을 평가하는 데 사용되며(Panda라고 불리는), 이 평가에 따라 순위가 상승/강등   
- NavBoot는 클릭 데이터를 **지리적 데이터도 고려**하여 국가 및 주/도 수준으로 구분하여 평가함  
- 코로나19 및 선거 관련 검색 결과에 **화이트리스트**를 적용하여 특정 사이트를 우선적으로 표시함  
  
#### 문서의 신뢰성 검증  
- 이 중 일부는 Google/DOJ 사건에서 밝혀진 정보와 겹치지만, 대부분은 새로운 내용  
- 익명의 소스는 5/28에 자신을 공개했고, 그는 Erfan Azimi(SEO 전문가)임   
- **전 구글 직원의 확인**: 세 명의 전 구글 직원 중 두 명이 문서의 신뢰성을 확인함  
- **기술적 검토**: 기술 SEO 전문가 Mike King이 문서를 검토하고 신뢰성을 확인함  
  
#### Google API Contents Warehouse ?  
  
- 이 **API 문서의 목적**: 구글 팀원들이 프로젝트에 사용 가능한 데이터 요소를 이해하도록 돕기 위한 문서임  
- **유출 경로**: GitHub에 잠시 공개되었고, 이 기간 동안 문서가 유출됨  
  
#### 주요 발견 사항  
  
##### #1: Navboost와 클릭 데이터 활용  
  
- **클릭 데이터 필터링**: 구글은 랭킹 시스템에서 고려할 클릭 데이터를 필터링하고, 클릭 길이와 인상을 측정함.  
- 순위 시스템에 포함시키고 싶지 않은 클릭은 걸러내고, 포함시키고 싶은 클릭은 포함시키는 방법을 가지고 있음   
- 클릭 길이(예: 검색자가 검색 결과를 클릭했다가 찾은 답변에 만족하지 못해 뒤로 버튼을 빠르게 클릭하는 경우)와 노출 횟수를 측정하는 것으로 보임   
  
##### #2: Chrome 브라우저 클릭스트림 활용  
  
- **Chrome 클릭스트림 데이터**: 구글은 Chrome 브라우저의 클릭 데이터를 사용하여 Sitelinks(해당 웹사이트의 인기 있는 URL)을 결정함  
  
##### #3: 여행, 코로나, 정치 관련 화이트리스트  
  
- **화이트리스트 존재**: 여행, 코로나, 선거 관련 검색 결과에 특정 도메인을 우선적으로 표시함  
  
##### #4: 품질 평가자 피드백 활용  
  
- **품질 평가자 데이터**: 품질 평가자의 평가가 검색 시스템에 직접적으로 사용될 가능성이 있음  
  
##### #5: 링크 랭킹 가중치 결정에 클릭 데이터 사용  
  
- **링크 인덱스 분류**: 클릭 데이터를 사용하여 링크 인덱스를 고품질, 중간 품질, 저품질로 분류함  
  
#### 마케터를 위한 주요 시사점  
  
- **브랜드 중요성**: 구글은 큰 브랜드를 우선적으로 랭킹에 반영함  
- **E-E-A-T 요소의 중요성 감소**: 일부 SEO가 강조하는 경험, 전문성, 권위, 신뢰성 요소가 직접적으로 랭킹에 반영되지 않을 가능성이 있음  
  - Experience, Expertise, Authoritativeness, Trustworthiness   
- **사용자 의도와 클릭 패턴**이 콘텐츠와 링크보다 더 중요한 랭킹 요소임  
- 페이지랭크, 앵커 텍스트 등 **전통적인 랭킹 요소의 중요성이 감소**하고 있음  
- **SEO의 어려움**: 중소기업과 새 창작자/퍼블리셔에게 SEO는 큰 브랜드와 경쟁하기가 더 어려워짐

## Comments



### Comment 26070

- Author: yangeok
- Created: 2024-06-09T17:50:46+09:00
- Points: 1

그렇다면 뒤로 가기 버튼을 동작안하도록 막아버리는건 어떨까요 ㅋㅋ

### Comment 25879

- Author: wkang586
- Created: 2024-06-03T14:08:34+09:00
- Points: 1

막연히 짐작은 했지만, 펼쳐져 놓인 것을 보니 멘붕이군요...  
Navboost 까지는 수긍할 수 있을 것 같은데...  
화이트리스트는 충격이네요. 말이 좋아서 화이트지, 노골적인 차별 정책인데 말이죠.

### Comment 25703

- Author: xguru
- Created: 2024-05-29T11:54:02+09:00
- Points: 2

유출된 Google Content API Warehouse 문서   
https://hexdocs.pm/google_api_content_warehouse/0.4.0/api-reference.html
