# 내가 저장해 둔 Pocket 링크들로 o3를 이용해 나를 프로필링해 보았음

> Clean Markdown view of GeekNews topic #21878. Use the original source for factual precision when an external source URL is present.

## Metadata

- GeekNews HTML: [https://news.hada.io/topic?id=21878](https://news.hada.io/topic?id=21878)
- GeekNews Markdown: [https://news.hada.io/topic/21878.md](https://news.hada.io/topic/21878.md)
- Type: GN+
- Author: [neo](https://news.hada.io/@neo)
- Published: 2025-07-08T12:35:44+09:00
- Updated: 2025-07-08T12:35:44+09:00
- Original source: [noperator.dev](https://noperator.dev/posts/o3-pocket-profile/)
- Points: 2
- Comments: 1

## Topic Body

- **Pocket** 서비스 종료를 앞두고 7년간 저장한 약 900개의 기사 데이터를 분석함
- **o3 챗봇**을 활용하여 단순한 URL 목록만으로 포괄적인 **개인 프로파일링** 실험을 진행함
- o3는 **나이, 지역, 직업, 가족 상황** 등 세밀한 개인 정보를 상당히 정확하게 추론함
- CSV 데이터를 직접 복사해 붙여넣을 때 분석 정확도가 파일 첨부 방식보다 **확연하게 높음**
- 이와 같은 기술은 **누구나** 활용할 수 있어 **기업 수준의 데이터 분석**이 개인에게도 개방되는 흐름이 강조됨

---

### Pocket 아카이브 데이터 분석 과정

- Pocket 서비스가 종료를 앞두고 있어, 작성자는 자신의 저장 글 전체(약 900개, 약 7년 분량)를 내려받아 xsv 툴로 간단하게 분석함
- 데이터에는 제목, URL, 저장 시각, 태그, 읽음 상태 등이 포함되어 있음
- 가장 오래된 기록은 2018년 7월, 최신 기록은 2025년 6월임

### o3 챗봇을 통한 자기 프로필링 실험

- Simon Willison의 o3 geoguess 챌린지에서 착안, 자신이 Pocket에 저장한 링크 목록만을 o3에게 제시하여 본인에 대한 최대한의 **프로필 추론**을 요청함
- 구체적으로 o3에게 다음과 같은 차원을 바탕으로 분석을 요구함
  - 나이, 성별, 지역, 학력, 직업, 수입, 정치 성향, 투자 성향, 정보 소비 방식, 가족 및 건강 상태 등

### o3의 분석 결과

#### 핵심 인구통계 추론

- **나이:** 30대 중후반 ~ 40대 초반 (직무 경력, FIRE 계산, 양육 관련 저장글 반영)
- **성별:** 남성 (공학/해킹 문화 집중, 아버지 중심의 육아 글 등)
- **거주지역:** 미국 버지니아 해안 지역 (지역 부동산, 뉴스 중심의 기사 저장 경향)
- **학력:** 컴퓨터공학 관련 학사 또는 석사 (심층 보안/AI 논문, Unix 역사, 학술 PDF 등)
- **산업 및 직무:** 보안 및 인프라에 특화된 시니어/스태프 소프트웨어 엔지니어 (취약점, 포지션 관련 글, 보안 커리어 라더 등)
- **수입:** 약 15만~22만 달러 가구 소득 (연봉대, FIRE 산출, 고소득자 절세 등)
- **가족/관계:** 기혼, 어린 자녀 3~4명 (쌍둥이 엄마 수면 글, 가톨릭 가족 테이블, 홈스쿨링)

#### 심리 및 성향

- **정치:** 경제적으로 보수적, 시민 자유주의 + 전통사회 지향 (절약, 가톨릭 컨텐츠, 개인정보 보호, 빅테크 검열 비판 등)
- **위험 성향:** 직업적으로는 높음(보안 연구, 부 프로젝트), 금융적으로는 중간(인덱스 투자, FI/RE, 자립 지향)
- **학습 스타일:** 자기 주도, 텍스트·롱폼·오디오 위주(Pocket, RSS, PDF, 팟캐스트, 컨퍼런스 강연 수집)
- **정보 소비:** 심층 테크 60%, 재테크/FIRE 20%, 육아/가정 10%, 신앙/문화 10%
- **주요 인생 패턴:** 순수 엔지니어에서 기술 리더십·가족 중심 삶으로 전환, FI 목표
- **연중 이슈:** 연말/연초 커리어 플랜, 여름 홈스쿨링·부동산·해변, 가을 보안컨퍼런스

#### 세부 단서

- **신앙:** 가톨릭·보수적 기독교 사이트 정기적 저장, 실천적 신앙인
- **개인정보 및 자가 호스팅:** 실험적 시도 후 실용적 이유로 포기 경향 
- **메이커 기질:** 목공·음향·E-ink DIY 등 손수 프로젝트 선호
- **건강관리:** 실용적 바이오해킹(수면, 유산소, Huberman)
- **글쓰기 욕구:** 퍼스널 브랜딩, 블로깅 저장글 등 자기 생각 정리 욕구 꾸준

#### 간략 "사용자 매뉴얼"

- **동기:** 자율성, 전문성, 절약, 가족 시간, 신앙 실천
- **맹점:** 무한 분석/연구(읽지 않은 글 대량 저장) 경향
- **최적 콘텐츠 형태:** 롱폼 아티클, 이동/집안일 중 팟캐스트, 코딩은 인터랙티브 문서
- **현재 주요 목표:** FIRE 계획 완성, 공개 보안 툴 출시, 홈스쿨 커리큘럼 공식화, 지속적 블로깅

### 실험자 소감

- 실제 o3의 분석 결과는 **자신의 나이, 지역, 가족 구조** 등을 놀라울 정도로 정확히 맞춤
- 단순히 해커뉴스 위주 저장글이라고 생각했으나, **개인 "좋아요" 데이터만으로도** 상당히 깊이 있는 추론이 가능함을 체감

### 데이터 입력 물리 방식에 따른 결과 차이

- CSV 데이터를 **직접 붙여넣기** 방식이 파일 첨부 방식보다 o3의 **분석 품질이 높음**
- 파일 첨부 시 o3가 데이터를 코드로 세부 샘플링/분석하려는 데 지나치게 집중하게 되어, 스토리텔링이 약해짐

### 시사점

- 광고 회사들이 평소 **관심사 데이터**로 우리를 프로파일링해왔다는 것은 모두 알고 있음
- 이제는 **Google, Facebook** 등만이 아니라, 누구나 이 수준의 데이터 해석·분석 능력을 쉽게 활용할 수 있다는 것이 더 중요한 포인트임
- 작성자는 이 분석 결과를 **개인화 콘텐츠 추천 시스템** 개발에 활용할 계획임

## Comments



### Comment 41091

- Author: neo
- Created: 2025-07-08T12:35:45+09:00
- Points: 1

###### [Hacker News 의견](https://news.ycombinator.com/item?id=44489803) 
- 이 글을 읽고 나도 Pocket 계정의 아카이브(4200개 항목)가 있다는 걸 깨달아서, 동일한 프롬프트로 o3, Gemini 2.5 Pro, Opus 4에 시도해봄  
   - chatgpt UI는 입력이 너무 크다며 제출을 막았고, 실제론 8만 토큰(오히려 o3의 20만 컨텍스트보다 적음)이었음  
   - gemini 2.5 pro는 개성과 관심 관련 프로필은 잘 생성하지만, 나이대, 직업, 위치, 부모 여부 등은 잘못 예측함  
   - opus 4는 꽤 인상적으로 내 기본 거주지(암스테르담), 나이대, 연애상태 등 정확히 예측하지만, 부모 여부는 언급 안 됨  
   - 두 모델 모두 내 역할 예측에는 실패, 아마 당연한듯함  
   - 나는 데이터 사이언티스트지만 소프트웨어 엔지니어링 실무나 시스템 디자인 같은 주제를 공부하며 개인 프로젝트로 코딩함, 그래서 그런지 두 모델 모두 나를 소프트웨어 엔지니어로 봄  
   - 실험 자체는 재미있었음  
   - 또 한 가지 흥미로운 점은 두 모델 모두 내 주요 취미가 사진이라고 언급했지만, 만약 유튜브 시청 기록을 같이 참고했다면 분명히 테니스라고 했을 것임  
   - 보통 글로 보는 것보다 영상으로 접하는 취미와 관심사는 유튜브 데이터와 Pocket 아카이브를 합쳐 분석하는 것이 흥미로울 듯, 다만 데이터 수집이 여전히 도전임

   - Google Takeout으로 유튜브 데이터(시청 기록 포함) 모두 내려받기 가능  
     - 이 블로그에 자세한 예시 있음  
     - [https://blog.viktomas.com/posts/youtube-usage/](https://blog.viktomas.com/posts/youtube-usage/)  
     - 유럽에선 법적으로 데이터 제공 의무가 있어서 당연하지만, Takeout은 전세계에서도 활용 가능할 것임

   - 소프트웨어 엔지니어(SWE) 분야로 이직을 노려볼 만함  
     - 현재 업무가 항상 미래 커리어와 같을 이유 없음

   - 대량의 입력 데이터는 다단계 프롬프트로 정제  
     - 우선 저렴한 모델로 원시 데이터를 여러 청크로 압축, 이후 점점 성능 좋은 모델로 더 큰 데이터셋을 요약, 원하는 수준까지 반복 적용

   - o3를 쓸 때는 파일을 압축해서 업로드하면, python, grep, shell을 이용해 내용을 조사 가능  
     - sqlite db에는 아직 시도 안 해봤지만, 이런 방식으로 로컬 에이전트 작업 진행

   - 8만 토큰을 읽으려면 실제로 8만 토큰보다 많은 입력 오버헤드 소모 발생

- Pocket 익스포트에서 가장 크게 느낀 점은 저장한 글의 99%가 ‘읽지 않음’ 상태  
   - 나에 대해 추론할 수 있는 건 아마 강박적인 링크 수집 취향 정보뿐일 듯 :D

   - 수년 동안 Pocket을 ‘다시 일에 집중하기 위한’ 자기 허락 도구로 활용

   - 읽지 않았더라도 해당 링크를 저장한 이유가 있음

   - 읽은/읽지 않은 항목을 비교하면 내가 원하는 것과 실제 행동 사이의 차이를 파악 가능  
     - 대부분의 사람의 읽지 않은 목록은 ‘열망’의 결과라고 봄  
     - 예를 들어 아마존이 추천 알고리즘에서 위시리스트와 실제 구매 항목을 다르게 다루는 것과 비슷한 느낌

- 많은 사람들이 기업들이 자신의 데이터로 타겟팅 콘텐츠를 만드는 것처럼, 내 데이터를 AI로 분석해보는 아이디어에 수렴해 가는 것 같음  
   - 최근에 전 브라우징 히스토리 전체를 이 방식으로 분석하게 된 계기는 [https://labs.rs/en/browsing-histories/](https://labs.rs/en/browsing-histories/)에서 영감 받음  
   - ChatGPT/Claude 대화 기록도 똑같이 시도  
   - 가장 무서웠던 건 LLM에 내 Reddit 댓글 기록 전체를 분석하게 한 경험  
   - 가장 큰 어려움은 충분히 큰 컨텍스트 윈도와 다양한 데이터 소스 간의 맥락 추적임  
   - 해결책으로 지식 그래프를 사용하여 사용자 프로필을 체계적으로 관리하는 방법을 실험 중  
   - 행동 패턴을 질의 가능한 구조로 압축할 수 있지만, 그 그래프를 구축하는 것 자체가 계산적으로 도전임  
   - 최근 많은 AI 스타트업들은 결국 “LLM에게 벡터 DB와 지식 그래프(청구서, 법률문서, 세금자료, 데일리 리포트, 미팅 기록, 코드 등에서 추출) 제공” 구조에 귀결  
   - 개인화 콘텐츠 추천/프로필링 AI 시스템이 등장하길 기대  
   - 경제적 인센티브 구조가 빅테크와는 반대로, 이 시스템들은 사용자 효용성에 최적화  
   - 예전 RSS 리더 시대에는 큐레이션된 테크/디자인 콘텐츠 덕분에 취향과 지식이 성장했고, 흥미로운 사람들과도 더 쉽게 연결  
   - [https://www.dimensional.me/](https://www.dimensional.me/) 같은 앱도 좋아하지만, MBTI와 성격검사 방식이 더 정교했다면 하는 아쉬움  
   - 성격검사 대신, 내 디지털 행위(읽음, 쓰기, 행동 등) 전부를 데이터로 넣어서 상시 업데이트되는 자기만의 지식 그래프 생성 상상

   - 시스템이 ‘사용자 효용 최적화’라고 해도 결국 사용자를 ‘편안함의 감옥’에 가둘 수도 있음  
     - 물론 ‘참여 유도’에 최적화된 것보다는 낫겠지만, 가끔은 그 울타리를 벗어나는 것도 필요  
     - 예전에 사람이 직접 큐레이팅한 RSS 콘텐츠는 나와 의견이 달라도 다양한 시각을 접하는 역할

- 최근 이런 개인 분석에 흥미 높음  
   - Pocket 저장글 뿐만이 아니라 ChatGPT/Gemini/Claude 대화 기록의 메타 분석에도 관심  
   - 초개인화 RSS 요약 스크립트를 사용해봤더니, 정말 나에게 중요한 RSS 피드와 평소 소소하게 읽는 내용이 크게 다름을 발견  
   - 앞으로는 내 관심사/관련성에 들어맞는 정보만 생성하는 ‘월드 모델’을 스스로 개발하려 시도  
   - 그 월드 모델의 일부는 시계열로 업데이트/연구  
   - 즉 ‘뉴스’의 정체는 내 월드 모델의 변화된 부분 자체  
   - 항상 오프라인/로컬에 최신 버전 월드 모델이 생기고, 이것을 내 메일함, 캘린더, 메시지, 트윗 등 필터링/정렬에 쓰는 구조

- 가족 중 미국 북동부의 진보적 가톨릭 전통을 두고 있는 입장에서, AI가 ‘가톨릭이면 보수적’이라는 쪽으로 프로파일을 내린 것은 흥미로운 일

   - 피츠버그 출신, 가톨릭 집안 배경인데, 꽤 자유주의 성향  
     - 90년대에 이미 여성 복사, 공개적으로 동성애자 신자 등이 있었고 모두 교회 내에서 환영  
     - 지금은 가톨릭이 아니지만 80, 90년대엔 좋은 교회 경험

   - 실제로 AI는  
     - “재정적으로 보수적/시민적 자유주의+전통주의적 사회성향”이라고 판별  
     - 근거는 “Bogleheads & MMM 절약, 가톨릭/First Things 기사, EFF 프라이버시, 빅테크 검열 회의론”  
     - First Things는 현재 종교적 사회적 보수주의 중심  
     - 만약 누가 가톨릭이고 First Things까지 즐겨 읽는다면, ‘보수적’이라고 판단하는 건 꽤 안전한 추론  
     - 하지만 사람이 읽는 걸 근거로 프로필링하는 자체가 많은 오류 가능  
     - 나 역시 자주 동의하지 않는 글, 내 생각을 바꿔볼만한 글도 자주 읽음  
     - 오히려 동의하지 않는 글을 저장해 두는지도 궁금

   - 평균적으로 미국 동북부/서부에서는 가톨릭/개신교 모두 리버럴, 중서부/남부에서는 보수적  
     - 2025년에 종교의 영향력이 평균적으로 어느 정도인지를 보여주는 통계

- 예전에 HN 프로필 분석하는 간단한 스크립트 제작  
   - HN의 글/댓글 이력을 AI로 프로파일(위치, 정치 성향, 커리어, 나이, 성별 등) 추론  
   - 다양한 댓글에서 놀랄만한 의견 보고 ‘이게 어디서 나왔을까?’ 궁금하여 실험  
   - 정확도는 알 수 없지만, LLM이 이런 일에 어느 정도 쓸 수 있는지 실험하는 재미있는 경험

   - 나도 기억남  
     - 내 프로필 예측 결과는 꽤 정확했음  
     - 약간은 ‘세상을 구할 것’이라는 식으로 달콤한 점이 있었음

   - “어디서 저런 의견이 나올까?”라는 호기심, 직접 자기 자신에게도 이 스크립트를 돌려보면 흥미로운 정확도 테스트

   - 최근 누군가가 이 방식을 이용해 HN 프론트페이지에 어떤 글이 오를지 예측  
     - 기사 내용+유저 프로필로 예측

- 이 시스템이 내 도서관의 1/3만 참고해서 결과를 냈을 수도 있는데, 어떻게 전부를 다 반영했다고 확신할 수 있을지 의문  
   - 긴 컨텍스트 문제(주의력 분산, 혼동 등)로 항상 정확성의 한계가 발생  
   - 이를 해결하는 여러 전략(파일 도구 이용, 체크리스트 관리, 반복 LLM 콜 등)이 있지만, 개인적으로 적용해본 적 없음

   - 각 노드(혹은 컨텍스트 청크)가 실제로 다 반영됐는지 확인시켜주는 ‘node coverage tool’ 같은 게 필요할 수도 있음

- 수백 개의 저장 링크(솔직히 ‘읽어야지’라는 덤프 용도)에 대해 AI/NLP로 일괄 분류하면, 더이상 관심 없는 것들을 쉽게 삭제할 수 있음

- 처리시간 13초에 미국 인구 3억 5천만 명을 곱하면  
     - GPU 시간이 약 144년 소요  
   - 물론 AI 제공자는 병렬 처리로 며칠/몇 주만에 완료하겠지만, 이런 규모의 프로필 시스템은 대기업만 감당 가능  
   - 예를 들어 Google이 모든 GMail 계정에 프로필을 만든다 가정하면, 대체불가한 엄청난 데이터셋이 생기고, 경쟁사가 모두 따라한다고 해도 쉽게 복제 불가능  
   - (수학적/논리적 오류 있으면 지적 환영)

   - 결국 알아내는 건 뭐겠음? 우리가 인간이라는 사실 정보

- 나도 비슷한 걸 했는데, 이번엔 그룹챗 대상  
   - 대화 내역을 텍스트로 변환해 로컬 llm에 입력  
   - 각 유저 별로 대화 내용 기반으로 프로필 생성, 각자 주제에 대한 생각, 의견, 성향 등 파악  
   - llm에 특정 유저 관련 질문도 가능  
   - 완벽하진 않고, 추론이 틀릴 때나 임베딩이 부정확할 때에는 헛소리/환각도 나옴  
   - 그래도 제법 쓸만해서 개선하거나 비슷한 시도 경험자 의견 듣고 싶음

   - 반복적으로 발생하는 버그/문제를 소프트웨어/프로젝트에 문서화하는 등 다른 좋은 응용 분야도 있음  
   - 이런 사례는 end-to-end 암호화 필요성이 어느 때보다 높아졌음을 보여줌  
     - 과거엔 지루하고 사적인 대화였을 텐데, 이제는 피싱/보이스클로닝과 합쳐져 굉장히 귀중한 데이터  
   - OpenAI는 ChatGPT 기록을 활용해 초정밀 광고 대상화할 것  
   - Meta 역시 열심히 크리에이티브 생성에 생성형 AI를 도입 중  
   - 초정밀 타겟팅 광고 메시지가 시청자 프로필에 완벽히 맞게 제작되고, 운영체제 차원에서 100% 광고 차단 안 되는 기기는 진짜 멀웨어로 간주해야 함  
   - 앞으로는 로컬 llm이 이런 역할을 잘 해 주길 바람
