# 자체 AI 모델 학습하기

> Clean Markdown view of GeekNews topic #29967. Use the original source for factual precision when an external source URL is present.

## Metadata

- GeekNews HTML: [https://news.hada.io/topic?id=29967](https://news.hada.io/topic?id=29967)
- GeekNews Markdown: [https://news.hada.io/topic/29967.md](https://news.hada.io/topic/29967.md)
- Type: GN+
- Author: [xguru](https://news.hada.io/@xguru)
- Published: 2026-05-29T07:52:52+09:00
- Updated: 2026-05-29T07:52:52+09:00
- Original source: [posthog.com](https://posthog.com/blog/training-ai-models)
- Points: 1
- Comments: 1

## Topic Body

- **PostHog**는 AI installation wizard, PostHog AI, MCP에 이어 더 능동적이고 자율적인 제품을 만들기 위해 내부 데이터로 모델 학습을 시도함
- 핵심 대상은 **PostHog Code**이며, 답과 해결책을 대신 찾아 실행하고 시간이 지나며 개선되는 제품 방향을 뒷받침함
- **세션 리플레이 분석**, 합성 사용자 테스트, 사용자 행동 예측을 개선해 문제 감지 비용을 낮추고 배포 전 오류와 혼란 지점을 찾으려 함
- 학습 데이터는 익명화되고 PostHog 인스턴스에 이미 있는 데이터만 사용되며, **제3자 모델 제공업체**에 판매하거나 보내지 않음
- **EU 클라우드**와 학습 제한 계약 고객은 기본 제외되고 US 클라우드는 기본 포함되며, 사용자는 6월 29일 전 옵트아웃 가능함

---

### PostHog의 자체 AI 모델 학습 계획
- PostHog는 지난 1년 동안 [AI installation wizard](https://posthog.com/wizard), [PostHog AI](https://posthog.com/docs/posthog-ai), [MCP](https://posthog.com/docs/model-context-protocol) 같은 AI 기능을 제품에 추가했고, 앞으로 더 **능동적이고 자율적인 제품**을 만들려 함
- [PostHog의 다음 단계](https://posthog.com/blog/posthogs-next-chapter)는 답과 해결책을 사용자를 대신해 찾아내고 실행하며, 시간이 지나며 개선되는 제품을 만드는 방향임
- 현재 베타인 [PostHog Code](https://posthog.com/code)는 이 방향의 핵심 제품이며, 이를 가능하게 하기 위해 **PostHog 내부 데이터로 모델을 학습**하려 함

### 만들고 싶은 기능
- 목표는 기존 제품을 더 똑똑하고 능동적으로 만들고, [PostHog Code](https://posthog.com/code) 같은 새 제품으로 팀이 더 좋은 제품을 더 빠르게 만들도록 돕는 것임
- ## 세션 리플레이 분석
  - PostHog AI는 이미 리플레이에서 문제를 감지할 수 있지만, 비용이 높아 대규모 확장에 적합하지 않음
  - 개별 사용자 문제를 진단할 때처럼 대규모에서도 리플레이를 강력하게 쓰려면, 리플레이를 구성하는 **기저 데이터로 학습한 모델**이 필요함
- ## 합성 사용자 테스트
  - **합성 사용자 테스트**는 사용자 행동에 대한 지식을 활용해 사용자가 혼란을 겪을 지점이나 깨질 수 있는 흐름을 프로덕션 배포 전에 찾는 아이디어임
  - 코딩 모델이 개선되면서 테스트와 리뷰 업무가 크게 늘어나고 있으며, PostHog는 이 작업을 자동화해 사용자가 제품 자체에 집중하도록 만들려 함
- ## 사용자 행동 예측
  - **사용자 행동 예측**이 좋아지면 이미 배포한 기능에서도 전환율을 높이고 사용자 불만을 줄일 변경을 제안할 수 있음
  - 자동화가 가능해지면 수동 분석 시간이 줄고, 그 과정에서 소비하는 토큰도 줄어듦
  - 이런 아이디어들은 아직 실험적이며, 모델을 효과적으로 학습하는 방법과 실제로 유용한 데이터를 찾기까지 반복이 필요함
  - PostHog는 AI가 제품을 더 단순하거나 강력하게 만들 때 좋은 결과가 있었다는 점을 이번 시도의 근거로 삼음

### 작동 방식과 데이터 사용 원칙
- 이 계획은 기존 기능을 더 강력하게 만들고, 제품을 더 능동적으로 개선하는 기능을 제공하는 데 초점을 둠
- 많은 도구가 최고의 코드를 제공하는 데 집중하지만, PostHog는 사용자의 제품 자체가 더 좋아지도록 만드는 데 집중하려 함
- 그래서 [PostHog Code](https://posthog.com/code)를 **제품 편집기**라고 표현함
- 핵심 부담은 PostHog에 있는 데이터를 모델 학습에 사용한다는 점이며, PostHog는 이를 약관 업데이트에 묻어두지 않고 공개적으로 알리려 함
- ## 기본 적용 방식
  - **EU 클라우드 인스턴스** 사용자는 기본적으로 제외됨
  - BAA, MSA 또는 유사한 계약처럼 학습을 막는 계약이 있는 사용자도 기본적으로 제외됨
  - 그 외 **US 클라우드 인스턴스** 사용자는 기본적으로 포함됨
- ## 데이터 처리와 제한
  - 학습에 사용되기 전 모든 데이터는 **익명화**됨
  - 사용자의 PostHog 인스턴스에 이미 존재하는 데이터만 사용됨
  - 모델 학습은 PostHog가 직접 수행함
  - 사용자 데이터를 제3자 모델 제공업체에 판매하거나 보내지 않음
- ## 옵트아웃
  - 사용자는 언제든 [PostHog 조직 설정](https://app.posthog.com/settings/organization-details)에서 옵트아웃할 수 있음
  - 조직 설정 변경에는 관리자 권한이 필요함
  - 학습은 6월 29일까지 시작되지 않아 사용자가 결정할 시간이 있음

### 커뮤니케이션 계획
- PostHog는 모든 고객에게 목적을 명확히 드러낸 이메일을 보낼 예정임
- 이메일을 읽지 않는 사용자를 위해 앱 내 알림으로도 모든 사용자에게 알림
- 계획을 공개적으로 알리는 방식으로 진행함
- 목표는 고객을 위한 PostHog 제품 개선이며, 사용자 데이터로 학습한 모델을 노출하거나 판매하거나 데이터를 수익화하는 것이 아님

### 옵트인이 아니라 옵트아웃인 이유
- 기본 옵트인이 아니라 **기본 포함 후 옵트아웃**을 택한 이유는, 그렇지 않으면 실제로 유용한 모델을 학습할 만큼 충분한 데이터가 모이지 않기 때문임
- 옵트아웃을 선택하면 이 모델들로 만드는 새 기능을 사용할 수 없음
- EU 클라우드 인스턴스처럼 기본적으로 제외된 사용자는, PostHog와의 법적 계약이 막지 않는 경우 수동으로 옵트인할 수 있음
- PostHog는 조용히 배포하지 않고 사전에 공개하는 방식을 선택함
- PostHog는 이 작업을 함께할 [AI 연구자도 채용](https://posthog.com/careers/ai-research-engineer) 중임

## Comments


### Comment 58488

- Author: neo
- Created: 2026-05-29T07:52:53+09:00
- Points: 1

###### [Hacker News 의견들](https://news.ycombinator.com/item?id=48296359) 
- “**기본 opt-in**”은 모순임. 기본값이면 내가 동의한 게 아니라, 그냥 기본으로 켜진 것임
  - 이것도 답답함. **opt-in**이면 기본적으로 포함되지 않고, 원하면 포함을 선택할 수 있다는 뜻임  
    opt-out이면 기본적으로 포함되고, 원하면 빠질 수 있다는 뜻인데, 요즘은 반대로 쓰이고 있어서 설명을 덧붙여야 함  
    예전에 실제로 올바른 opt-in 원격 측정 글이 올라왔는데도, 상위 댓글이 “기본 포함”으로 오해하고 공격하던 걸 봤음. 이제 이 단어가 거의 반대 의미까지 갖게 된 느낌임
  - “기본 opt-in”은 그냥 **opt-out**임. 이미 있는 용어를 쓰면 됨
  - 기본으로 당신을 “동의”시킨다는 건 참 멋진 일임
  - 맞는 말임. **PostHog**을 고려하고 있었는데, 이런 표현은 굉장히 기만적으로 보여서 정이 떨어짐
  - CEO류는 늘 **교묘한 말장난**만 함

- **PostHog**은 한 번 설정해두고 가끔 확인하면서 약간의 가치를 얻는 시스템이었고, 그냥 둬도 대체로 무해했음  
  그런데 이제 또 하나의 적극적으로 의심해야 하는 도구가 됐고, 기본값이 견딜 수 없는 방향으로 흐른다면 시스템에서 빼버리고 넘어가는 편이 더 쉬움
  - PostHog은 개발자 우선 접근, 좋은 도구, 괜찮은 가격 덕분에 분석 솔루션으로 훌륭했음  
    지난 20년 동안 성공한 회사가 성장하면서 변하는 패턴에 몇 번이나 당했는지 이제 셀 수도 없음. **AI 열풍** 속에서 PostHog도 전면적으로 뛰어들었고, 노코드 도구 같은 것까지 탐색하는 듯함  
    Supabase도 멋졌지만 이제는 AI의 심연으로 들어간 느낌임. 어쩌면 변하지 않는 건 나뿐이고, 내가 문제라서 새로운 AI 지배자들을 받아들이고 전부 AI로 가야 하는지도 모르겠음

- 대부분의 회사는 이런 변경을 지루한 약관 업데이트에 숨겼겠지만, 우리는 투명성을 중시하므로 알아야 할 내용을 인터넷 친화적인 번호 목록으로 공개한다는 식임  
  **EU 클라우드 인스턴스** 사용자는 기본적으로 제외되고, 학습을 막는 계약이 있는 사용자도 제외됨  
  그 외 **미국 클라우드 인스턴스** 사용자는 기본적으로 포함됨  
  학습 전에 모든 데이터를 익명화하고, 이미 PostHog 인스턴스에 있는 데이터만 사용하며, 모델 학습은 직접 수행해서 제3자 모델 제공업체에 데이터를 팔거나 보내지 않겠다고 함  
  조직 설정에서 언제든 빠질 수 있고 관리자 권한이 필요하며, 학습은 6월 29일까지 시작하지 않으니 결정할 시간은 충분하다는 내용임
  - “그 외 미국 클라우드 인스턴스 사용자는 기본적으로 포함”이라니 좋네. 사용자가 무엇에 “동의”했는지 판단하는 주체가 회사이고, 사용자 입력은 필요 없다는 뜻임  
    그럼 나도 이번 주말에 당신 시간을 “자원봉사”로 내 테라스 재건에 쓰도록 해두겠음. 걱정할 필요 없음, 내가 대신 자원봉사 처리했음
  - “사용자가 직접 동의하면 데이터가 충분히 모이지 않을 걸 아니까 모두를 포함시키겠다”가 **사업 모델**이라면, 다시 생각할 때가 된 것 같음
  - **기본 opt-in** 같은 건 없음. 고객 호감을 이렇게 태우는 선택은 시장 점유율이 훨씬 크고 고객이 떠나기 어려운 회사나 할 법한 일임  
    차라리 동의하는 사람에게 할인을 주는 식으로 했어야 함
  - “우리는 투명성을 중시한다”는 방어는 꽤 나빠 보임. 투명하게 알려주는 건 좋지만, 내 **분석 시스템**이 코드를 작성하길 원하지 않음  
    이미 더 잘하는 선발 주자들이 많고, 차라리 그런 쪽을 PostHog 분석에 연결하고 싶음
  - “학습 전에 모든 데이터를 익명화한다”에서 말하는 **익명화**의 기준이 무엇인지가 중요함. GDPR 기준이라면 그 문턱은 매우 높음  
    “그 외 미국 클라우드 인스턴스 사용자는 기본적으로 포함”에 EU 최종 사용자도 포함되는지 따져봐야 함. 개인 데이터를 정보주체에게서 직접 얻은 것이므로 GDPR **제13조 고지 의무**가 적용됨  
    제13조 누락은 나중에 소급해서 고칠 수 없음. 모든 고객이 이 처리를 포괄하는 충분한 제13조 고지를 했다고 보여줄 수 있어야 함. 그리고 거의 확실히 3(2)(b) 범위 안에 들어갈 것임

- 내 분석 도구를 직접 만들고 **자가 호스팅**해야겠다는 훌륭한 알림이 됨. PostHog은 고객 하나를 잃었음  
  각 고객에게 이메일을 보내 원하는지 물어보는 건 쉬웠을 텐데, 이런 가정은 자기 고객은 물론 고객의 고객에 대해서도 제품 감각이 없다는 뜻임. 안녕
  - 비꼬려는 건 아닌데, 직접 분석 플랫폼을 “분위기 코딩”으로 만들기보다 그냥 **opt-out**하면 안 되는 이유가 궁금함  
    내 데이터를 AI 학습에 쓰는 건 불편하지만, 우려의 핵심은 데이터가 어디로 가는지와 내가 통지받고 인지하는지임. PostHog은 여기서는 그 질문들에 괜찮은 답을 주고 있음

- 지난 몇 달 동안 전환할지 망설이고 있었는데, **새 AI 제품**과 이상한 UI가 계속 거슬렸음. 이게 관 뚜껑에 박는 마지막 못임  
  opt-in은 끔찍한 사업 모델이라고 봄
  - 동의함. 기존 제품에서 굳이 뜯어낼 만큼 신경 쓰이진 않지만, 새 제품에는 절대 추가하지 않을 것임  
    예전에 사람들이 “OS” 웹 리디자인을 환호하던 게 기억남. 디버깅하려고 세션 리플레이를 찾을 때 가장 혼란스럽고 불필요한 UX 복잡화였음. 이후 오른쪽 위에 내비게이션을 추가하긴 했음

- “기본 opt-in”은 결국 **opt-out** 아닌가?
  - opt는 선택하거나 대안을 고른다는 뜻임. 이들은 무능하거나, 의도적으로 거짓말하는 것임

- 이제 꽤 분명해졌지만, “**SF식 기발함**” 분위기의 회사들에 대해 할 말이 있음  
  OS 리디자인, “섹시한 법률 문서”, 제목이 이상한 이메일, CEO 액션 피겨를 파는 굿즈 숍 같은 것들임  
  사용자 친화적인 움직임으로 채택을 늘릴 때는 장점이 될 수 있음. 하지만 매출 성장을 노리며 사용자에게 반하는 결정을 내릴 때는 모욕에 모욕을 더하는 꼴이 됨  
  기술이 재미있으면 안 된다는 식의 넓은 얘기를 하려는 건 아니지만, 메시지가 리더십의 결정과 맞지 않으면 크게 곤란해짐
  - 시작은 좋았음. 개발자 지향적인 분석 도구였고, 경쟁 제품과 비교해 신선했음  
    하지만 좋은 것도 끝이 나는 듯하고, 특히 회사라면 더 그렇다. 지난 2년 동안 완전히 이상한 방향으로 갔고, **AI**가 모든 걸 더 나쁘게 만들었음  
    다시 오픈소스 프로젝트를 뒤져봐야 할 듯함

- “왜 opt-in이 아니라 opt-out인가? 간단히 말해, 그렇지 않으면 실제로 유용한 모델을 학습할 만큼 데이터가 충분하지 않기 때문이다”라는 논리임  
  사람들이 또 하나의 **AI 비서비스**에 데이터를 넘기라고 직접 동의하라고 하면 원하지 않는다는 뜻인데, 참 이상한 일임  
  데이터를 얻는 유일한 방법이 “가져가도 된다고 가정하고, 멈추라고 말하게 만드는 것”이라면 그게 뭘 의미하는지 궁금해짐. 아무도 풀 수 없는 미스터리겠지

- 이건 **나쁜 커뮤니케이션**의 교훈이 되어야 함. 무엇을 학습하는지 명확히 하지 않은 건 큰 실수임  
  이번 발표는 PostHog의 민망할 정도로 튀는 브랜드 철학의 단점을 제대로 드러냄

- 매일 **EU 법제**가 더 고맙게 느껴짐. 지금은 그 말밖에 할 게 없음
  - 그 법제는 그 자체로 도덕적으로 방어 가능함. 그런데 전체 시스템을 보면 재미있는 일이 생김  
    EU 법은 빅테크가 이미 독점이 되기 위해 사용했던 **데이터 추출**과 플랫폼 종속 전술을 막고 있음  
    하지만 대형 플랫폼들은 이미 얻은 이점을 되돌리거나, 이제 제한되고 불법으로 간주되는 방식에 대해 갚을 필요가 없음. 그래서 더 오래 자리 잡은 위치에서 조용히 지대를 뽑아낼 수 있고, 다른 모두는 그들이 올라간 사다리를 쓰지 못하게 됨
  - 2008년 이후 **유럽과 미국의 경제 성장률**을 보기 전까지만 그렇게 느낄 수 있음