# 비디오 스크래핑: 35초 화면 캡처에서 0.1센트로 JSON 데이터 추출하기

> Clean Markdown view of GeekNews topic #17365. Use the original source for factual precision when an external source URL is present.

## Metadata

- GeekNews HTML: [https://news.hada.io/topic?id=17365](https://news.hada.io/topic?id=17365)
- GeekNews Markdown: [https://news.hada.io/topic/17365.md](https://news.hada.io/topic/17365.md)
- Type: news
- Author: [xguru](https://news.hada.io/@xguru)
- Published: 2024-10-22T10:16:02+09:00
- Updated: 2024-10-22T10:16:02+09:00
- Original source: [simonwillison.net](https://simonwillison.net/2024/Oct/17/video-scraping/)
- Points: 21
- Comments: 0

## Summary

비디오 스크래핑을 통해 저렴한 비용으로 효율적으로 데이터를 추출하는 방법을 소개합니다. 수작업 복사나 복잡한 API 사용의 대안으로 충분히 사용가능한데요. 맥의 QuickTime을 활용해 화면을 녹화한 뒤, Google AI Studio에서 Gemini로 모든 데이터를 쉽게 추출하는 방법을 설명합니다. 웹사이트 인증이나 스크래핑 방지 기술의 영향을 받지 않고, 비용도 저렴하며, 데이터 저널리즘 분야에서도 유용하게 활용될 수 있습니다.

## Topic Body

- 12개의 서로 다른 이메일에 흩어져 있는 숫자 값을 합산할 일이 생김   
- 복사가 귀찮아서 Gmail 계정을 둘러보는 동안 화면 캡처를 녹화한 다음 Google Gemini를 사용하여 해당 동영상에서 숫자를 추출해봤는데 너무 잘 동작함   
  
### AI Studio와 QuickTime을 활용한 비용 효율적인 비디오 스크래핑  
- 먼저 QuickTime Player로 관련 이메일을 탐색하며 화면 녹화 진행  
- 녹화된 35초 분량의 비디오를 Google의 AI Studio에 업로드하고 Gemini 모델에 JSON 배열 형식으로 추출 요청함  
  - 날짜와 달러 금액이 포함된 JSON 배열 결과를 성공적으로 반환받음  
- 결과를 Numbers에 붙여넣기 위해 CSV 형식으로 변환 요청하여 받아냄  
- 비용은 약 0.1센트 이하로 매우 저렴함. 현재 AI Studio는 무료로 제공 중  
  
### 대안들의 한계  
  
- 수작업으로 데이터 복사는 오류 발생 가능성이 높고 지루한 작업  
- Gmail API 사용은 복잡하고 많은 노력 필요  
- 브라우저 자동화는 별도의 이메일 파싱 단계 필요  
- 이메일 계정 접근 권한을 가진 정교한 AI 도구 활용은 프롬프트 인젝션 등의 위험 존재  
  
### 비디오 스크래핑의 장점  
  
- 화면에 보이는 모든 것을 추출 가능  
- 사용자가 AI 모델에 노출할 내용을 완벽하게 통제 가능  
- 웹사이트 인증이나 스크래핑 방지 기술의 영향을 받지 않음  
- 설정 비용이 전혀 들지 않음  
- 매우 저렴한 비용으로 활용 가능  
- 데이터 저널리즘 분야에서도 유용하게 활용될 수 있음  
  
### 보너스: LLM 가격 계산기  
  
- 작성자는 토큰 가격 계산을 위한 도구를 별도로 만듦  
  - ChatGPT Code Interpreter를 사용했으나 계산 오류 발생  
- Claude 3.5를 활용하여 가격 계산기 제작  
  - 입력/출력 토큰 가격을 수동으로 설정하거나 프리셋 버튼으로 모델별 가격 설정 가능  
- 전체 제작 과정은 Claude와의 대화를 통해 19분 만에 10개 버전으로 반복 개선됨  
- 가격 정보는 스크린샷을 대화에 직접 삽입하여 Claude가 추출하도록 함

## Comments



_No public comments on this page._
