# Pipet - 온라인에서 데이터를 스크래핑/추출하는 CLI 도구

> Clean Markdown view of GeekNews topic #17237. Use the original source for factual precision when an external source URL is present.

## Metadata

- GeekNews HTML: [https://news.hada.io/topic?id=17237](https://news.hada.io/topic?id=17237)
- GeekNews Markdown: [https://news.hada.io/topic/17237.md](https://news.hada.io/topic/17237.md)
- Type: news
- Author: [xguru](https://news.hada.io/@xguru)
- Published: 2024-10-15T09:46:02+09:00
- Updated: 2024-10-15T09:46:02+09:00
- Original source: [github.com/bjesus](https://github.com/bjesus/pipet)
- Points: 27
- Comments: 0

## Summary

HTML과 JSON 파싱, 자바스크립트 실행을 지원하여 웹 데이터 스크래핑을 간편하게 해주는 CLI 도구입니다. Unix Pipe와 curl 같은 기존 도구를 활용해 효율적으로 작동하며, `.pipet` 파일을 통해 명령을 구성하고 관리할 수 있습니다. 또한, 주기적인 실행과 데이터 변경 시 특정 명령을 실행할 수 있는 기능을 제공하여 자동화 작업에 유용합니다.

## Topic Body

- 3가지 동작을 지원 : HTML 파싱, JSON 파싱, 클라이언트에서 자바스크립트 실행   
- curl 같은 기존 도구에 의존하며, Unix Pipe를 이용하여 동작   
- `.pipet` 파일로 명령을 구성하며 파일안에는 여러개의 블록으로 구성   
  - 하나의 블록은 3개의 섹션  
    - 첫줄은 리소스 URL  
    - 다음 라인들은 읽어올 데이터들을 지정하는 쿼리   
    - `>` 로 시작하면 다음 페이지를 읽어올 셀렉터 (옵셔널)  
- 파일 예제   
```  
curl https://news.ycombinator.com/  
.title .titleline  
  span > a  
  .sitebit a  
```    
- `--interval 60` 원하는 시간(60초) 마다 재실행 가능   
- `--on-change CMD` 내용이 변경되면 실행할 명령

## Comments



_No public comments on this page._
