# Aleph - 대규모 문서 색인 및 상호검색 도구

> Clean Markdown view of GeekNews topic #1627. Use the original source for factual precision when an external source URL is present.

## Metadata

- GeekNews HTML: [https://news.hada.io/topic?id=1627](https://news.hada.io/topic?id=1627)
- GeekNews Markdown: [https://news.hada.io/topic/1627.md](https://news.hada.io/topic/1627.md)
- Type: news
- Author: [xguru](https://news.hada.io/@xguru)
- Published: 2020-03-02T12:56:53+09:00
- Updated: 2020-03-02T12:56:53+09:00
- Original source: [github.com](https://github.com/alephdata/aleph)
- Points: 7
- Comments: 1

## Topic Body

- 조직범죄와 부패 전문 탐사를 전문으로 하는 OCCRP가 만든 탐사보도용 데이터조사 분석 도구

- 정형(DB)/비정형(PDF,XLS,DOC등) 데이터를 통합 상호 검색

- 데이터 구획화 및 접근관리 기능. 다국적 팀간에 유연한 공유를 지원

- 수백개의 공공데이터 소스로 부터 지속적인 크롤링

- 비주얼한 조사 분석 제공

- 데이터 임포트 지원

* HTML/XML 부터, PDF, RTF, Epub 외 대부분의 오피스(Doc, PPT) 문서

* XLS/CSV 및 DBF, SQLite, Access 등 테이블 포맷

* RFC822 MIME 이메일, Outlook PST/OLM 같은 메일박스, Mbox, Vcard

* Zip,Rar,Tar,7Zip,Gzip

* JPEG,PNG,GIF,TIFF,SVG 는 Tesseract 4 또는 Google Vision API로 OCR 해서 텍스트 추출

## Comments



### Comment 1235

- Author: xguru
- Created: 2020-03-02T12:57:28+09:00
- Points: 1

만든곳인 OCCRP 는 이런곳입니다.

"조직범죄와 부패 전문 탐사매체, OCCRP" https://newstapa.org/article/_DNLi

https://aleph.occrp.org/ 에서 실제 데이터로 사용해 보실수 있습니다.

OpenOil 이 만든 트레일러 동영상이 Aleph에 대해서 쉽게 설명해 줍니다.

( OpenOil은 전세계의 가스,기름,석탄등 천연자원들을 관리하기 위한 개방형 데이터 프레임워크를 만드는 회사입니다. )

https://www.youtube.com/watch?v=bg96HcR_2Jc

"부패" 전문 탐사조직이 만든거다 보니 기본 데이터 모델이 "Follow the Money" 입니다.

돈이 어떤 회사/ 어떤 사람 사이에서 흘러다니는지를 잘 추적합니다.

그러다 보니 기본 지원하는 데이터셋 개체 종류가 이렇습니다.

- Airplane, Assessment, Asset, Bank Account, Company, Contract, Court case, Customs Declaration, Land, Legal Entity
