7P by xguru 2020-03-02 | favorite | 댓글 1개

- 조직범죄와 부패 전문 탐사를 전문으로 하는 OCCRP가 만든 탐사보도용 데이터조사 분석 도구
- 정형(DB)/비정형(PDF,XLS,DOC등) 데이터를 통합 상호 검색
- 데이터 구획화 및 접근관리 기능. 다국적 팀간에 유연한 공유를 지원
- 수백개의 공공데이터 소스로 부터 지속적인 크롤링
- 비주얼한 조사 분석 제공
- 데이터 임포트 지원
* HTML/XML 부터, PDF, RTF, Epub 외 대부분의 오피스(Doc, PPT) 문서
* XLS/CSV 및 DBF, SQLite, Access 등 테이블 포맷
* RFC822 MIME 이메일, Outlook PST/OLM 같은 메일박스, Mbox, Vcard
* Zip,Rar,Tar,7Zip,Gzip
* JPEG,PNG,GIF,TIFF,SVG 는 Tesseract 4 또는 Google Vision API로 OCR 해서 텍스트 추출

만든곳인 OCCRP 는 이런곳입니다.
"조직범죄와 부패 전문 탐사매체, OCCRP" https://newstapa.org/article/_DNLi

https://aleph.occrp.org/ 에서 실제 데이터로 사용해 보실수 있습니다.

OpenOil 이 만든 트레일러 동영상이 Aleph에 대해서 쉽게 설명해 줍니다.
( OpenOil은 전세계의 가스,기름,석탄등 천연자원들을 관리하기 위한 개방형 데이터 프레임워크를 만드는 회사입니다. )
https://www.youtube.com/watch?v=bg96HcR_2Jc

"부패" 전문 탐사조직이 만든거다 보니 기본 데이터 모델이 "Follow the Money" 입니다.
돈이 어떤 회사/ 어떤 사람 사이에서 흘러다니는지를 잘 추적합니다.
그러다 보니 기본 지원하는 데이터셋 개체 종류가 이렇습니다.
- Airplane, Assessment, Asset, Bank Account, Company, Contract, Court case, Customs Declaration, Land, Legal Entity