인터넷 검색 팁

(gwern.net)

35P by xguru 2021-04-26 | ★ favorite | 댓글 1개

- 인터넷에서 논문,웹페이지,책 등의 정보를 검색하는 기본부터 주요 팁들을 정리
- 제 기준 개인 웹사이트 중 최고라고 생각하는 Gwern Branwen*이 작성한 글. 일부만 옮겼으므로 꼭 원문을 보시기 바랍니다

[ 논문 검색 ]
- 검색 문법 : 불린 연산자, 주요 구글 명령어들 (쌍따옴표는 정확한 일치, 하이픈은 부정/제외, Site: 는 특정 웹사이트 검색 )
- 빠른 검색을 위한 핫키 설정하기 : AutoHotkey, Quicksilver, XMonad 등
- 웹브라우저 단축키 : C-l, C-PgUp/C-PgDwn, C-w, C-t/C-T, M-[1–9]
- Google Scholar 검색시에 HTML 보기

- 논문 타이틀 검색 팁
ㅤ→ 검색결과를 줄이기 위해 제목을 자르거나 AND/OR 및 - 등을 이용하기
ㅤ→ Year 추가/삭제해보기..
ㅤ→ 구글의 날짜 범위 이용하기
ㅤ→ site:archive.org 넣어서 인터넷 아카이브 검색하기

- 어려운 케이스들
ㅤ→ 역 인용(Reverse Citations) : 구글스칼라의 "related articles" "cited by" 보기
ㅤ→ 석/박사 학위 논문은 ProQuest
ㅤ→ 역 이미지 검색 : 구글 이미지, TinEye, Yandex 를 이용

- 도메인별 검색 팁
ㅤ→ 트위터 : 구글에도 걸리긴 하지만, 추가 정보를 안다면 트위터 고급검색도 훌륭 (from:, to:, since:, until:, near:, url: ..)
ㅤ→ 미국 연방 법원 : Pacer 가입 필요. 유료($0.1/페이지) 지만 총 $15이하에선 무료. Recap 이라는 공개미러도 있음. Recap 브라우저 확장도 제공
ㅤ→ Wellcome 도서관 : 오래된 잡지/책들이 많음. SEO가 바보같아서 구글등에선 검색이 잘 되지 않지만 잘 살펴볼 것
ㅤ→ 오래된 잡지 : site:pdf-giant.net , 교육관련 검색은 ERIC ( site:eric.ed.gov )

- Paywall 대응하기
ㅤ→ 책/논문의 경우는 Libgen / Sci-Hub 를 이용해서 우회 가능. Z-Library 통해서 전문검색 가능

- 위의 모든 방법으로 구하는게 불가능할 때 다른 사람들한테 요청 가능한 곳
ㅤ→ 서브레딧 : /r/scholar
ㅤ→ 트위터 : #icanhazpdf
ㅤ→ Wikipedia Resource Request
ㅤ→ LessWrong HelpDesk

- Full-Text Copy를 찾고나서 할 일
ㅤ→ 신뢰할수 없는 호스트에는 링크 하지 말것 : Libgen/Sci-Hub, Nber, Scribed, ResearchGate..
ㅤ→ 스캔본의 경우는 gscan2pdf 로 편집 & OCR
ㅤ→ 메타데이터 추가 : ExifTool, pdftk
ㅤ→ 가능하면 퍼블록 호스팅해주고, Wikipedia/Reddit에 링크 공유
ㅤ→ PDF 링크 팁 : URL 뒤에 #page=N 붙여서 페이지 지정 가능

- 고급
ㅤ→ Archiver-Bot들을 이용해서 검색 히스토리를 자동 아카이브
ㅤ→ GCSE(Google Custom Search Engine) 만들기

[웹페이지]
- 만약 제목을 안다면 제목만 검색
- URL 검색시 불필요한 인자들 지우기
- 구글 검색시 site: 이용해서 도메인 한정, 날짜 한정

- 구글 외의 검색 사용
ㅤ→ DuckDuckGo : Bangs 기능으로 외부 사이트 검색을 직접 사용 (현재 13000개가 넘는 외부 사이트 지원 )
ㅤ→ Bing/Yandex 도 유용

- 아카이브 확인하기 : Internet Archive 또는 Memento 메타아카이브
ㅤ→ IA는 도메인 전체 URL확인기능을 제공. wayback_machine_downloader(루비)로 전체를 다운로드 가능
ㅤ→ 구글리더가 종료전에 Archive Team이 구글리더의 꽤 많은 RSS들을 백업받아서 IA에 호스트 했음(WARC로도 가능, 마지막에 다운로드&검색팁 제공)
ㅤ→ archive.today : IA와 비슷한 미러
ㅤ→ 정 안될경우 Google Cache도 이용 가능

[디지털 책]
- 책은 Google Scholar에는 없음. Google 검색을 이용.
- filetype:pdf 으로 먼저 검색해보고 그다음 Libgen 이용
- IA에도 책은 많은데 SEO가 별로인지 검색이 잘 되지 않음. "책 제목 site:archive.org"
ㅤ→ IA에 있는 책이 DRM이 걸려 있다면 Calibre의 De-DRM 플러그인 사용 가능
- HathiTrust 에도 많은 책 스캔이 있음
ㅤ→ 전체 다운로드는 불가능 하지만 wget을 통한 우회방법 있음. 이 방법은 Wellcome Library에도 적용 가능

[출판본 책]
- 구글 북스 또는 find-more-books.com 으로 중고 서적 검색
ㅤ→ eBay & Amazon 은 중고책 구입엔 좋지 않음. 정보만 볼 것
ㅤ→ AbeBooks, Thrift Books, Better World Books, B&N 등이 구입에 좋음
- 책 스캔하기 : 파괴 vs 비파괴 및 컷팅도고, 메타데이터 및 PDF 생성 팁들

* Gwern Branwen 은 프리랜서 작가이자 연구자 입니다. 개인 웹사이트인 https://www.gwern.net/ 을 운영하는데 정말 독특해요
ㅤ제 기준 개인 웹페이지/블로그 에선 탑 오브 탑. 특정 주제를 잡고 그걸 세밀하게 파고 정리해서 올리는게 주 특기입니다.
ㅤ→ GoodReads로 알아본 "사람들이 읽다 포기한 책 Top 5" https://news.hada.io/topic?id=1231

gguimoon 2021-04-28 [-]

이전에 올라왔던 "개발자를 위한 정보 검색 팁" 같이 추천합니다. 개발자를 위한 정보 검색 팁

답변달기

인터넷 검색 팁

함께 보면 좋은 글 β

댓글과 토론