Hacker News 의견
  • 이 프로젝트를 실패라고 부르기보다는 호기심으로 시도했다가 중단한 것이라고 봄. 블로그에 글을 올리고 HN에 소개된 것만으로도 성공이라고 생각함

    • 프로젝트를 완료했다면 Python을 사용하여 여러 분석에 활용될 데이터셋을 공개했을 것임
    • 원시 데이터셋을 공개하고 이를 성공으로 간주할 수 있음
    • LLMs의 발전으로 인해 이제는 AI 에이전트로 포장된 기초 모델을 고려할 것임
  • 웹 스크래핑은 여전히 어려운 부분이며, 사이트가 스크래핑을 방지하려는 노력이 많음

  • Tagesschau 웹사이트를 매일 방문하여 링크를 수집하는 수작업 과정이 있었음. 이는 게임 계획으로 적절하지 않았음

  • COVID 관련 데이터 과학 취미 프로젝트를 진행했으나, 6개월 후 흥미를 잃음. 클라우드에서 스크래퍼가 계속 작동 중임

  • 수작업 대신 RSS 피드를 활용하여 자동화했어야 했음

  • 프로젝트 초기부터 피드백을 받는 것이 중요함. 이는 프로젝트의 방향성을 조정하고 흥미를 되살릴 수 있는 기회를 제공함

  • 다양한 관심사를 아우르는 프로젝트의 역동성을 좋아함. 여러 프로젝트를 통해 배운 것을 활용하여 새로운 아이디어를 얻음

  • 제목이 오해를 불러일으킬 수 있음. 단순히 뉴스 피드를 스크래핑하는 작업은 며칠이면 설정할 수 있음

  • 개인 프로젝트를 완성하는 데 어려움을 겪는 사람들이 많음. 데이터 과학은 데이터셋에 대한 통찰을 발견하는 탐구적 작업임

  • 데이터 수집 과정에서 Tagesschau 웹사이트의 비구조적 URL 스키마 때문에 수작업이 필요했음. 안정적인 데이터 소스가 필요함

  • 웹사이트 개발자는 스크래퍼를 고려하지 않음. 고유한 데이터셋을 수집하려면 웹 개발자에게 공개 API 제공을 요청하는 것이 좋음