▲GN⁺ 2024-12-11 | parent | ★ favorite | on: 1,600일간 진행된 데이터 사이언스 프로젝트의 실패(lellep.xyz)Hacker News 의견 이 프로젝트를 실패라고 부르기보다는 호기심으로 시도했다가 중단한 것이라고 봄. 블로그에 글을 올리고 HN에 소개된 것만으로도 성공이라고 생각함 프로젝트를 완료했다면 Python을 사용하여 여러 분석에 활용될 데이터셋을 공개했을 것임 원시 데이터셋을 공개하고 이를 성공으로 간주할 수 있음 LLMs의 발전으로 인해 이제는 AI 에이전트로 포장된 기초 모델을 고려할 것임 웹 스크래핑은 여전히 어려운 부분이며, 사이트가 스크래핑을 방지하려는 노력이 많음 Tagesschau 웹사이트를 매일 방문하여 링크를 수집하는 수작업 과정이 있었음. 이는 게임 계획으로 적절하지 않았음 COVID 관련 데이터 과학 취미 프로젝트를 진행했으나, 6개월 후 흥미를 잃음. 클라우드에서 스크래퍼가 계속 작동 중임 수작업 대신 RSS 피드를 활용하여 자동화했어야 했음 프로젝트 초기부터 피드백을 받는 것이 중요함. 이는 프로젝트의 방향성을 조정하고 흥미를 되살릴 수 있는 기회를 제공함 다양한 관심사를 아우르는 프로젝트의 역동성을 좋아함. 여러 프로젝트를 통해 배운 것을 활용하여 새로운 아이디어를 얻음 제목이 오해를 불러일으킬 수 있음. 단순히 뉴스 피드를 스크래핑하는 작업은 며칠이면 설정할 수 있음 개인 프로젝트를 완성하는 데 어려움을 겪는 사람들이 많음. 데이터 과학은 데이터셋에 대한 통찰을 발견하는 탐구적 작업임 데이터 수집 과정에서 Tagesschau 웹사이트의 비구조적 URL 스키마 때문에 수작업이 필요했음. 안정적인 데이터 소스가 필요함 웹사이트 개발자는 스크래퍼를 고려하지 않음. 고유한 데이터셋을 수집하려면 웹 개발자에게 공개 API 제공을 요청하는 것이 좋음
Hacker News 의견
이 프로젝트를 실패라고 부르기보다는 호기심으로 시도했다가 중단한 것이라고 봄. 블로그에 글을 올리고 HN에 소개된 것만으로도 성공이라고 생각함
웹 스크래핑은 여전히 어려운 부분이며, 사이트가 스크래핑을 방지하려는 노력이 많음
Tagesschau 웹사이트를 매일 방문하여 링크를 수집하는 수작업 과정이 있었음. 이는 게임 계획으로 적절하지 않았음
COVID 관련 데이터 과학 취미 프로젝트를 진행했으나, 6개월 후 흥미를 잃음. 클라우드에서 스크래퍼가 계속 작동 중임
수작업 대신 RSS 피드를 활용하여 자동화했어야 했음
프로젝트 초기부터 피드백을 받는 것이 중요함. 이는 프로젝트의 방향성을 조정하고 흥미를 되살릴 수 있는 기회를 제공함
다양한 관심사를 아우르는 프로젝트의 역동성을 좋아함. 여러 프로젝트를 통해 배운 것을 활용하여 새로운 아이디어를 얻음
제목이 오해를 불러일으킬 수 있음. 단순히 뉴스 피드를 스크래핑하는 작업은 며칠이면 설정할 수 있음
개인 프로젝트를 완성하는 데 어려움을 겪는 사람들이 많음. 데이터 과학은 데이터셋에 대한 통찰을 발견하는 탐구적 작업임
데이터 수집 과정에서 Tagesschau 웹사이트의 비구조적 URL 스키마 때문에 수작업이 필요했음. 안정적인 데이터 소스가 필요함
웹사이트 개발자는 스크래퍼를 고려하지 않음. 고유한 데이터셋을 수집하려면 웹 개발자에게 공개 API 제공을 요청하는 것이 좋음