8P by neo 5달전 | favorite | 댓글 1개
  • Hacker News의 "Ask HN: Who Is Hiring" 스레드를 통해 현재의 취업 시장과 트렌드를 파악하고자 함
  • Selenium을 사용해 매월 "ask hn who is hiring {month} {year}"를 구글링하여 스레드 ID를 수집
  • HN-API를 사용해 상위 댓글의 ID를 수집하고, sqlite3 데이터베이스에 저장함
  • GPT-4o를 사용해 댓글을 분류함
  • LangChain의 llm.batch(array) 메서드를 사용해 병렬 처리하여 빠르게 데이터를 처리

결과

얼마나 많은 직장이 원격 근무를 허용하는가?
  • 팬데믹 동안 원격 근무를 지원하지 않는 직장은 5분의 1에 불과했음
  • 예상보다 원격 근무 지원 비율이 크게 감소하지 않음
얼마나 많은 직장이 비자를 후원하는가?
  • 비자 후원 직장의 비율은 지난 2년 동안 비교적 안정적이었음
  • 여전히 비자 후원 직장을 찾는 것은 어려움
경험 수준 분포는 어떻게 변하는가?
  • 향후 6~12개월 내에 8년 이상의 경력을 쌓는 것이 중요함
미국 내 주별 직장 수는?
  • Bay Area와 NYC에서 제공되는 직장이 다른 지역보다 훨씬 많음
어떤 데이터베이스가 사용되는가?
  • PostgreSQL이 다른 데이터베이스를 압도적으로 사용함
어떤 자바스크립트 프레임워크가 수요가 많은가?
  • React의 수요가 매우 높음
  • 로그 스케일을 사용하지 않고 three.js를 사용해 인터랙티브한 버블 차트를 만듦
급여 분포는?
  • 급여 분포에 대한 구체적인 내용은 제공되지 않음

배운 점

  • 모델 필드를 가능한 한 정확하게 설명해야 함
  • 분류 시 설명에 클래스들을 명시해야 함
  • 집합을 추출할 때 구분자를 설명에 명시해야 함

향후 작업

  • 초기 작업을 바탕으로, 사용자가 "Ask HN: Who is hiring?" 스레드에서 찾고 있는 직장을 설명하면, 이를 분류하고 월별로 매칭해주는 미니 SaaS를 구축할 수 있을듯

GN⁺의 의견

  • 이 글은 데이터 과학과 자연어 처리 기술을 활용해 취업 시장을 분석하는 방법을 잘 보여줌
  • GPT-4o와 LangChain을 사용한 병렬 처리는 대규모 데이터를 빠르게 처리하는 데 유용함
  • 비자 후원 직장을 찾는 것이 어려운 현실을 반영하고 있어, 관련 정보를 찾는 사람들에게 유용할 것임
  • React와 PostgreSQL의 높은 수요는 해당 기술을 배우고자 하는 사람들에게 좋은 참고 자료가 됨
  • 미니 SaaS 아이디어는 실제로 구현된다면 많은 구직자들에게 큰 도움이 될 수 있음
Hacker News 의견
  • GPT-4o를 사용한 분석이 흥미로움

    • 최근 "Who is Hiring"과 "Who wants to be hired" 데이터셋을 pandas와 spacy로 분석했음
    • LLM이 'go'와 'rust'를 구분하는 것이 유용할 것 같음
    • node.js와 nodejs, react-native와 react native를 통합하지 않는 점이 아쉬움
    • selenium 스크립트를 사용해 구글 검색을 반복하는 이유가 궁금함
    • API를 직접 사용하고 제목을 매칭하는 정규식을 사용하는 스크립트를 공유함
  • 프로젝트의 소스 코드를 GitHub에서 찾을 수 없어서 아쉬움

    • langchain을 처음 접하는데, API가 예상보다 덜 일관적임
    • Ollama로도 가능하지 않을까 궁금함
    • 여러 래퍼(wrapper)들이 복잡하게 얽혀 있어 혼란스러움
    • 초보자를 위한 튜토리얼이 필요함
  • 프로젝트에 시간과 돈을 투자해줘서 감사함

    • "remote"와 "in-person"에 대한 추가 통계가 흥미로움
    • in-person 회사들이 반복적으로 구인하는 이유가 성장일 수도 있고, 후보자를 찾기 어려워서일 수도 있음
    • remote 회사들이 사라지는 이유가 필요한 인재를 찾았거나, 사업을 접었을 수도 있음
  • LLM과 전통적인 분석의 훌륭한 조합임

    • LLM이 인간의 뉘앙스, 풍자, 관용구를 이해하는 데 뛰어남
    • ML이 문맥에서 정보를 추출하는 데 탁월함
    • LLM은 실제 숫자 계산에는 신뢰할 수 없음
  • 그래프에서 막대를 쌓는 것은 좋지 않음

    • 두 번째 레이어를 제대로 평가할 수 없기 때문임
    • 각 타임스탬프마다 remote와 non-remote를 나란히 두는 것이 더 나음
  • 로그 스케일을 사용해야 그래프가 이상해 보이지 않음

    • 대신 300줄의 코드로 three.js를 사용해 버블 차트를 만듦
    • 해커는 해커답게 행동함
  • Claude 3 Haiku를 사용해 동일한 분석을 하면 흥미로울 것 같음

    • GPT-4o의 1/40 가격임
    • 결과가 비슷할 것이라는 예감이 있음
  • Indeed나 LinkedIn의 무작위 샘플과 비교하면 흥미로울 것 같음

    • Hacker News는 일반 산업에 비해 편향된 그룹임
  • JS 프레임워크 그래프에 "React Native"와 "React-Native" 버블이 모두 존재함

  • "Who Wants to be Hired"에 대한 유사한 분석을 보고 싶음

    • 구직에 어려움을 겪는 사람들의 트렌드를 파악할 수 있음
    • 이는 경력 성장을 목표로 하는 사람들에게 도움이 될 수 있음