# GPT-4o를 사용한 "Ask HN: Who Is Hiring"의 10,000개 이상의 댓글에서 얻은 인사이트

> Clean Markdown view of GeekNews topic #15696. Use the original source for factual precision when an external source URL is present.

## Metadata

- GeekNews HTML: [https://news.hada.io/topic?id=15696](https://news.hada.io/topic?id=15696)
- GeekNews Markdown: [https://news.hada.io/topic/15696.md](https://news.hada.io/topic/15696.md)
- Type: GN+
- Author: [neo](https://news.hada.io/@neo)
- Published: 2024-07-05T10:33:22+09:00
- Updated: 2024-07-05T10:33:22+09:00
- Original source: [tamerc.com](https://tamerc.com/posts/ask-hn-who-is-hiring/)
- Points: 8
- Comments: 1

## Summary

GPT-4o와 LangChain을 사용해 미국 취업 시장의 트렌드를 분석했는데요. 팬데믹때 원격 근무를 지원하지 않는 직장은 5분의 1에 불과했는데, 예상보다 원격 근무 지원 비율이 크게 변하지 않았습니다. PostgreSQL이 다른 데이터베이스를 압도하며, React 쪽 수요가 매우 높다고 합니다.

## Topic Body

- Hacker News의 "Ask HN: Who Is Hiring" 스레드를 통해 현재의 취업 시장과 트렌드를 파악하고자 함  
- Selenium을 사용해 매월 "ask hn who is hiring {month} {year}"를 구글링하여 스레드 ID를 수집  
- HN-API를 사용해 상위 댓글의 ID를 수집하고, sqlite3 데이터베이스에 저장함  
- GPT-4o를 사용해 댓글을 분류함  
- LangChain의 `llm.batch(array)` 메서드를 사용해 병렬 처리하여 빠르게 데이터를 처리  
  
##### 결과  
  
###### 얼마나 많은 직장이 원격 근무를 허용하는가?  
  
- 팬데믹 동안 원격 근무를 지원하지 않는 직장은 5분의 1에 불과했음  
- 예상보다 원격 근무 지원 비율이 크게 감소하지 않음  
  
###### 얼마나 많은 직장이 비자를 후원하는가?  
  
- 비자 후원 직장의 비율은 지난 2년 동안 비교적 안정적이었음  
- 여전히 비자 후원 직장을 찾는 것은 어려움  
  
###### 경험 수준 분포는 어떻게 변하는가?  
  
- 향후 6~12개월 내에 8년 이상의 경력을 쌓는 것이 중요함  
  
###### 미국 내 주별 직장 수는?  
  
- Bay Area와 NYC에서 제공되는 직장이 다른 지역보다 훨씬 많음  
  
###### 어떤 데이터베이스가 사용되는가?  
  
- PostgreSQL이 다른 데이터베이스를 압도적으로 사용함  
  
###### 어떤 자바스크립트 프레임워크가 수요가 많은가?  
  
- React의 수요가 매우 높음  
- 로그 스케일을 사용하지 않고 `three.js`를 사용해 인터랙티브한 버블 차트를 만듦  
  
###### 급여 분포는?  
  
- 급여 분포에 대한 구체적인 내용은 제공되지 않음  
  
##### 배운 점  
  
- 모델 필드를 가능한 한 정확하게 설명해야 함  
- 분류 시 설명에 클래스들을 명시해야 함  
- 집합을 추출할 때 구분자를 설명에 명시해야 함  
  
##### 향후 작업  
  
- 초기 작업을 바탕으로, 사용자가 "Ask HN: Who is hiring?" 스레드에서 찾고 있는 직장을 설명하면, 이를 분류하고 월별로 매칭해주는 미니 SaaS를 구축할 수 있을듯  
  
##### GN⁺의 의견  
  
- 이 글은 데이터 과학과 자연어 처리 기술을 활용해 취업 시장을 분석하는 방법을 잘 보여줌  
- GPT-4o와 LangChain을 사용한 병렬 처리는 대규모 데이터를 빠르게 처리하는 데 유용함  
- 비자 후원 직장을 찾는 것이 어려운 현실을 반영하고 있어, 관련 정보를 찾는 사람들에게 유용할 것임  
- React와 PostgreSQL의 높은 수요는 해당 기술을 배우고자 하는 사람들에게 좋은 참고 자료가 됨  
- 미니 SaaS 아이디어는 실제로 구현된다면 많은 구직자들에게 큰 도움이 될 수 있음

## Comments



### Comment 26979

- Author: neo
- Created: 2024-07-05T10:33:22+09:00
- Points: 1

###### [Hacker News 의견](https://news.ycombinator.com/item?id=40877136) 
- GPT-4o를 사용한 분석이 흥미로움
  - 최근 "Who is Hiring"과 "Who wants to be hired" 데이터셋을 pandas와 spacy로 분석했음
  - LLM이 'go'와 'rust'를 구분하는 것이 유용할 것 같음
  - node.js와 nodejs, react-native와 react native를 통합하지 않는 점이 아쉬움
  - selenium 스크립트를 사용해 구글 검색을 반복하는 이유가 궁금함
  - API를 직접 사용하고 제목을 매칭하는 정규식을 사용하는 스크립트를 공유함

- 프로젝트의 소스 코드를 GitHub에서 찾을 수 없어서 아쉬움
  - langchain을 처음 접하는데, API가 예상보다 덜 일관적임
  - Ollama로도 가능하지 않을까 궁금함
  - 여러 래퍼(wrapper)들이 복잡하게 얽혀 있어 혼란스러움
  - 초보자를 위한 튜토리얼이 필요함

- 프로젝트에 시간과 돈을 투자해줘서 감사함
  - "remote"와 "in-person"에 대한 추가 통계가 흥미로움
  - in-person 회사들이 반복적으로 구인하는 이유가 성장일 수도 있고, 후보자를 찾기 어려워서일 수도 있음
  - remote 회사들이 사라지는 이유가 필요한 인재를 찾았거나, 사업을 접었을 수도 있음

- LLM과 전통적인 분석의 훌륭한 조합임
  - LLM이 인간의 뉘앙스, 풍자, 관용구를 이해하는 데 뛰어남
  - ML이 문맥에서 정보를 추출하는 데 탁월함
  - LLM은 실제 숫자 계산에는 신뢰할 수 없음

- 그래프에서 막대를 쌓는 것은 좋지 않음
  - 두 번째 레이어를 제대로 평가할 수 없기 때문임
  - 각 타임스탬프마다 remote와 non-remote를 나란히 두는 것이 더 나음

- 로그 스케일을 사용해야 그래프가 이상해 보이지 않음
  - 대신 300줄의 코드로 three.js를 사용해 버블 차트를 만듦
  - 해커는 해커답게 행동함

- Claude 3 Haiku를 사용해 동일한 분석을 하면 흥미로울 것 같음
  - GPT-4o의 1/40 가격임
  - 결과가 비슷할 것이라는 예감이 있음

- Indeed나 LinkedIn의 무작위 샘플과 비교하면 흥미로울 것 같음
  - Hacker News는 일반 산업에 비해 편향된 그룹임

- JS 프레임워크 그래프에 "React Native"와 "React-Native" 버블이 모두 존재함

- "Who Wants to be Hired"에 대한 유사한 분석을 보고 싶음
  - 구직에 어려움을 겪는 사람들의 트렌드를 파악할 수 있음
  - 이는 경력 성장을 목표로 하는 사람들에게 도움이 될 수 있음
