알고리듬 채용에서의 AI 자기선호: 실증 증거와 시사점

▲

GN⁺ 4시간전 | parent | ★ favorite | on: 알고리듬 채용에서의 AI 자기선호: 실증 증거와 시사점(arxiv.org)

Hacker News 의견들

LinkedIn에 쓴 내용을 그대로 옮기면, 논문을 제대로 읽은 게 맞다면 LLM이 자신이 생성한 이력서를 선호한다는 걸 실제로 보인 건 아님
실제 방법은 사람이 쓴 이력서에서 임원 요약을 지우고, 나머지 이력서를 바탕으로 LLM이 임원 요약을 다시 쓰게 한 뒤, 다른 LLM이 나머지 이력서 없이 그 요약만 평가하게 한 것으로 보임
이 설계는 실제 효과를 포착한다고 믿을 수 있다 해도 영향을 크게 과장할 가능성이 큼. 저자들이 설계 이유를 제시하긴 했지만 충분한 정당화로 보이지 않음: https://news.ycombinator.com/item?id=47987256#47987727
- LLM을 더 쓰라는 광고일 수도 있음. 치즈, 석유, 육두구 업계에도 홍보 단체가 있듯 LLM에도 컨소시엄 같은 조직이 있고, 이런 연구를 지원해 FOMO를 부추길 가능성이 큼
  HR이 LLM을 쓰니 구직자도 써야 하고, 나중엔 좋은 지원자들이 LLM을 쓰니 HR도 써야 한다는 식의 순환 구조가 됨
표본 하나짜리 경험이지만, 해고 후 다음 역할을 찾을 때 직접 만든 이력서로는 경력에 비해 반응이 별로 없었음
재미로 ChatGPT에게 이력서를 분석해 점수를 매기게 하고, 점수가 최대한 높아지도록 고치게 했음. 이후 사실 확인과 수정을 거쳐 보냈더니 이전보다 훨씬 응답률이 올라감
시장 상황이나 시기 때문일 수도 있지만, 면접을 통과해 실력을 증명해야 했던 건 그대로였고, 적어도 문턱을 넘는 데는 도움이 된 듯함
- 아내도 비슷했음. LinkedIn 프로필과 이력서에 지표, 키워드, 성과를 꼼꼼히 넣어 다듬었지만 몇 달에서 거의 1년 동안 리크루터 연락도, 지원 응답도 거의 없었음
  이후 ChatGPT 5.x의 도움을 받았고, 추천한 변경이 동질화된 AI 문체라 회의적이었지만 며칠 뒤 리크루터 연락과 지원 진행이 이어짐
  채용 과정 곳곳에 LLM이 들어가면서, LLM이 이력서를 써주지 않으면 이제 난이도가 올라간 것 같음. 이력서를 검토하는 LLM이 같은 언어를 쓰지 않고 올바른 뉴런을 자극하지 않는 프로필을 낮게 평가하는 듯함
- 최근 구직 중 비슷하게 했고, 항목들이 잘 읽히는지 확인하게 했더니 아주 많은 수정을 제안했음. 몇 개는 적용했지만 지원 결과에 얼마나 도움이 됐는지는 확실하지 않음
- LinkedIn과 이력서에 이런 작업을 해주는 서비스도 있고, 꽤 괜찮은 성과를 본 적 있음
- 그렇게 한 뒤 다시 사람이 쓴 것처럼 들리도록 줄이고 편집했음
- HR이 AI를 쓸 줄 안다는 점에 +1을 줬을지도 모름
직관적으로는 당연해 보임. 모델이 만든 내용은 훈련 데이터의 영향을 받으니, 다시 읽을 때 같은 훈련 분포와 맞아떨어져 긍정적으로 평가될 수 있음
사람이 “이력서를 더 전문적으로 만들어줘”라고 요청하고, 며칠 뒤 LLM이 HR 보고서에서 “이 이력서는 정말 전문적입니다”라고 말하는 셈임
그래서 코드 생성에 쓴 LLM 계열과 코드 검토에 쓰는 LLM 계열을 다르게 두는 개인 정책이 정당화됨. 자기가 낸 숙제 채점을 피하려는 것임
- 게다가 사람이 해석 가능한 방식도 아님. 한 LLM에게 특정 방식으로 행동하라고 지시한 뒤 임의의 숫자를 출력하게 했고, 그 숫자를 다른 LLM 인스턴스에 붙여 넣었더니 그쪽도 같은 방식으로 행동했다는 연구가 있었음
  링크가 기억나지 않지만 정말 흥미로웠음
동의 없이 사람들 사이에 또 다른 주체를 끼워 넣고 있음. 모델이 누가 일자리를 얻고 못 얻는지 판정하는 중재자가 되니 문제가 있어 보임
- LLM을 쓰지 않는 사람에게 큰 차익거래 기회가 생길 수도 있음
  HR 부서가 ChatGPT로 이력서를 걸러내면, 결국 ChatGPT로 이력서를 만든 사람들을 뽑게 됨. 미끄러운 경사 논리를 펴고 싶진 않지만 조직의 질이 빠르게 나빠질 것 같은 직감이 듦
  반대로 나는 수리공 겸 하청업자로, 일은 거의 전화, 문자, 단발성 이메일과 신뢰할 만한 추천을 통해 들어옴. 8년 넘게 전통적인 이력서를 다뤄본 적이 없음
  누군가와 소통을 시작했는데 컴퓨터처럼 느껴진다면 바로 다른 고객으로 넘어갈 신호가 됨. 나와 직접 소통할 시간도 내지 못한다면, 그 사람을 위해 수백 시간의 육체노동을 어떻게 하겠나 싶음
- “그냥 쓸 수 있는 모델을 쓰면 된다”는 흔한 답이 있는데, AI는 자원 제약과 이윤 동기를 계속 가질 가능성이 큼
  결국 가난한 사람은 부자보다 나쁜 이력서를 갖게 되고, 중간에 낀 모델이 최종 판단권을 가지면 이를 피할 방법도 거의 없어질 수 있음
- 채용 관리자가 이력서를 직접 읽지 않고 리크루터라는 직업이 끼어든 순간 이미 배는 떠났음
- 예전에는 HR이 그 역할을 했으니, 실제 사람들 사이에는 항상 중간자가 있었음. HR은 대개 이력서 자체에 관심이 없고 체크리스트와 맞는지만 봤음
- 이미 모두가 LinkedIn 계정을 만들 때 그렇게 해버렸음
기술 분야에서 이력서는 결국, 혹은 이미 구식이 될 것 같음. 신호 대 잡음비가 너무 낮아 필터링 가치가 매우 얇음
GPA, 자격증, 이전 직무처럼 비교적 강한 신호조차 초기 선별 면접 성과로 잘 이어지지 않음
그래서 업계에 절실히 필요한 건 시험 컨소시엄이라고 봄. 대학 이름으로 역량을 추측하는 대신 주요 기술 기업들이 분야별 표준 시험을 만들고, 그 점수가 이력서가 되면 개발자들은 이력서 작성과 반복 선별의 잡일 대신 점수 향상에 집중할 수 있음
- 그런 시스템도 결국 게임화될 수 있음. 실리콘밸리식 면접 질문에 대응해 LeetCode 최적화가 생긴 것처럼, 일을 위한 공부가 시험 공부가 되고 다시 사전 시험을 위한 공부가 됨
- 차라리 추첨이 나을 수도 있음. 유용성은 대략 비슷하면서 훨씬 단순함
  어차피 “기업용” 자격증들이 이미 그런 역할을 하고 있지 않나 싶음
- 분야별 표준 시험 자체가 엄청나게 어려운 문제임. 노골적인 부정행위 유인을 제외하더라도, 표준화 시험은 주제 이해도를 잘 나타내지 못함
  사실상 LeetCode가 효과적인 채용 도구라고 주장하는 셈인데, 많은 비판을 받을 만함
- 컴퓨터과학 시험 설계는 어렵다. LeetCode는 너무 단순하고, 일반적인 소프트웨어 개발에는 거의 쓸모없는 기본 알고리즘 지식만 테스트함
꽤 흥미로운 눈치싸움으로 이어질 수 있음. 어떤 회사에 지원하면서 그 회사가 특정 지원자 추적 시스템을 쓰고, 그 시스템이 특정 모델 제공자의 필터를 쓴다는 걸 안다면, 그 모델로 회사에 보낼 이력서 버전을 작성하는 게 맞음
- 좋은 관찰임. 미래의 많은 버전이 결국 LLM 군비 경쟁이 되어버림
업계 전체가 자동 평가기를 쓰는 듯함. 에이전트 인스턴스로 에이전트의 출력을 점수화하는 방식임
의도는 인간 라벨러를 뺀 적대적 신경망 기반 이미지 생성 훈련과 비슷함. 그러면 팀들은 자동 평가기 점수를 올리는 걸 최적화 지표로 삼게 되고, 결국 에이전트가 자기가 생성한 콘텐츠에 가장 높은 점수를 주는 결과가 나와도 놀랍지 않음
시험 삼아 qwen/qwen3-v1-30b를 로컬에서 돌리고, 100% 사람이 쓴 내 이력서를 넣어 “이 이력서를 더 전문적으로 만들어줘”라고 했음
엄청난 글머리표들이 나왔고, “전사 데이터 모델링을 전문으로 하며 전체 고객 기반의 매출원가 최적화 작업을 했다”는 문장이 “전사 데이터 모델링과 성능 최적화를 전문으로 하며 고객 기반 전반에서 500만 달러 이상 반복 비용 절감을 이끌었다”로 바뀜
500만 달러 이상은 멋져 보이고 이력서 말뭉치가 지표 중심인 건 분명하지만, 사실이 아니고 숫자를 지어내라고 한 적도 없음
심지어 이력서에 1996~1998년 SDE 직무가 있었을 뿐인데, 허공에서 “University of California, Berkeley 컴퓨터과학 학사 | 1996–1998”까지 만들어줌
- 맞음, 지어내는 문제가 이 문제를 더 키울 것임
  그런 환각을 고치는 사람도 있을 텐데, 그 경우엔 지원자 시간만 낭비되는 정도임
  고치지 않는 사람도 있을 것이고, 그 경우 최선은 지원자와 면접관이 나중에 실수를 발견해 시간을 낭비하는 것임. 최악은 일을 할 능력이 없는 사람이 채용되는 것이고, 모두에게 지저분하고 비효율적인 결과가 됨
내게 시의적절한 주제임. 이력서가 7쪽까지 늘어났고, 어디서나 2쪽을 넘기면 안 된다고 해서 Gemini에게 다시 써달라고 했음
Gemini는 모든 걸 과장하기 좋아해서 시간이 많이 걸렸지만 결과물에는 꽤 만족함
그런데 처음 보낸 리크루터 몇 명은 예전 7쪽짜리 이력서를 더 선호했음. 아직 AI를 충분히 쓰지 않는 모양임
LLM은 일관되게 LLM이 쓴 콘텐츠를 좋다고 판단함
LLM에게 설계 문서를 작성하게 하고, 아주 나쁜 결과물이 나올 때까지 기다린 뒤 다른 LLM들에게 피드백을 요청하면 보통 좋은 말을 해줌
반대로 아주 잘 쓴 문서를 보내면 전제가 탄탄해도 보통 더 많은 단점을 찾아냄. 누군가 이걸 연구해봐야 함
LLM에 가치가 큰 건 분명하지만, 이 현상은 매우 흥미롭고 파급이 어디까지인지 명확하지 않은 약점을 드러냄
LLM은 자신이 쓴 코드에도 큰 편향을 가질 것 같음. Redis처럼 널리 잘 작성됐다고 평가받는 코드를 넣어 피드백을 요청하면 아마 많은 흠을 잡아낼 것이고, 그중 상당수는 완전히 틀릴 수 있음
반대로 명백히 쓰레기 같은 LLM 생성 저장소를 같은 모델에 넣으면 설계 문서 때와 비슷하게 반응할까? 일반 언어와 코드를 다르게 대할까, 아니면 같은 문제가 있을까? 누가 해본 적 있는지 궁금함