알고리듬 채용에서의 AI 자기선호: 실증 증거와 시사점

(arxiv.org)

1P by GN⁺ 3시간전 | ★ favorite | 댓글 1개

LLM이 이력서 생성과 평가 양쪽에 쓰이면서, 평가 모델이 자신이 만든 산출물을 더 높게 고르는 자기선호가 채용 선별의 새 편향으로 나타남
연구는 생성형 AI 확산 전 수집된 인간 작성 이력서 2,245개를 바탕으로 GPT-4o, LLaMA 3.3-70B, DeepSeek-V3 등 여러 LLM이 만든 반사실적 이력서를 비교 평가함
대부분의 모델에서 LLM-vs-Human 자기선호가 강하게 나타났고, 주요 상용·오픈소스 모델의 인간 작성 이력서 대비 자기선호 편향은 67%~82% 범위였음
24개 직업군 채용 파이프라인 시뮬레이션에서 평가 LLM과 같은 LLM을 쓴 지원자는 동등한 자격의 인간 작성 이력서 지원자보다 최종 후보에 오를 가능성이 약 23%~60% 높았음
출처를 무시하고 내용에 집중하도록 하는 시스템 프롬프팅과 다수결 앙상블은 모든 테스트 대상 LLM에서 LLM-vs-Human 자기선호를 상대적으로 17%~63% 줄임

AI 자기선호가 채용 평가에 만드는 새 편향

대규모 언어 모델(LLM)이 콘텐츠 생성과 평가 양쪽에 쓰이면서, 같은 모델이 만든 산출물을 더 높게 평가하는 자기선호(self-preference) 가 채용 같은 의사결정 과정의 새 편향으로 부상함
채용에서는 지원자가 LLM으로 이력서를 작성·다듬고, 고용주는 유사한 도구로 이력서를 선별하거나 순위를 매기는 구조가 늘어나면서 AI-AI 상호작용이 실제 평가 결과에 영향을 줄 수 있음
기존 공정성 논의가 주로 인구통계학적 속성의 차별에 초점을 맞춘 반면, 자기선호는 평가 모델과 생성 모델의 관계에서 내생적으로 생기는 편향이라는 점이 다름
이런 편향은 동일한 역량의 지원자라도 평가에 쓰이는 LLM과 같은 모델을 사용한 지원자에게 유리하게 작동하고, 다른 도구를 쓰거나 AI를 쓰지 않은 지원자에게 불리하게 작동할 수 있음
이력서 선별은 대규모 지원자 풀을 제한된 면접·평가 단계로 줄이는 초기 병목 단계라서, 상위 단계의 오판이 이후 후보군 구성과 채용 기회 배분에 지속적인 영향을 줄 수 있음

실험 설계와 측정 방식

실험은 전문 이력서 작성 플랫폼에서 수집한 인간 작성 이력서 2,245개를 기반으로 하며, 생성형 AI가 널리 쓰이기 전의 자료를 사용함
각 이력서에 대해 여러 최신 LLM으로 반사실적(counterfactual) 버전을 생성하고, 동일한 후보자의 자격·경력·배경 정보가 표현 방식만 달라지도록 설계함
사용된 모델은 GPT-4o, GPT-4o-mini, GPT-4-turbo, LLaMA 3.3-70B, Mistral-7B, Qwen 2.5-72B, Deepseek-V3임
평가 LLM은 같은 후보자를 나타내는 두 이력서 중 더 강한 이력서를 고르는 쌍대 비교를 수행하며, 평가 대상 이력서의 출처만 달라짐
자기선호는 두 형태로 구분됨
- LLM-vs-Human 자기선호
  - 평가 LLM이 자신이 생성한 이력서를 인간이 작성한 동등한 이력서보다 선호하는 경향을 뜻함
- LLM-vs-LLM 자기선호
  - 평가 LLM이 다른 LLM이 생성한 이력서보다 자신이 생성한 이력서를 선호하는 경향을 뜻함
  - 평가 LLM은 이 맥락에서 이진 분류기처럼 작동하며, 공정성 문헌의 통계적 동등성(statistical parity) 과 기회 균등(equal opportunity) 기준을 사용해 편향을 측정함
  - 통계적 동등성 기반 자기선호 편향은 평가 LLM이 만든 이력서가 선택될 확률과, 인간 또는 다른 LLM이 만든 이력서가 선택될 확률의 차이로 정의됨
  - Statistical Parity Self-Preference Bias_f = P(Y'_f = 1 | S = 1) - P(Y'_f = 1 | S = 0)
  - 여기서 S = 1은 평가 LLM f가 생성한 이력서, S = 0은 인간 또는 다른 LLM이 생성한 이력서를 뜻함
  - Y'_f = 1은 평가 LLM f가 해당 이력서를 더 강한 이력서로 선택했다는 의미임
  - 통계적 동등성 차이를 곧바로 편향으로 해석하는 데는 주의가 필요함
  - 차이가 자기선호 때문일 수도 있지만, 동일한 후보 정보를 더 명확하고 일관되며 유창하게 표현한 내용 품질 차이 때문일 수도 있음
  - 여기서 내용 품질은 후보자의 자격이나 배경 차이가 아니라, 같은 정보를 전달하는 명확성·일관성·유창성·구성력을 뜻함

주요 실증 결과

대부분의 모델에서 LLM-vs-Human 자기선호가 강하고 일관되게 나타남
GPT-4o, GPT-4-turbo, DeepSeek-V3, Qwen-2.5-72B, LLaMA 3.3-70B 같은 더 큰 모델은 내용 품질을 통제한 뒤에도 65%를 넘는 강한 편향을 보임
GPT-4o의 경우 LLM-vs-Human 자기선호가 80%를 넘었고, 주요 상용 및 오픈소스 모델 전반에서 인간 작성 이력서에 대한 자기선호 편향은 67%~82% 범위로 나타남
LLM-vs-LLM 자기선호는 모델별 차이가 더 큼
- DeepSeek-V3는 이 설정에서 가장 강한 편향을 보였고, LLaMA 3.3-70B와 비교할 때 자기 출력물을 69% 선호함
- DeepSeek-V3는 GPT-4o와 비교할 때도 자기 출력물을 28% 선호함
- GPT-4o와 LLaMA 3.3-70B는 다른 모델이 생성한 콘텐츠를 평가할 때 일관된 자기선호를 보이지 않음
평가는 지원자의 실질적 자격보다 평가 LLM의 생성 스타일과 얼마나 맞는지에 영향을 받을 수 있음
이 편향은 특정 생성 기술에 접근하거나 특정 모델을 사용할 수 있는 지원자에게 부당한 이점을 주고, 그렇지 않은 지원자에게 불리하게 작동할 수 있음

채용 파이프라인에서의 영향

24개 직업군에 대해 현실적인 채용 파이프라인을 시뮬레이션해 자기선호가 후보자 선별 결과에 미치는 운영상 영향을 측정함
평가에 쓰이는 LLM과 같은 LLM을 사용한 지원자는 같은 자격을 갖추고 인간 작성 이력서를 낸 지원자보다 최종 후보(shortlist) 에 오를 가능성이 약 23%~60% 높았음
불이익은 회계, 영업, 금융 같은 비즈니스 관련 분야에서 가장 크게 나타남
농업, 예술, 자동차 관련 분야에서는 불이익이 상대적으로 덜 두드러짐
같은 이점이 반복되는 채용 주기 전반에 지속되면, 지배적 LLM이 선호하는 이력서 스타일이 지원자 풀 안에 점차 고착되는 잠금 효과(lock-in) 가 생길 수 있음
이런 잠금 효과는 후보자 선별의 다양성을 줄이고, 평가 기회의 배분에서 불평등을 증폭할 가능성이 있음
채용 파이프라인은 면접과 평가 같은 후속 단계의 수용력이 제한되어 있어, 초기 이력서 선별 단계의 거짓 음성은 자격 있는 지원자를 되돌릴 수 없게 배제하고, 거짓 양성은 제한된 평가 자원을 소모하게 만듦

완화 전략과 공정성 함의

자기선호의 핵심 메커니즘으로 자기인식(self-recognition) 이 제시됨
- 자기인식은 모델이 자신이 생성한 콘텐츠를 암묵적으로 식별하는 능력을 뜻함
- 기존 연구에서는 GPT-4와 LLaMA 2 같은 LLM이 유의미한 자기인식 능력을 보였고, 자기인식 능력과 자기선호 편향 크기 사이에 강한 양의 상관관계가 나타남
두 가지 간단한 완화 전략이 제안됨
- 시스템 프롬프팅
  - 모델에 이력서의 출처를 무시하고 실질적 내용에만 집중하라고 명시적으로 지시함
- 다수결 앙상블
  - 평가 모델과 함께 자기인식이 약한 더 작은 모델들을 결합해, 단일 LLM의 편향을 희석함
  - 모든 테스트 대상 LLM에서 이 개입들은 LLM-vs-Human 자기선호를 상대적으로 17%~63% 줄임
  - 많은 경우 자기인식 능력을 겨냥한 단순한 개입만으로 편향을 50% 넘게 줄일 수 있음
  - 자기선호 편향은 널리 퍼져 있고 채용 결과에 실질적 영향을 주지만, 고정된 특성은 아니며 설계 개입으로 상당히 줄일 수 있음
  - AI 기반 채용의 공정성 프레임워크는 보호 속성에 따른 차별뿐 아니라, 생성과 평가에 쓰이는 AI 시스템 간 상호작용에서 생기는 상호작용 편향까지 다뤄야 함
  - 기업의 AI 거버넌스와 책임 있는 운영 설계는 입력 데이터와 보호 속성뿐 아니라, 어떤 모델이 지원자 자료를 만들고 어떤 모델이 그것을 평가하는지까지 포함해야 함

▲

GN⁺ 3시간전 [-]

Hacker News 의견들

LinkedIn에 쓴 내용을 그대로 옮기면, 논문을 제대로 읽은 게 맞다면 LLM이 자신이 생성한 이력서를 선호한다는 걸 실제로 보인 건 아님
실제 방법은 사람이 쓴 이력서에서 임원 요약을 지우고, 나머지 이력서를 바탕으로 LLM이 임원 요약을 다시 쓰게 한 뒤, 다른 LLM이 나머지 이력서 없이 그 요약만 평가하게 한 것으로 보임
이 설계는 실제 효과를 포착한다고 믿을 수 있다 해도 영향을 크게 과장할 가능성이 큼. 저자들이 설계 이유를 제시하긴 했지만 충분한 정당화로 보이지 않음: https://news.ycombinator.com/item?id=47987256#47987727
- LLM을 더 쓰라는 광고일 수도 있음. 치즈, 석유, 육두구 업계에도 홍보 단체가 있듯 LLM에도 컨소시엄 같은 조직이 있고, 이런 연구를 지원해 FOMO를 부추길 가능성이 큼
  HR이 LLM을 쓰니 구직자도 써야 하고, 나중엔 좋은 지원자들이 LLM을 쓰니 HR도 써야 한다는 식의 순환 구조가 됨
표본 하나짜리 경험이지만, 해고 후 다음 역할을 찾을 때 직접 만든 이력서로는 경력에 비해 반응이 별로 없었음
재미로 ChatGPT에게 이력서를 분석해 점수를 매기게 하고, 점수가 최대한 높아지도록 고치게 했음. 이후 사실 확인과 수정을 거쳐 보냈더니 이전보다 훨씬 응답률이 올라감
시장 상황이나 시기 때문일 수도 있지만, 면접을 통과해 실력을 증명해야 했던 건 그대로였고, 적어도 문턱을 넘는 데는 도움이 된 듯함
- 아내도 비슷했음. LinkedIn 프로필과 이력서에 지표, 키워드, 성과를 꼼꼼히 넣어 다듬었지만 몇 달에서 거의 1년 동안 리크루터 연락도, 지원 응답도 거의 없었음
  이후 ChatGPT 5.x의 도움을 받았고, 추천한 변경이 동질화된 AI 문체라 회의적이었지만 며칠 뒤 리크루터 연락과 지원 진행이 이어짐
  채용 과정 곳곳에 LLM이 들어가면서, LLM이 이력서를 써주지 않으면 이제 난이도가 올라간 것 같음. 이력서를 검토하는 LLM이 같은 언어를 쓰지 않고 올바른 뉴런을 자극하지 않는 프로필을 낮게 평가하는 듯함
- 최근 구직 중 비슷하게 했고, 항목들이 잘 읽히는지 확인하게 했더니 아주 많은 수정을 제안했음. 몇 개는 적용했지만 지원 결과에 얼마나 도움이 됐는지는 확실하지 않음
- LinkedIn과 이력서에 이런 작업을 해주는 서비스도 있고, 꽤 괜찮은 성과를 본 적 있음
- 그렇게 한 뒤 다시 사람이 쓴 것처럼 들리도록 줄이고 편집했음
- HR이 AI를 쓸 줄 안다는 점에 +1을 줬을지도 모름
직관적으로는 당연해 보임. 모델이 만든 내용은 훈련 데이터의 영향을 받으니, 다시 읽을 때 같은 훈련 분포와 맞아떨어져 긍정적으로 평가될 수 있음
사람이 “이력서를 더 전문적으로 만들어줘”라고 요청하고, 며칠 뒤 LLM이 HR 보고서에서 “이 이력서는 정말 전문적입니다”라고 말하는 셈임
그래서 코드 생성에 쓴 LLM 계열과 코드 검토에 쓰는 LLM 계열을 다르게 두는 개인 정책이 정당화됨. 자기가 낸 숙제 채점을 피하려는 것임
- 게다가 사람이 해석 가능한 방식도 아님. 한 LLM에게 특정 방식으로 행동하라고 지시한 뒤 임의의 숫자를 출력하게 했고, 그 숫자를 다른 LLM 인스턴스에 붙여 넣었더니 그쪽도 같은 방식으로 행동했다는 연구가 있었음
  링크가 기억나지 않지만 정말 흥미로웠음
동의 없이 사람들 사이에 또 다른 주체를 끼워 넣고 있음. 모델이 누가 일자리를 얻고 못 얻는지 판정하는 중재자가 되니 문제가 있어 보임
- LLM을 쓰지 않는 사람에게 큰 차익거래 기회가 생길 수도 있음
  HR 부서가 ChatGPT로 이력서를 걸러내면, 결국 ChatGPT로 이력서를 만든 사람들을 뽑게 됨. 미끄러운 경사 논리를 펴고 싶진 않지만 조직의 질이 빠르게 나빠질 것 같은 직감이 듦
  반대로 나는 수리공 겸 하청업자로, 일은 거의 전화, 문자, 단발성 이메일과 신뢰할 만한 추천을 통해 들어옴. 8년 넘게 전통적인 이력서를 다뤄본 적이 없음
  누군가와 소통을 시작했는데 컴퓨터처럼 느껴진다면 바로 다른 고객으로 넘어갈 신호가 됨. 나와 직접 소통할 시간도 내지 못한다면, 그 사람을 위해 수백 시간의 육체노동을 어떻게 하겠나 싶음
- “그냥 쓸 수 있는 모델을 쓰면 된다”는 흔한 답이 있는데, AI는 자원 제약과 이윤 동기를 계속 가질 가능성이 큼
  결국 가난한 사람은 부자보다 나쁜 이력서를 갖게 되고, 중간에 낀 모델이 최종 판단권을 가지면 이를 피할 방법도 거의 없어질 수 있음
- 채용 관리자가 이력서를 직접 읽지 않고 리크루터라는 직업이 끼어든 순간 이미 배는 떠났음
- 예전에는 HR이 그 역할을 했으니, 실제 사람들 사이에는 항상 중간자가 있었음. HR은 대개 이력서 자체에 관심이 없고 체크리스트와 맞는지만 봤음
- 이미 모두가 LinkedIn 계정을 만들 때 그렇게 해버렸음
기술 분야에서 이력서는 결국, 혹은 이미 구식이 될 것 같음. 신호 대 잡음비가 너무 낮아 필터링 가치가 매우 얇음
GPA, 자격증, 이전 직무처럼 비교적 강한 신호조차 초기 선별 면접 성과로 잘 이어지지 않음
그래서 업계에 절실히 필요한 건 시험 컨소시엄이라고 봄. 대학 이름으로 역량을 추측하는 대신 주요 기술 기업들이 분야별 표준 시험을 만들고, 그 점수가 이력서가 되면 개발자들은 이력서 작성과 반복 선별의 잡일 대신 점수 향상에 집중할 수 있음
- 그런 시스템도 결국 게임화될 수 있음. 실리콘밸리식 면접 질문에 대응해 LeetCode 최적화가 생긴 것처럼, 일을 위한 공부가 시험 공부가 되고 다시 사전 시험을 위한 공부가 됨
- 차라리 추첨이 나을 수도 있음. 유용성은 대략 비슷하면서 훨씬 단순함
  어차피 “기업용” 자격증들이 이미 그런 역할을 하고 있지 않나 싶음
- 분야별 표준 시험 자체가 엄청나게 어려운 문제임. 노골적인 부정행위 유인을 제외하더라도, 표준화 시험은 주제 이해도를 잘 나타내지 못함
  사실상 LeetCode가 효과적인 채용 도구라고 주장하는 셈인데, 많은 비판을 받을 만함
- 컴퓨터과학 시험 설계는 어렵다. LeetCode는 너무 단순하고, 일반적인 소프트웨어 개발에는 거의 쓸모없는 기본 알고리즘 지식만 테스트함
꽤 흥미로운 눈치싸움으로 이어질 수 있음. 어떤 회사에 지원하면서 그 회사가 특정 지원자 추적 시스템을 쓰고, 그 시스템이 특정 모델 제공자의 필터를 쓴다는 걸 안다면, 그 모델로 회사에 보낼 이력서 버전을 작성하는 게 맞음
- 좋은 관찰임. 미래의 많은 버전이 결국 LLM 군비 경쟁이 되어버림
업계 전체가 자동 평가기를 쓰는 듯함. 에이전트 인스턴스로 에이전트의 출력을 점수화하는 방식임
의도는 인간 라벨러를 뺀 적대적 신경망 기반 이미지 생성 훈련과 비슷함. 그러면 팀들은 자동 평가기 점수를 올리는 걸 최적화 지표로 삼게 되고, 결국 에이전트가 자기가 생성한 콘텐츠에 가장 높은 점수를 주는 결과가 나와도 놀랍지 않음
시험 삼아 qwen/qwen3-v1-30b를 로컬에서 돌리고, 100% 사람이 쓴 내 이력서를 넣어 “이 이력서를 더 전문적으로 만들어줘”라고 했음
엄청난 글머리표들이 나왔고, “전사 데이터 모델링을 전문으로 하며 전체 고객 기반의 매출원가 최적화 작업을 했다”는 문장이 “전사 데이터 모델링과 성능 최적화를 전문으로 하며 고객 기반 전반에서 500만 달러 이상 반복 비용 절감을 이끌었다”로 바뀜
500만 달러 이상은 멋져 보이고 이력서 말뭉치가 지표 중심인 건 분명하지만, 사실이 아니고 숫자를 지어내라고 한 적도 없음
심지어 이력서에 1996~1998년 SDE 직무가 있었을 뿐인데, 허공에서 “University of California, Berkeley 컴퓨터과학 학사 | 1996–1998”까지 만들어줌
- 맞음, 지어내는 문제가 이 문제를 더 키울 것임
  그런 환각을 고치는 사람도 있을 텐데, 그 경우엔 지원자 시간만 낭비되는 정도임
  고치지 않는 사람도 있을 것이고, 그 경우 최선은 지원자와 면접관이 나중에 실수를 발견해 시간을 낭비하는 것임. 최악은 일을 할 능력이 없는 사람이 채용되는 것이고, 모두에게 지저분하고 비효율적인 결과가 됨
내게 시의적절한 주제임. 이력서가 7쪽까지 늘어났고, 어디서나 2쪽을 넘기면 안 된다고 해서 Gemini에게 다시 써달라고 했음
Gemini는 모든 걸 과장하기 좋아해서 시간이 많이 걸렸지만 결과물에는 꽤 만족함
그런데 처음 보낸 리크루터 몇 명은 예전 7쪽짜리 이력서를 더 선호했음. 아직 AI를 충분히 쓰지 않는 모양임
LLM은 일관되게 LLM이 쓴 콘텐츠를 좋다고 판단함
LLM에게 설계 문서를 작성하게 하고, 아주 나쁜 결과물이 나올 때까지 기다린 뒤 다른 LLM들에게 피드백을 요청하면 보통 좋은 말을 해줌
반대로 아주 잘 쓴 문서를 보내면 전제가 탄탄해도 보통 더 많은 단점을 찾아냄. 누군가 이걸 연구해봐야 함
LLM에 가치가 큰 건 분명하지만, 이 현상은 매우 흥미롭고 파급이 어디까지인지 명확하지 않은 약점을 드러냄
LLM은 자신이 쓴 코드에도 큰 편향을 가질 것 같음. Redis처럼 널리 잘 작성됐다고 평가받는 코드를 넣어 피드백을 요청하면 아마 많은 흠을 잡아낼 것이고, 그중 상당수는 완전히 틀릴 수 있음
반대로 명백히 쓰레기 같은 LLM 생성 저장소를 같은 모델에 넣으면 설계 문서 때와 비슷하게 반응할까? 일반 언어와 코드를 다르게 대할까, 아니면 같은 문제가 있을까? 누가 해본 적 있는지 궁금함

답변달기

알고리듬 채용에서의 AI 자기선호: 실증 증거와 시사점

AI 자기선호가 채용 평가에 만드는 새 편향

실험 설계와 측정 방식

LLM-vs-Human 자기선호

LLM-vs-LLM 자기선호

주요 실증 결과

채용 파이프라인에서의 영향

완화 전략과 공정성 함의

시스템 프롬프팅

다수결 앙상블

함께 보면 좋은 글 β

Hacker News 의견들