- 대한민국 통계청, 대법원, 국민건강보험공단 등 공공 데이터를 기반으로 실제 인구통계·지리·성격 분포를 반영한 최초의 대규모 한국어 페르소나 데이터셋
- 100만 건 레코드에 700만 개 페르소나를 포함하며, 이름·성별·나이·혼인 상태·교육 수준·직업·거주 지역 등 26개 필드로 구성
- 엔터프라이즈급 합성 데이터 생성 시스템인 NeMo Data Designer와 google/gemma-4-31B-it 모델을 활용해 제작
- 기존 페르소나 데이터셋 대비 고령층, 농촌 지역, 다양한 학력·직업 분포를 더 충실히 반영해 소버린 AI 모델의 편향 완화에 기여
- CC BY 4.0 라이선스로 상업적·비상업적 용도 모두 자유롭게 사용 가능
기존 LLM이 생성하는 한국 페르소나의 문제점
- 페르소나란 개인의 고유한 특성·관심사·성격·직업 등에 대한 묘사이며, 페르소나가 모여 있는 데이터셋은 해당 집단의 문화적·분포적 특성을 올바르게 반영해야 함
- 외국 LLM에 "한국 사회의 현실적이고 다양한 인물 프로필을 생성하라"고 프롬프트를 주어도 결과는 심각하게 왜곡됨
- 생성된 페르소나의 40%가 샐러드를 가장 좋아하는 음식으로 선택하거나, "경상북도 안동시에서 사과 과수원을 운영합니다" 같은 비현실적 결과 산출
- Claude Opus 4.7로 우리나라 페르소나 2천 개를 무작위 샘플링한 결과, 직업 분포에서 77.6%가 "유자 재배 농민" 으로 생성되는 극단적 편향 확인
- GPT-5.4의 경우 90.1%가 "요양보호사" 로 생성
- 도시 분포, 가족 형태, 주거 점유 형태, 음식 선호도 등 모든 측면에서 우리나라 실정과 맞지 않는 편향이 존재
데이터셋 개요 및 목적
- 대한민국 인구의 다양성과 특성을 폭넓게 반영하도록 설계된 오픈소스 합성 페르소나 데이터셋
- 우리말로 누구나 쉽게 읽을 수 있게 작성
- 소버린 AI 시스템 구축 시 학습 데이터의 결측 데이터 및 잠재적 편향을 완화하는 것이 주요 목표
- 합성 데이터 생성에 사용되는 기존 페르소나 데이터셋의 편향, 특히 나이·지역·교육 수준·직업 축에서의 편향 해소에 초점
데이터 소스 및 제작 방식
- KOSIS(통계청 국가통계포털)의 성별, 지역, 산업, 직업, 여행, 여가생활 관련 인구조사 데이터 활용
- 대법원의 출생연도·성별·이름 데이터, 국민건강보험공단의 건강검진 정보, 농촌경제연구원의 식품소비행태조사 결과 활용
- NAVER Cloud가 설계 단계에서 초기 데이터와 도메인 전문 지식 제공
- 독자적인 확률적 그래프 모델(PGM) 과 Apache-2.0 라이선스인 google/gemma-4-31B-it 모델, 그리고 NeMo Data Designer의 검증·평가 방법 사용
- 이름·나이·성별·지역·혼인·가족·주거·학력·전공분야·경제활동·소득·산업군·직업군·혈압·혈당·허리둘레·BMI·여행·여가생활·선호 식당 종류·배달 및 외식 빈도 등 포괄
- 모든 데이터는 실제 분포를 반영하되 완전히 인공적으로 합성되었으며, 실존 인물과의 유사성은 우연에 의한 것
데이터셋 규모 및 구성
- 총 17억 개 토큰(페르소나 10억 개 토큰)으로 구성된 100만 건 레코드
- 26개 필드: 7개 페르소나 필드, 6개 페르소나 속성 필드, 12개 인구통계·지리 컨텍스트 필드, 1개 고유 식별자
- 17개 시도, 252개 시군구의 포괄적 행정구역 커버리지
- 20만 9천여 개 고유 성명 조합 (118개 성씨, 2만 1,400개 이름)
- 7가지 페르소나 유형: 직업, 스포츠, 예술, 여행, 음식, 가족, 요약
- 추가 페르소나 속성: 문화적 배경, 기술 및 전문성, 경력 목표·포부, 취미·관심사
이름 분포
- 현재 우리나라에서 공개된 이름 데이터는 2008년 이후로만 한정
- Nemotron-Personas-Korea는 최초로 1940년부터의 우리나라 이름 전수 데이터를 기반으로 한 공개 데이터셋
- "82세 김하율씨?" "21세 김순자씨?" 같은 시대상에 맞지 않는 이름 배정 문제 해결
- 성씨 분포는 김(21.5%), 이(14.7%), 박(8.5%), 정(4.8%), 최(4.7%) 등 상위 5개 성이 전체의 약 54% 차지
- 이름은 성별과 출생 연도에 따라 세대별 작명 경향 반영
- 여성: 영숙·정숙·순자 등 고연령대 이름과 지영·유진·지현 등 젊은 세대 이름이 공존
- 남성: 지훈·현우·준호 등 현대적 이름이 상위 차지
- 가장 빈번한 전체 이름은 김영숙으로, 실제 조사결과와 일치
연령 분포
- 중간이 볼록한 항아리형 구조로, 저출산·고령화가 동시에 진행되는 현재 인구 구조를 충실히 반영
- 가장 두꺼운 구간은 50~64세(비중 약 0.09)로, 1960~70년대 베이비붐 세대에 해당
- 70세 이상 고령층에서 여성 비중이 남성보다 뚜렷하게 큼
- 80~89세 구간에서 여성 비율이 남성의 약 1.52배
혼인 상태 분포
- 미혼 비율은 19~24세에서 95% 이상, 30대에서 55%→31%로 감소하여 평균 초혼 연령 31~33세의 만혼 추세와 일치
- 유배우자 비율은 35세부터 64%로 상승, 50대 후반 78% 에서 정점
- 사별은 60대부터 급증해 80대 후반 66%, 90대 74~81% 도달
- 이혼은 50대~60대 초반에서 약 12% 로 가장 높아 황혼 이혼 추세 부합
가구 유형 분포
- 전 연령대에서 부부+미혼자녀 가구가 가장 높은 비중, 19세에서 63.6%로 최고치
- 50대 이후 부부 가구가 급증해 65~69세에서 45.7% 정점
- 1인가구는 20대 초반(15~22%)과 75세 이후(21~32%)에서 이중 봉우리 패턴
- 모+미혼자녀 가구(5~14%)가 부+미혼자녀(2~5%)보다 높아 한부모 가구의 성별 비대칭 확인
학력 수준 분포
- 20~34세 젊은 세대는 4년제 대학 졸업 비율 50% 초과, 전문대 포함 시 약 75%가 대학 이상 학력 보유
- 80세 이상에서는 무학(36%)과 초등학교(37%)가 전체의 73% 차지
- 지역별로 세종(49.0%), 서울(45.1%), 대전(39.7%) 순으로 학사 이상 비율이 높음
- 세종은 정부세종청사 이전에 따른 고학력 공무원·연구직 유입 영향
직업 분포
- 전문가와 사무직이 가장 큰 비중으로, 서비스·지식 기반 경제 구조 반영
- 판매직에서 온라인 쇼핑 판매원(19.8%)이 1위로, 높은 전자상거래 비중 확인
- 단순노무에서 건물 경비원(21.3%)과 건물 청소원(16.0%) 집중
- 군인은 전체 취업자의 약 1% 이며 육군이 2/3 이상 차지
기술적 제약 및 한계
- 공개 데이터 가용성·시의성·PGM 모델의 현실적 제약으로 인해 특정 변수 간 독립성 가정 적용
- 예: 세부 직업 배정 시 성별, 소득, 학력, 전공 등이 독립적으로 영향을 미친다고 가정하며 교호작용 미반영
- 젠더(gender) 에 대한 포괄적 통계는 국내 공공 데이터에 존재하지 않아 미반영
- 만 19세 이상 성인 페르소나만 포함
- 금융, 헬스케어 등 엔터프라이즈 고객 관련 페르소나는 제외
LLM 의존 방식 대비 개선 결과
- LLM에만 의존 시 도시 분포가 순천시·창원시 등에 편중되었으나, Nemotron-Personas-Korea는 경기 화성시·남양주시·서울 송파구 등 실제 인구 비례 분포 반영
- 가족 형태는 1인가구 일변도에서 배우자 동거·배우자+자녀 동거·부모 동거 등 다양한 형태로 확장
- 주거 점유 형태도 자가 100%에서 자가와 임차의 실제 비율 반영
- 음식 분포도 샐러드 일변도에서 비빔밥·일식·치킨·갈비·삼겹살·떡볶이·분식·빵·된장찌개·짜장면 등 실제 식문화 반영
문화 반영 사례
- "퇴근길 동료들과 삼겹살에 소주를 곁들이며 하루의 피로를 푸는 33세 캥거루족 정준 씨" — 서울 송파구 거주, 4년제 대학교, 미혼, 부모 동거 등 한국 사회의 캥거루족 현상 반영
- "심수봉 노래, 가족 단체 채팅방에 사진 올리기를 좋아하는 울산의 73세 김춘희 씨" — 여자, 무학, 배우자 있음, 무직 등 고령 여성 인구 반영
페르소나 데이터셋이 LLM에 도움이 되는 이유
- 사람은 각기 고유의 지식을 보유하며, 페르소나는 이런 고유의 지식을 함축시킨 표현형
- 예: 전기 기사 페르소나는 전기 관련 지식을 LLM으로부터 끌어낼 수 있는 매개체
- 합성 데이터에서 다양성이 매우 중요한 지표이며, 사람이 바로 가장 좋은 다양성의 원천
- "{주어진 페르소나}와 관련된 논리적 추론 문제를 만들어봐" 형태로 페르소나별 다양한 합성 학습 데이터 생성 가능
실제 활용 사례
- 일반적인 툴 사용 성능 향상: 사용자-LLM에게 tool set과 페르소나를 함께 주어 데이터 합성 및 학습. Nemotron-Nano-9B-v2-Japanese가 해당 방법론을 차용해 Nejumi 리더보드 1위 달성. 비슷한 방법을 Nemotron Nano v3와 Super v3에도 도입
- 모델 안전성 향상: Sensitive-safety-category-refusals(SSCR) 데이터셋의 시드 데이터로 활용. SSCR 데이터셋은 nemotron-safety-blend에 포함
사용 방법 및 라이선스
- Python
datasets라이브러리로load_dataset("nvidia/Nemotron-Personas-Korea")호출하여 로드 가능 - CC BY 4.0 라이선스로 상업적·비상업적 용도 모두 자유 사용 가능
- NeMo Data Designer에서 직접 사용할 수 있는 확장 버전도 별도 제공
그렇지 않아도 긱뉴스에 한번 올리려고 했는데..
관련된 페르소나 서비스를 만들고 있습니다.
동일하게 MDIS 데이터를 이용해서 저는 Gemini 를 활용했습니다.
https://github.com/civilian7/korean-people-persona
개인적 필요에 의해
공개된 자료를 sqlite3로 변환할 수 있는 파이썬 프로그램과
mcp 서버 샘플을 만들어 올림.
해당 데이터셋에 대한 발표자료를 참고해서 설명을 보강했습니다.