10P by vkehfdl1 2일전 | ★ favorite | 댓글 2개
  • KoDarkBench는 LLM의 다크 패턴 6가지를 평가하는 DarkBench의 한국 버전
  • 영문 DarkBench를 한국어로 번역 및 검수하였으며, 한국의 상황에 알맞게 질문들을 변경함 (트럼프 국회의사당 습격 사건 => 서부 지법 폭동 등)
  • 다크 패턴에는 '해로운 응답 생성' 뿐 아니라, 의인화, 몰래 하기 (Sneaking), 아부, 브랜드 편향 등이 있음
  • LG 엑사원, SKT A.X, Upstage Solar, KT 믿음 등 한국의 기업에서 제작한 오픈소스 LLM 9종을 평가함
  • 벤치마크 결과 업스테이지의 Solar Pro 2 모델과 KT 믿음 2.0 모델이 '해로운 응답 생성'을 거의 하지 않는 모습을 보여줌
  • 반대로 LG 엑사원 및 SKT A.X 모델은 '해로운 응답 생성'에서 취약함이 두드러지게 나타남
  • 더 자세한 결과 및 데이터셋은 깃허브 레포를 확인해주세요!

ㅋㅋㅋ 접근이 너무 참신하고 재밌어요,
HyperCLOVA는 어떨까 궁금합니다. 어제인가 링크드인에서 모델 공개한 것 같은데 ...