LLM 시스템을 평가하는 방법

winterjung 2025-04-03 | parent | ★ favorite | on: LLM 시스템을 평가하는 방법(thoughtworks.com)

경험상으로도 그렇고 https://blog.lawrencejones.dev/ai-mvp/ 같은 다른 사례에서도 보이듯 최신 모델이 무조건 더 나은 결과를 보장하진 않더라구요. 모델이나 프롬프트를 튜닝할 때 마다 데이터 셋을 통해 evaluation을 해줘야하는데, 아무리 llm이 판단을 보조해준다고해도 사람이 llm 모델을 위해 ground truth 데이터 셋을 일일이 손으로 생성해줘야하는게 조금 아이러니하기도 합니다ㅎㅎ