"화나서 물어보면 AI가 더 잘 답할까?" 하버드 연구진이 6개 벤치마크로 실험한 결과, 감정 표현은 LLM 성능에 거의 영향을 미치지 않았다. 단, 감정을 질문별로 적응적으로 선택하면 일관된 성능 향상이 가능하다는 것이 핵심 발견이다.


연구 개요

  • 출처: arXiv:2604.02236v1 (2026년 4월 2일)
  • 저자: Minda Zhao, Yutong Yang 등 (하버드대·브린마우어대 공동 연구)
  • 핵심 질문: 프롬프트에 감정적 표현을 담으면 LLM의 성능이 달라지는가?

주요 발견 요약

감정적 톤은 인간 커뮤니케이션 전반에 만연하지만, LLM 행동에 미치는 영향은 여전히 불명확하다. 이 연구는 다음 세 가지를 밝혀냈다.

① 고정 감정 프리픽스는 효과가 미미하다
대부분의 태스크-모델 조합에서 감정적 프레이밍은 중립 기준선 대비 성능을 크게 향상시키거나 저하시키지 않았다. 정적 감정 프롬프팅은 범용 성능 개선 방법으로 작동하지 않는다.

② 감정 강도를 높여도 마찬가지다
"매우 화가 난다", "극도로 두렵다"처럼 강도를 높여도 정확도는 강도 수준에 걸쳐 소폭만 변했으며, 더 강한 표현이 일관된 성능 저하를 유발하지는 않았다.

③ 적응형 감정 선택(EmotionRL)은 효과가 있다
고정된 하나의 감정은 너무 거칠어서 신뢰할 수 없지만, 입력에 따라 조건화된 정책은 더 일관된 성능 향상을 이끌어낼 수 있다.


실험 설계

실험 대상 감정 6종

Plutchik의 기본 감정 이론을 기반으로 행복·슬픔·공포·분노·혐오·놀람 6가지를 사용했다.

평가 벤치마크 6종

벤치마크 측정 능력
GSM8K 수학적 추론
BIG-Bench Hard 일반 추론
MedQA 의료 전문 지식
BoolQ 독해
OpenBookQA 상식 추론
SocialIQA 사회적 추론

사용 모델

Qwen3-14B, Llama 3.3-70B, DeepSeek-V3.2 세 가지 오픈소스 모델을 파인튜닝 없이 제로샷 추론 환경에서 평가했다.


세부 결과

태스크별 감정 민감도 차이

GSM8K와 MedQA-US는 감정 전반에 걸쳐 기준선에 매우 근접하게 유지됐으며, 짧은 감정 프리픽스가 엄격하게 제약된 추론과 도메인 특화 객관식 예측에 제한적인 영향을 미침을 시사했다.

전체적인 안정성에서 가장 두드러진 이탈은 SocialIQA에서 나타났다. 여기서는 모델과 감정 전반에 걸친 분산이 눈에 띄게 컸으며, 효과의 방향도 일관되지 않았다. 이는 감정적 맥락이 대인 관계 추론을 요구하는 태스크에서 가장 강하게 상호작용함을 의미한다.

사람이 쓴 감정 vs. LLM이 생성한 감정

사람이 작성한 프리픽스와 LLM이 생성한 프리픽스를 비교한 결과, 두 출처 모두 조건 전반에서 거의 일치하는 정확도를 보였으며 어느 쪽이 일관되게 유리하지도 않았다.


EmotionRL: 적응형 감정 선택 프레임워크

각 입력 질문에 대해 에이전트가 감정 집합 {분노·혐오·공포·행복·슬픔·놀람} 중 하나를 선택하고, 해당 감정 표현을 원본 프롬프트에 앞에 붙여 동결된 LLM에 제출한다.

핵심 구조는 두 단계다.

  • 오프라인 훈련: 각 질문에 대해 6가지 감정을 모두 실험해 보상 벡터를 구축하고, 경량 MLP 정책 네트워크를 학습시킨다.
  • 온라인 추론: 새로운 입력이 들어오면 훈련된 정책이 감정을 선택하고, LLM을 딱 한 번만 호출한다.

고정 감정 프롬프트의 약한 평균 효과는 감정 프레이밍에 유용한 신호가 없다는 의미가 아니다. EmotionRL은 다섯 가지 태스크 전반에서 평균 정적 감정 기준선을 지속적으로 맞추거나 초과했다.


결론 및 시사점

우리의 실험은 감정 프롬프팅에 대해 일부 단편적인 긍정 사례들이 시사하는 것보다 더 보수적인 견해를 지지한다. 정확도 기반 표준 벤치마크에서, 고정된 감정 프리픽스는 일반적으로 너무 약하고 이질적이어서 신뢰할 수 있는 성능 개입 수단이 될 수 없다.

연구진은 감정 프롬프팅을 "범용 템플릿"이 아닌 "적응형 라우팅 문제" 로 재정의할 것을 제안한다.

한계점

이 연구는 짧은 프리픽스, 단일 턴 프롬프팅, 정확도 중심 벤치마크에 집중했다. 멀티턴 상호작용, 개방형 생성, 안전 민감 대화처럼 정확도만큼 보정·스타일·공감이 중요한 평가에서는 더 크거나 질적으로 다른 효과가 나타날 수 있다.


원문: "Do Emotions in Prompts Matter? Effects of Emotional Framing on Large Language Models" — arXiv:2604.02236v1

엥 여태 화를 냈던게 다 소용이 없었다고...?? 분명 욕하면 기깔나게 만들어줬었는데