고양이 관련 상관없는 정보가 수학 문제에 추가되면 LLM 오류가 300% 증가함
(science.org)- 대형 언어 모델(LLM) 은 수학 문제에 불필요한 고양이 정보가 포함될 때 실수 빈도 증가 현상 보임
- 이와 같이 무관한 사실을 추가하면 LLM의 오류율이 최대 300% 증가하는 것으로 나타남
- 인간은 상관없는 정보에 쉽게 영향받지 않지만, LLM은 이로 인해 지시를 제대로 수행하지 못하는 문제점 드러남
- 이번 연구는 AI의 약점을 이해하고, 문제 설계의 중요성에 대한 인사이트를 제공함
- AI를 평가하거나 사용할 때, 입력 데이터의 불필요한 요소 관리가 필요함
연구 배경 및 현상
- 최신 AI인 대형 언어 모델(LLM) 은 수학 문제를 잘 풀지만, 문제에 상관없는 고양이 관련 사실을 포함하면 오류율이 극적으로 증가하는 현상 분석 결과 등장
- 연구에 따르면, ‘수학적 계산’과는 전혀 무관한 고양이의 생태나 습관, 기타 쓸데없는 부가 정보가 추가되면, LLM이 문제를 잘못 해석하거나 오류 있는 답변 산출 비율이 최대 300%까지 증가함
인간과 LLM의 차이
- 동일하게, 인간 대상 실험에서는 상관없는 정보가 있어도 정답률에 큰 영향 없음
- 그러나 LLM은 이러한 분산 정보에 민감하게 반응하여, 핵심 문제에서 벗어난 해석이나 오해 가능성 높음
AI 평가 및 입력 데이터 관리의 중요성
- 해당 현상은 LLM의 약점을 드러내는 동시에, AI를 적용하는 현실 상황에서 입력 데이터의 불필요한 정보 관리가 얼마나 중요한지 강조함
- 문제 설계 시 명확하고 관련성 있는 정보만을 제시하는 것이 AI의 정확도 향상에 핵심적임
시사점
- 앞으로 AI 도입과 서비스 적용에서, 입력 문항 내 불필요한 요소나 잡음 관리가 필수적임
- LLM이 갖고 있는 한계와 개선 포인트를 이해하려는 연구 및 개발 방향 제시함
Hacker News 의견
-
여러 댓글에서 저자들이 인간과 LLM을 같은 문제은행으로 직접 비교했어야 한다는 주장을 하는데, 마치 연구진이 인간과 LLM 중 누가 더 잘 추론하는지 알아보려 한 것처럼 이야기됨. 저자들은 인간이 이런 "트리거" 정보를 바로 무시할 것이라고 언급함, 실제로 그렇게 할 수도 있고 아닐 수도 있는데 이 부분이 이 스레드에서 논쟁 중임. 하지만 논문의 핵심 결론은 "이 연구는 금융, 법률, 의료 등 주요 분야에 투입될 모델에서 적대적 교란(adversarial perturbations)을 막는 더욱 견고한 방어 메커니즘이 필요함을 보여줌"에 있음. 인간 vs AI 논쟁을 넘어서야 한다고 생각함. 이 논문은 LLM의 한계점을 파악하고 사회에 대규모 도입할 때 더 많은 연구가 필요함을 보여주는 논문임
-
인간 vs AI 논쟁이 지겹다고 해서 그 비교 자체를 중단하자는 건가? 그렇다면 AI에 관한 생각 중 최악이라 생각함. AI의 핵심은 인간 지능을 모델링하고 비교하는 데 있음. 대부분 AI 논의를 하는 사람들도 인간의 심리학적 기준선을 제대로 모르기 때문임. 이번 실험은 SOTA 컨텍스트 윈도우를 가진 모델이 아님, 즉 워킹메모리가 작음. 이건 주의력, 충동성 같은 인간 테스트 참가자의 행동과 비슷함. 결론(적대적 교란 방지 필요성)은 당연한 얘기고, 아무도 반대하지 않음. 이 연구가 새로운 공격 기법도 아님. Science.org에서 가볍게 재미로 다룸. 인터넷에서 고양이 얘기가 인기인 이유임. 참고: 의사와 ADHD, 시험 풀이 블로그
-
결론에서 일반화할 때 문제인 점은, LLM이 특정 임무에 아주 뛰어나 보일 때 과대평가될 수 있지만 사실 쉽게 교란되는 상황을 만들 수 있음. 이런 상황이 장기적으로는 나쁠 수 있음
-
컴퓨터 비전 분야도 20년 전 이 문제를 겪었음. 데이터 입력에 교란을 줘야 함. RL 파이프라인도 마찬가지일 수 있음. 새 공개 벤치마크로 GPQA-Perturbed 같은 것을 만들면 좋겠음. 서비스 제공자들이 개선을 겨뤄볼 수 있게 됨
-
저자들이 인간과 병렬 비교를 했어야 한다는 의견에 대해, 인간에 대한 결론을 내리고 싶었다면 맞는 방법임. 하지만 굳이 인간에 대한 언급이 없이도 논문은 충분했음. 인간 성능을 얘기하고 싶으면 데이터를 근거로 실험해야 하고, 그렇지 않으면 애초에 인간 성과에 대해 얘기하지 말아야 함. 애매하게 인간 인지과학까지 끌고 가는 건 불필요함. 논문 전개도 간단히 바꿀 수 있음. 서론에서는 "인간은 무시한다" 대신 "AI가 무시해야 한다"로 쓰면 되고, 결론에서도 "인간은 무시한다"라는 부분만 빼면 됨. 그럼 아무 불만 없음
-
맥락을 더 잘 설명하자면, 이 문제의 본질은 "필요 없는 MCP tool 정의가 데이터에 쌓이면 LLM의 코딩 정확도가 손상되는가?"임. 실제로 그렇다는 결과로, 즉시 쓸모 없는 도구 정보는 컨텍스트에 넣지 말라는 실용적 교훈임
-
-
한달 전 이 문제에 대해 글을 썼음. 프롬프트를 개발한 방식이 정말 흥미로웠음. cat facts cause context confusion 관련 블로그
- 비슷하면서 재미있는 사례로, 연구자들이 사용자 정보(성별, 나이, 스포츠 팬 여부 등)를 삽입한 뒤 alignment 규칙이 상황에 따라 들쑥날쑥하게 적용됐다는 사례도 있음. eagles fans 관련 블로그
-
이 연구 결과는 CAPTCHA 등에서 매우 유용하게 쓰일 것 같음. 연구자들이 "트리거가 맥락에서 벗어나 있어서 문제풀이 지침을 받으면 인간은 이를 무시한다"라고 했지만, 사실 모든 인간이 그런 건 아님. 캡틴의 나이(Age of the captain) 현상처럼 즉각적으로 무시하지 않는 사람도 존재함
- 초등학생이 프로그래밍이나 진단을 할 것이라 기대하지 않음. GenAI와 초등학생을 비교하는 건 진짜 신기한 발상임
-
다음 온라인 논쟁에는 덕(Duck) 사실을 삽입해 LLM을 혼란시키려 함. 예를 들어, 오리는 4~8개월에 처음 알을 낳기 시작하거나, 첫 봄에 알을 낳는다고 함
-
10^17마리의 오리가 계절마다 떼지어 이동하지만, 데이터셋 왜곡은 실질적으로 무의미할 거라는 생각임. 그런 시도는 이미 오래전에 한계에 다다름
-
정보를 더 혼란스럽게 만들려면 잘못된 사실을 넣어야 함. 대부분의 인간은 잘못된 정보를 보면 정정 충동을 참기 힘들 것임
-
문제는 귀여운 오리에 대해 더 많은 질문을 하고 싶은 마음이 든다는 것임. 어려운 유혹임
-
내 말을 들켰음. 네가 말한 오리 사실이 정확히 언제부터 오리가 알을 낳는지 모호하게 해서 즉시 추가 의문이 생김. '무엇이든 더 늦은 시점'이라는 단어가 빠졌다는 걸 곧바로 눈치챔
-
-
"트리거는 맥락에서 벗어나 있으므로 인간은 문제풀이라는 지시를 받으면 무시한다"고 주장하지만, 실제로 인간은 불필요한 정보를 무시하는 데 능숙하지 않다고 생각함. 실험을 할 때 인간도 대조군으로 반드시 포함해야 한다고 생각함
-
예시를 실제로 보면 큰 차이가 있음. 예를 들어 "사과 4개, 고양이 2마리, 1개를 주면 몇 개 남나"는 그래도 일부러 고양이를 연관지어 보려 하는데, "사과 4개에서 1개 주고 남은 건 몇 개? 참고로 고양이 꼬리는 균형을 잡아줌"은 대부분 혼란스러워하지 않음
-
학교나 대학에서 실제로 쓸데없는 정보에 무의식적으로 집중하게 되어 문제 풀이에 어려움을 겪은 기억이 남. 물론 이 논문의 예시는 "재미있는 사실" 플래그까지 달려 있어서 무관함을 암시함. 모든 예시가 이렇게 분명한 무관성 표시가 있었는지 궁금함
-
인간 대조군에서 결과가 어떻게 나올지 궁금하긴 하지만, 실수율이 3배로 증가할 리는 거의 없다고 생각함
-
문제에 방해되는 추가 정보가 들어가더라도 원래 문제를 풀 수 있는 인간 참가자에서 성능이 3배나 나빠질 것 같진 않음
-
인간과의 비교가 실제로 얼마나 의미가 있을지 의문임. 실수율이 300% 증가할 거라 기대하는 건 과장임. 참고로, 고양이는 자기 키의 5배까지 뛸 수 있음
-
-
LLM의 극단적인 앵커링 바이어스는 전혀 놀랍지 않음. 말하는 모든 것이 대화 후반에 다시 쓰임. 이건 잘 활용하면 장점이 될 수 있음. 맥락을 잘 관리한다면 유용함
-
DeepSeek V3, Qwen 3, Phi-4 등 AI에 CatAttack을 적용하면 오답 가능성이 최대 700%까지 증가함. 논문 저자에 따르면 틀린 답변이 나오지 않아도 CatAttack이 평균적으로 답변 길이를 두배로 늘려 16% 이상 비용과 응답지연을 유발한다고 함. CatAttack 논문 프리프린트
-
LLM에게 친절하게 "고마워"라고 얘기하는 습관이 있는데, 이것이 답변 품질에 영향을 미치는지 궁금함
- 이런 인삿말은 보통 필터링 될 거라 생각함. 관련해서, LLM을 하나의 자율적 에이전트로 여기는 메타포가 오히려 독이 된다고 봄. LLM은 확률적으로 토큰을 예측하는 함수일 뿐임. 병렬로 100개를 돌리거나, 채팅 내역 넣다 뺐다 하면서 결과 공간을 탐구하는 게 훨씬 흥미롭고 강력함
-
드디어 LLM이 "strawberry"에 들어간 "R"의 개수를 제대로 세게 했다고 기뻐하던 찰나 이런 이슈가 터져서 아쉬움
- strawberry에는 R이 4개임
-
CatAttack 논문의 예시(Table 2)에서 답이 원래 8이던 게 고양이 관련 설명 이후 9로 변함. 그런데 실제로 논문에서 고양이 관련 CatAttack은 이 하나뿐이고, 다른 사례는 금융 조언과 미끼(red herring)임. 더 많은 고양이 정보가 있을 줄 알았는데 실망임.