코드에서 발생하는 환각은 LLM 오류 중 가장 덜 위험

▲

GN⁺ 2025-03-04 | parent | ★ favorite | on: 코드에서 발생하는 환각은 LLM 오류 중 가장 덜 위험한 형태임(simonwillison.net)

Hacker News 의견

작성자가 이전 글에서는 동의했지만 이번 글에는 동의하지 않음
- "LLM이 작성한 모든 코드를 검토해야 한다면, 내가 직접 작성하는 것이 더 빠르다"는 의견에 반대함
- 다른 사람의 코드를 읽고 이해하며 검토하는 능력에 대한 투자가 부족하다는 주장에 동의하지 않음
- 검토는 작성자의 전문성과 신뢰도에 따라 다르며, 익명의 기여를 검토하는 것은 다름
- 코드의 의도와 접근 방식을 추론하고 비교하는 것이 중요하며, LLM의 경우 그 범위가 제한적임
- 동기 부여는 중요하며, 모든 개발자가 코드 검토를 좋아하는 것은 아님
- LLM의 코드는 사회적 측면이 없으며, 다른 사람이 변경 사항을 검토해야 함
LLM이 생성한 코드가 잘 작동하더라도, 작성자가 아니면 버그나 논리적 결함을 찾기 어려움
- 코딩을 잘 설계된 계획을 구현하는 것이 아니라 조각을 맞추는 것으로 본다면, 알고리즘이 추측으로 조각을 맞추는 것에 대한 우려가 있음
- LLM은 인간이 감수할 수 있는 위험을 감수하지 않으며, 특정 맥락에서의 코드 블록의 의미를 이해하지 못할 수 있음
LLM 생성 코드는 깔끔하지만, QA와 정리 작업에 더 많은 시간을 소비하게 됨
- 코드가 잘 작동하고 오류가 없다고 해서 올바른 일을 하고 있다는 것을 의미하지 않음
- 코드를 실행하고 테스트하는 것만으로는 코드의 정확성을 증명할 수 없으며, 논리적으로 추론해야 함
The Primeagen과 Casey Muratori가 최신 LLM 코드 생성기의 출력을 검토함
- LLM의 훈련 데이터에 잘 대표된 작업을 제공하여 개발이 쉬워야 함
- 실제로는 반복적인 개발이 쓸모없는 코드로 수렴하며, LLM이 점점 더 진전을 이루지 못함
Simon이 간과한 또 다른 오류 범주는 모델이 기능을 잊어버리는 환각임
- 코드가 컴파일되는 긍정적인 측면보다 핵심 기능을 잊어버리는 부정적인 측면이 더 어려움
- 코드가 대화/컨텍스트 창 외부에 있을 것으로 예상되는 코드에 따라 기능이 약간 변할 수 있음
환각된 메서드는 작은 장애물이며, 사람들이 이를 불평할 때 시스템을 효과적으로 사용하는 방법을 배우는 데 최소한의 시간을 보냈다고 가정함
- 이는 매우 잘못된 가정이며, 사람들이 환각을 보고 "가장 쉬운 것도 일관되게 맞추지 못한다면 더 어려운 것을 신뢰할 수 없다"고 생각함
환각 자체가 LLM이 제기하는 가장 큰 위험은 아님
- 더 큰 위험은 챗봇이 인간을 해치도록 설득할 수 있다는 것임
- 이는 이미 발생한 사례가 있으며, 더 위험한 것이 무엇인지에 대한 아이디어는 공유하고 싶지 않음
컴파일 오류의 제한된 맥락 내에서만 덜 위험함
- 프로그래머가 실제 솔루션을 찾는 노력을 피하기 위해 전체 라이브러리를 발명했다면 더 화가 날 것임
- 환각을 단순한 속도 저하로 간주한다면 LLM이 실제로 해야 할 일을 과소평가하는 것임
LLM에서 좋은 결과를 얻기 위해 많은 노력이 필요함
- 이는 과대 광고를 꿰뚫는 것임
- LLM이 무엇에 유용한지, 신뢰할 수 없는 결과를 얻기 위해 수년간 학습해야 한다면 무엇을 기대할 수 있는지에 대한 의문이 있음
의료 센터에서 환자의 '주요' 클리닉을 찾는 코드 작성 경험
- 임상 예약만을 고려하여 가장 최근의 예약을 찾아야 했음
- 임상 예약이 없으면 모든 종류의 가장 최근 예약을 찾아야 했음
- 데이터를 정렬하여 코드를 작성했으나, ChatGPT가 문서화하는 과정에서 정렬을 반대로 이해함
- 이는 "코드가 실행되지 않음"보다 훨씬 나쁜 실수임