AI 답변에는 실수가 포함될 수 있음
(os2museum.com)- AI 검색 요약이 항상 정확하지 않음
- PS/2 Model 280에 대한 다양한 정보가 반복 조회 시마다 다르게 제공됨
- 존재하지 않는 모델 번호도 그럴듯하게 설명하는 AI의 환각 문제 발생
- 옳은 답변이 나오는 확률은 매우 낮은 수준임
- 비전문가는 잘못된 정보를 쉽게 진실로 오해할 위험성이 높음
AI 검색 요약의 신뢰성 문제 경험
IBM PS/2 모델 검색 시도
- 1992년 출시된 PS/2 Server 시스템의 특정 모델을 찾으려 Google에 검색 진행
- 검색 결과로 나온 정보는 찾던 기계와 일치하지 않았으며, 원래의 모델은 486 프로세서(복수형) 와 Microchannel(MCA) 사용 특성이 있었음
반복된 결과와 답변의 불일치
- 동일 쿼리를 재실행했음에도 AI 요약 결과가 매번 다르게 나타남
- 예를 들어, 계속해서 PS/2 Model 280이 286 기반의 ISA 시스템이라는 주장을 반복함
- 각각의 답변에서 RAM 용량 및 사양 정보마저 바뀌어서 일관성 없는 데이터 제시 현상 확인
존재하지 않는 모델에 대한 환각적 설명
- 여러 번 질의한 결과, 286 시스템이 128MB까지 확장 가능하다는 주장 등, 기술적으로 불가능한 정보도 생성됨
- PS/2 Model 280이 IBM PC 라인업의 주요 발전이었다는 설명까지 추가적으로 등장
- 실제로는 PS/2 Model 280 자체가 존재하지 않음에도, AI가 근거 없는 설명을 매우 그럴듯하게 제공함
올바른 답변의 낮은 빈도
- 여러 차례 쿼리 시도를 거친 후에야 간헐적으로 “Model 280은 실제 PS/2 시리즈 내 존재하지 않는다”는 올바른 답이 나옴
- 정확한 답변이 나타나는 비율은 매우 낮고 대부분의 경우, AI는 근거 없는 정보를 창조함
- 환각된 답변은 정보로서 가치가 없으며 오히려 잘못된 확신을 제공함
AI 검색 요약의 맹신 경계
- AI 기반 인터넷 검색은 비전문가에게 매우 그럴듯하게 보일 수 있음
- 전문가라면 금세 실수를 간파하겠지만, 정보 확인 능력이 부족한 사용자 입장에서는 허위 정보에 쉽게 현혹됨
- AI가 “실수를 할 수 있다”는 경고는 결코 가벼이 흘려들을 사안이 아니며, 신뢰할 수 있는 사실 확인 과정 없이 AI 답변에 의존하는 것은 위험함
- 설득력 있게 들린다고 해서 실제 사실에 기반하는 것은 아님을 강조
- AI 기반 요약이나 검색 결과에 대해 항상 의심과 사실 확인의 필요성 상기
Hacker News 의견
-
Google Gemini의 검색 결과가 질문에 맞는 것처럼 보이게 아무렇게나 답변을 만들어내는 confabulation 특성 언급, 맥락과 정확성에 신경 쓰지 않는다는 점 지적, 결과를 예상하고 있는 경우에만 기억 보조로 쓸 수 있지만 그렇지 않으면 전혀 신뢰하지 못하겠다는 경험담 공유, Google Veo 결과도 구멍이 매우 많음, AI 결과에 논리나 추론이 없는 것이 뻔히 드러난다는 이야기, Veo가 엉뚱한 결과를 내놓는 예시와 Tesla FSD가 이상 행동을 하는 사고 사례 기사 링크 공유
[AI 비디오 리얼리즘] (https://arstechnica.com/ai/2025/05/ai-video-just-took-a-star...)
[Tesla FSD 사고 뉴스] (https://electrek.co/2025/05/23/tesla-full-self-driving-veers...)-
이런 품질의 결과가 어느새 '정상', '수용 가능'한 것으로 받아들여지는 분위기 형성, 아무도 별로 문제 삼지 않는 현실이 굉장히 걱정스러운 포인트, 예전 같으면 절대 용납불가였을 텐데 왜 지금은 부정확한 결과가 점점 받아들여지는지 의문
-
자동차 관련 기능을 구글링했는데 기존 Google 검색은 이런 쿼리를 정말 잘 처리했었으나, 이제는 90%가 틀린 연식, 모델, 브랜드 정보가 뒤섞인 AI 결과물로 도배된다는 경험담, 유일하게 약간 도움이 된 건 유튜브 하나였고, 페이지 맨 아래 구석에 예전 car forum에 있던 정답이 있었기에 CamaroZ28.com에 감사 전함
-
이런 상황이 그 어떤 기술보다 당황스러운 현상, Google이 자신의 핵심 비즈니스를 이처럼 심각하게 결함 있는 기술의 방향 전환에 베팅하고 있다는 점이 이해가 안 됨, Ben Evans처럼 '더 좋아질 것'이라는 약속도 빈말에 불과하다고 생각, 실제로 어제 독일에서 열린 추모 이벤트를 검색했더니 AI Overview가 이미 죽은 이탈리아 뮤지션의 이름을 가져다가 그 공연장이 그 뮤지션의 최고의 작품이라고 지어내버린 사례 공유, ChatGPT에 그 답변을 붙여넣으니 AI Overview의 오류를 조롱하는 사근적이고 날카로운 답변까지 받아서 웃긴 경험
-
AI가 표면적으로는 역대급으로 똑똑한 척 하는데 정작 내부 논리나 추론은 따라가지 못해 기묘한 '언캐니 밸리'로 들어선 느낌
-
솔직히 LLM을 검색 대체로 쓰는 사람들이 어떻게 사용하는지 이해가 잘 안됨, 챗봇들은 항상 내가 원하는 정보와 인접한 데이터(예: 소스를 물으면 인용문만 주는 식)만 주는 수준, 혹시 내가 검색을 잘못 쓴 건지 의문
-
-
LLM의 한계와 확률론적 특성을 아는 입장이지만, 주변 가족이나 친구가 LLM을 신뢰해서 부적합한 업무에 쓰는 모습을 보면 나만 AI 회의론자로 여긴다고 토로, 이들은 AI로 숫자 나누기(예: 더치페이) 같은 것도 시키고, LLM의 결과를 무조건 신뢰하는 문제 있음
-
고기술로 저기술 문제를 푼다는 고전적 사례, 단순한 수 계산도 꼭 기계한테 맡기는 걸 야유
-
일상 용도에서는 결과가 '적당히' 맞는 경우가 많아서, 사람들이 습관적으로 의존하게 되는 점이 tricky한 부분
-
단순 계산을 LLM에 시키는 게 사실 꽤 웃긴 일, 변수에 Python 써주게 시키면 좋겠다는 농담도 해봄
-
LLM 사용 자체가 (실내 흡연처럼) 주변에도 피해를 주는 일이라는 비유
-
'AI로 계산시키고, 정보 찾아달라고 말하면 그 결과를 100% 신뢰한다'는 현상에 대해, 사실 이 정도 단순 기계적 용도는 현 시점 챗봇들이 다 맞혀주지 않냐는 의견, 다양한 기능을 한 번에 처리할 수 있는데 굳이 상황별로 앱 전환할 필요 있냐는 의문, 결국 사용성(Usability)이 가장 강력한 동인
-
-
"AI 답변에는 오류가 있을 수 있다"라는 간단한 문구나 ChatGPT 하단의 경고가 이미 부족한 수준이라는 지적, LLM의 환각(hallucination)을 수년간 경고해도 사람들은 계속 실수하고 있다며, LLM 제공자는 더 공격적으로 사용자에게 한계성을 교육해야 한다는 주장, 사용자 경험에 불편이 생겨도 필수적이라 생각
-
이러한 논의에서 더 할 수 있는 건 모델 제공자에게 책임을 지우거나, 현재의 제한된 사전 고지 체계를 유지하는 것뿐이라는 생각, 이미 AI 모형, 클라우드 서비스들은 다층적으로 필터링과 검열이 존재, 이보다 더한 마찰이란 결국 팝업 추가 같은 소소한 것에 불과, 책임을 모델 제공자에게 묻기 시작하면 그 순간 공개형 모델 사업 자체가 불가능, 기업끼리 따로 라이센싱 계약하여 쓸 뿐 일반 대중에게 API 공개 자체가 불가능, 향후 분위기 변화를 통해 제한이 조금씩 풀릴 가능성 정도만 예상
-
'사용자 교육이 더 효과적으로 이뤄져야 한다'라는 주장에 대해, 결국 경험에서 배우는 수밖에 없는 '직접 당해야 실감하는' 문제라는 의견, 어떤 경고문도 실제 피해를 주는 일만큼 효과적일 수 없다는 현실론
-
LLM은 본질적으로 인간 지식 노동 대체라는 명분이 있기 때문에 제공자가 적극적으로 한계성을 강조할 수 없다는 시각, Anthropic CEO처럼 대규모 실직이 불가피하다고 수차례 언급된 것과 모순 제기
-
예전 Apple 지도서비스, Google 지도도 잘못된 안내로 PR 위기 관리를 했던 시절 언급, 지금은 경고문만 붙여놓으면 아무 문제 없다는 식의 분위기, 신기술이 너무 많은 관용을 받는 현실에 실망감 전달
-
'경고문은 페이지 맨 위, 붉은 글씨로 크게 노출해야 한다'고 강조
-
-
언어모델은 지식을 '알기' 위해 설계된 것이 아니라 '말하기' 위해 만들어진 것임을 설명, 그래서 'knowledge model'이 아닌 'language model'이라 부름, 이미 생성된 단어 뒤에 어떤 단어가 올지 확률적으로 이어붙이는 것뿐임, 매번 다른 결과를 내놓는 이유는 내부적으로 의사 난수 발생기로 다음 단어를 뽑는 확률 분포가 존재하기 때문, 온도(temperature)를 0으로 하면 무작위성이 사라지고 항상 가장 확률 높은 단어만 택함, 이때 결과물은 매우 지루함, IBM, PS/2, 80286, 80486 등의 사안에 대해 사실 아는 게 아니라, 그저 단어 시퀀싱만 할 뿐임
-
온도를 0으로 해도 로컬 모델에선 충분히 잘 동작한다는 경험, 클라우드 기반 UI에서 0을 막은 건 모델이 무한 반복 루프에 빠지는 버그를 대중이 목격하는 걸 막으려는 목적 때문
-
언어모델이 '지식'을 제공하는 게 아니라 말만 만들어낸다는 사실 자체엔 동의하지만, Google을 쓰는 사람 입장에선 대화하려고 간 게 아니라 실제 '지식'을 얻고자 이용함, Google이 신뢰성 있는 지식 제공을 단순 '단어 생성'으로 대체하려 든 건 본질적 오류라고 생각, 하지만 광고수익이 목적이기 때문에 실제론 별 상관없을 수도 있음
-
-
Google 검색 사이트에서 조차 'AI 답변엔 오류가 있을 수 있음' 경고문이 '더보기' 버튼 아래 숨겨져 있다는 점 꼬집음, OpenAI ChatGPT가 출시됐을 때, 비전공 교수에게 지금의 AI는 '진짜 AI'가 아니라 연산 기반 말장난(parlor trick)에 가깝다고 설명한 경험 있음, 하지만 이런 '말장난'이 과제를 베끼는 데엔 놀라울 정도로 효과적, 전체적으로 과제뿐 아니라 여러 가지 일에서 품질이나 저작권에 신경 쓰지 않는다면 '치팅'에 아주 좋은 도구라는 인상
-
'겉으로만 코드 짤 수 있는 것처럼 보이고, 사실 실제론 못 짠다'는 견해에 의문, 실제로 코드도 짜줄 수 있는데 뒷단에서 무슨 일이 일어나는지는 사람 뇌도 마찬가지로 아무도 모름, 이런 본질 논쟁이 큰 의미 없고 실제 결과가 중요하다고 주장
-
유연한 입력/출력 인터페이스를 가진 기억력 보조/정보 검색 툴이라는 실용적 관점
-
-
Gemini는 사람들이 자주 묻는 질문류엔 최적화된 반면, 더 전통적인 검색 의도엔 오히려 엉뚱한 선동성(Confabulated) 답을 주는 경향이 있음, 많은 사람들이 AI Overview를 예언자(oracle)처럼 신뢰하는 걸 목격했음, 이게 일반 대중의 AI 체험방식, '뉴스'에 대한 신뢰와 달리 AI는 나이 불문, demographic 상관없이 모두가 신뢰해버림, 본질적으로 인간은 근거 없는 자신감에 기반한 컴퓨터 답변을 좋아하는 종족 같다는 생각
-
Google의 검색 환경 변화가 특히 심각하다고 평가, 예전엔 페이지 상단 excerpt UI가 10년 넘게 사용, 신뢰할 만한 사이트에서 발췌해줬고 클릭 수 절약, 믿을 수 있는 정보원이었다고 회상, 의료 질문 땐 Mayo Clinic 같이 믿을 만한 곳에서 인용되어, 페이지에서 직접 찾을 수 있어 신뢰 쌓임, 시간이 지날수록 이 신뢰 시스템이 SEO에 의해 점점 훼손, 현재는 AI Overview라는 본질적으로 다른 시스템으로 대체된 것이 핵심 문제, 신뢰할 수 있는 유효 출처가 실시간으로 검증가능했던 시절과 확연한 차이
-
직접 LLM을 쓰지 않는 사람만이 아니라, LLM을 전문으로 쓰는 매니저조차 자신을 확인시키는 답이 나올 때까지 질문을 바꿔가며 원하는 답을 찾아냄
-
사람들은 근거 없는 확신에 기반한 답변 자체를 원래 좋아한다는 근본적 심리 언급
-
이제는 무언가를 검색해 배울 수 있던 인터넷 환경이 사라졌다고 체감, 모든 결과가 신뢰할 수 없는 SEO 스팸 쓰레기라 더 심해졌고, AI Overview로 더 심각해질 것 같다는 우려, '프린터 동작 원리'를 검색하면 심지어 '도르래와 밧줄 시스템' 같은 어처구니 없는 대답이 나와도 곧이 곧대로 믿는 시대가 올 것 같은 무서움, 실제로 이런 말도 안 되는, 때론 위험한 오답을 매번 목격했다는 성찰
-
-
"AI 답변에는 실수가 포함될 수 있다"는 메시지가야말로 AI 논의에서 가장 청중들에게 외치고 싶은 핵심, 모든 AI 윤리/안전 논의에서 이 포인트와 에너지/기후 영향이 중심이 되어야 함, 이 두 가지가 AI 열풍이 계속될 경우 인류에 가장 큰 피해가 될 것
- 문제는 '실수가 있을 수 있다'가 아니라 '반드시 실수가 발생한다'는 점, 근데 사람들은 이를 자각하지 못하고 만능 예언자처럼 신봉, 실제론 단순 확률모델에 불과, 원숭이도 시도만 충분하면 셰익스피어를 쓸 확률 있음
-
Google이 검색의 근본을 완전히 잘못 잡았다는 비판, 이제는 답의 정확성보다는 빠른 요약과 스폰서 링크에만 집중한다는 비판
-
빠른 답변 10개 중 6개는 미묘하게 틀렸고, 2개는 노골적으로 틀림, 1개는 아예 위험하다고 경험, 실제로 사람을 다치게 하거나 법적 문제를 일으킬 수도 있는 답변이 있음
-
Eric Schmidt 시대 Google의 '무응답보단 어떤 답변이라도 많은 게 낫다' 전략이 이제 '틀린 답이라도 없는 것보단 낫다'라는 식으로 진화한 것으로 봄
-
-
AI는 항상 근거 없이 자신만만하게 뭐든 대답하는 사람과 비슷, 그래서 진지하게 신뢰할 이유가 거의 없다는 견해
-
심리적 요인이 핵심, 사람들은 누군가가 자신 없는 모습을 보일 때 비언어적 신호로 그걸 감지한다, 하지만 AI는 그런 신호가 없고, 기계가 내놓는 답은 본래 정확한 답이라는 오랜 신뢰가 있음, 비판적으로 접근하는 사람 비율이 매우 낮음
-
아직 어떤 AI 회사도 자사 제품명을 'Cliff Clavin'으로 할 배짱이 없음, 실명 위험과 여러 용기의 문제까지 농담 추가
-
'도대체 왜 AI를 진심으로 신뢰하는지 모르겠다'는 주장에 대해, '수십 년간 전 세계 정보 제공을 목표로 하고 정확한 답을 제공하려고 노력해온 Google과 같은 기업이 이를 AI로 제공한다고 할 때, 사람들이 신뢰하는 게 당연하지 않냐'는 반문
-
-
최근 ChatGPT와 Python 코드를 다루던 경험에서, Gunicorn의 로거 클래스를 특정 URL 패스에서 제외하려고 직접 3가지 솔루션 만들어 각각의 속도를 비교해달라고 챗봇에 요청, 벤치마크 코드와 함께 regex가 가장 빠르다는 결과를 받았으나, 직접 실행해보니 tuple 방식이 5배 이상 더 빠름, 직접 결과를 알렸더니 '알려줘서 고맙다, tuple 방식이 맞다'며 바로 수정하는 챗봇, 필요한 벤치마크 코드를 빠르게 받아 시간은 절약됐지만, 정답에 확신 없는 영역에선 챗봇 결과를 잘 신뢰하지 않게 되는 경험