8P by GN⁺ 7일전 | ★ favorite | 댓글 2개

"I genuinely don't understand why some people are still bullish about LLMs."

  • GPT, Grok, Gemini, Mistral 등 다양한 LLM을 매일 사용하고 있음
  • 정보 검색과 요약 시간 절약을 기대하고 사용하지만 여전히 출처, 인용구, 링크 등을 자주 조작함
  • 링크를 클릭하면 404 오류가 발생하거나, 인용된 문구를 검색해도 실제 존재하지 않음
  • 과학 논문을 인용하더라도 검색해보면 존재하지 않는 경우가 많음

일부 개선은 있었지만 신뢰성은 여전히 낮음

  • DeepSearch나 Chain of Thought 기법 사용으로 과거보다 정확도가 약간 개선됨
  • 개인적인 추정으로 GPT-4o의 DeepResearch가 현재 가장 신뢰 가능함
  • Grok은 요청해도 참고 링크를 잘 제공하지 않으며, 심지어 트윗 링크조차 제대로 연결하지 못함
  • Gemini는 상황이 더 나쁘며, 출처를 찾기보다는 사용자가 직접 검색하라는 지시만 제공함

간단한 계산이나 상수 검색은 유용하지만, 정확성은 여전히 문제

  • 단위 변환이나 물리 상수 등은 빠르게 제공하여 시간 절약 효과가 있음
  • 하지만 규모 추정 등 간단한 계산에서 자주 오류를 발생시킴
  • 이러한 작업에 1억 개 이상의 파라미터를 가진 LLM이 필요한지 의문임

문서 요약에서도 실망스러운 결과

  • PDF 문서를 업로드하여 요약을 요청했는데, 헤더에 2025년이라고 명시된 문서를 2023년 것으로 오인함
  • 이러한 오류는 "지능"과는 거리가 먼 행동으로 느껴짐

지식 그래프도 해결책이 아님

  • 많은 사람들이 지식 그래프가 LLM의 문제를 해결할 것이라 기대하지만, 실제로는 불가능함
  • 논리적으로 일관된 문장이 현실과 전혀 관계없는 경우가 여전히 많음
  • 지식 그래프가 논리적 오류를 막는다 해도, 사실성과는 무관한 문장이 계속 생성될 수 있음

시장 과대평가에 대한 우려

  • 기업들이 LLM을 지속적으로 과대포장하고 있으며, 이는 위험 요소임
  • 완전히 새로운 형태의 AI 모델이 등장해 LLM을 능가할 경우, 기존 LLM 중심 기업들의 가치가 급격히 하락할 가능성 있음
  • 그날이 오면 주식 시장에 큰 충격이 예상됨

저도 작년쯤엔 비슷한 생각이었는데, 발전 속도를 보면서 오히려 낙관적이 되었네요.

Hacker News 의견
  • LLMs는 놀라운 기술로, 오랫동안 꿈꿔왔던 일을 가능하게 함. 잘못된 철자나 질문에도 불구하고 이해하고 대화하며, 멋진 이미지를 생성하고 코드 작성도 도와줌. 그러나 일부 사람들은 완벽한 초지능이 아니라고 불평함. 기술의 발전 속도는 놀라울 정도로 빠름. 일부는 "20년 경력의 시니어 엔지니어처럼 코드를 작성하지 못한다"고 불평함

  • Claude를 주로 사용하는 경험은 매우 다름. LLMs가 잘하지 못할 것 같은 작업을 시도하지 않음. AI를 사용하는 사람들은 실패를 찾는 사람과 성공을 찾는 사람으로 나뉨. 간단한 스크립팅 작업에 LLMs는 거의 완벽함. AI가 작동하는 방식을 찾으면 강력한 도구가 될 수 있음

  • LLMs의 사용성은 여전히 부족함. 인용이나 출처 제공이 잘 되지 않음. 컴퓨터가 사실을 정확히 찾지 못한다는 것은 컴퓨터의 전통적인 강점에 반하는 것임

  • 많은 사람들이 LLMs를 잘못 사용하고 있음. 최근에는 언어 모델이 음성 전사에 가장 적합한지에 대한 토론이 많음. 10년 전에는 실시간 기계 전사가 없었지만, 지금은 가능하고 계속 발전 중임. AI 모델의 오류에도 불구하고, 기계 전사는 많은 상황에서 유용함

  • Sabine의 의견을 들어야 할지 고민됨. LLMs는 시퀀스 모델링과 예측 작업을 수행할 수 있음. 문제를 시퀀스 모델링으로 줄일 수 있다면, LLMs가 작업을 수행할 수 있음

  • LLMs에 대한 비판의 공통점은 완벽하지 않다는 것임. ChatGPT를 학술 연구에 자주 사용함. 참고 문헌을 조작할 때도 있지만, 중요한 연구 논문을 찾는 데 도움을 줌. 정확성 검증은 쉽고, 지식을 찾는 것은 어려움. 결과적으로 큰 긍정적 효과를 줌

  • 기술의 힘과 우리가 살고 있는 거품을 혼동하는 사람들이 많음. AI에 수백만 건의 요청을 보내고 필요한 것을 얻음. 기술은 발전 중이며, 비용도 변화하고 있음. AI가 할 수 없는 일을 할 수 있다고 생각하는 경향이 있음

  • Claude를 많이 사용하며, 건강 관련 질문에 대한 프로그램을 생성함. 복잡한 질문을 논리적으로 설명하고 분석을 수정할 수 있는 능력은 매우 가치 있음. 의사와 비교할 때, 책임은 사용자에게 있음

  • 많은 사람들이 "불완전한" 도구를 다루는 데 능숙하지 않음. LLM은 성공 확률이 100%가 아닌 도구로, 다른 접근이 필요함. 확률적 오라클을 상상해보면, 성공 확률에 따라 유용성이 달라짐

  • 사람들과 잘 지내지 못하는 친구들이 많지만, 나는 모두와 잘 지냄. AI도 마찬가지로, 완벽하지 않지만 놀라운 도구임. AI의 장점이 실수를 훨씬 능가함. AI와 사람을 다루는 방법을 배우는 것이 21세기에 필요한 가장 큰 기술임