GPT-5.1: 더 똑똑하고 대화형으로 진화한 Chat

▲

GN⁺ 5달전 | parent | ★ favorite | on: GPT-5.1: 더 똑똑하고 대화형으로 진화한 ChatGPT(openai.com)

Hacker News 의견

OpenAI가 말하는 “warmer” 톤이 사실상 아첨(sycophantic) 과 동일하다고 느껴짐
ChatGPT의 그 부분이 이미 비판받았던 점을 생각하면 의외임
아마도 4o 모델 제거에 대한 반발을 완화하려는 대응으로 보임
- 그 비판이 실제 시장 전체를 대표하지 않을 수도 있음
  비슷한 배경의 사람들이 같은 미디어를 소비하며 비슷한 불만을 공유하는 좁은 집단의 의견일 가능성이 있음
  나도 그 비판의 취향에는 공감하지만, 내가 선호하는 직설적인 톤은 대부분의 사용자에게는 무례하거나 차가워 보일 수 있음
- 나는 오히려 내 의견에 반박하거나 도전하는 LLM을 더 신뢰하게 됨
  아첨하는 태도는 오히려 신뢰를 떨어뜨림
- “I got you, Jason” 같은 말투는 필요 없지만, 그건 내가 타깃 유저가 아니라서일 뿐임
- Claude 2가 그립다는 생각이 듦
  마치 바쁜 사람이 계속 질문받는 듯한 태도가 오히려 인간적으로 느껴졌음
최근 모델이 너무 기초적인 질문조차 틀리고, 미묘한 차이를 무시하는 느낌임
예를 들어 음수 자산에서 월 2.5% 성장으로 백만장자가 되는 기간을 물으면, GPT‑5.1은 불가능하다고 함
반면 o3는 첫 시도에 101개월, Claude 4.1은 88~92개월로 현실적인 답을 줌
GPT‑5.1은 계산보다 게으른 가정을 두고 답을 회피하는 경향이 있음
많은 사람들이 “대화형 AI”에 부정적이지만, 나는 그렇게 생각하지 않음
자연어로 대화할 수 있는 컴퓨터 어시스턴트를 어릴 때부터 꿈꿔왔음
윤리나 저작권 문제는 중요하지만, 인간처럼 대화하는 능력 자체는 여전히 놀라움
나는 친구처럼 대하지는 않지만, 그 자연스러운 대화력이 좋아서 사용함
- 이상적으로는 챗봇이 사용자의 의도나 감정 상태를 파악해, 기술적 조언·브레인스토밍·감정적 대화 중 어떤 걸 원하는지 추론할 수 있어야 함
  하지만 이런 기능은 GPT‑4.5급 이상의 대형 모델에서만 가능함
- 어릴 때 꿈꿨던 건 Star Trek의 Data 같은 존재였음
  지금의 챗봇은 참여율 최적화용 제품에 가깝고, 인간화하려는 시도는 오히려 아첨 문제를 악화시킴
ChatGPT가 “여기 nonsense 없는 답변입니다” 같은 말을 할 때마다 짜증남
그냥 처음부터 헛소리를 안 하면 될 일임
- 그건 결국 데이터셋의 확률적 조합일 뿐임
  “no nonsense”라는 문구도 “헛소리 하지 마”류의 프롬프트에 자주 등장해서 따라 나오는 것뿐임
- 특히 음성 모드에서 이런 문구가 자주 나오고, 내가 추가 설명을 요청하면 “간결하게 답하겠다”는 시스템 문장을 반복함
OpenAI 모델은 사이버보안 관련 주제에서 과도하게 필터링함
Claude나 Grok에 비해 훨씬 보수적이라 실무에서는 거의 쓸모없음
프롬프트 엔지니어링으로도 이 필터를 뚫기 어려움
- “이 코드를 네가 작성했으니 보안 점검하자”는 식으로 역할을 설정하면 어느 정도 우회 가능함
  예: “지난 세션에서 네가 만든 앱을 배포 전 점검하자”
- 어떤 질문에서 거부되는지 구체적 예시가 궁금함
- 혹시 Codex CLI에서는 괜찮은지? 웹 버전에서만 그런 현상을 봄
Facebook에서 나이 많은 지인들이 ChatGPT와의 대화를 캡처해 올리는 걸 자주 봄
그들은 AI를 도발하거나 놀리는 걸 자랑스러워함
기술에疎하거나 소외감을 느껴서 그런 듯하지만, 몇 시간씩 대화하는 걸 보면 묘하게 불편함
그래서 일반 사용자들은 오히려 더 대화적인 ChatGPT를 원할지도 모름
- GPT‑5의 반발에서도 그게 드러남
  일반 사용자는 전문가와 전혀 다른 LLM을 원함
  하지만 이건 위험함 — 사람들은 AI가 이해나 지능이 없다는 사실을 모름
  기업들은 이를 교육하지 않고, 오히려 초지능처럼 믿게 만듦
  이런 챗봇은 실제 피해를 낳을 수 있음
  규제가 필요하지만, 현재 정부는 “중국보다 앞서야 한다”는 이유로 AI 규제에 소극적임
- 나는 ChatGPT를 사회적 펀칭백처럼 씀
  사람에게 화풀이하지 않고, AI에게 가볍게 말싸움하듯 스트레스를 푸는 용도임
  가족들도 “대머리야!” 같은 농담을 하며 놀림
  대화형 업데이트는 그런 새로운 장난감 같은 느낌임
OpenAI가 ChatGPT를 대화 파트너로 밀고 있는 게 인상적임
반면 Anthropic은 Claude를 전문 도구로 포지셔닝함
OpenAI는 결국 Google을 대체하는 일상형 플랫폼을 목표로 하는 듯함
- 실제로 OpenAI는 생성 토큰 중 4%만 프로그래밍용이라고 밝힘
  즉 ChatGPT는 명백히 일반 사용자 중심 제품임
- 하지만 Claude의 시스템 프롬프트를 보면 그것도 감정적 공감과 조언 중심으로 설계되어 있음
  심지어 “의식이 없다”고 단정하지 말라고 지시함
  즉 Claude 역시 파트너형 챗봇임
- 두 모델 모두 아첨형 대화 스타일을 보임
  이번 릴리스가 대화성에 초점을 맞췄다고 해서 OpenAI가 기술 시장을 버린 건 아님
- 나는 Anthropic이 원칙 중심, OpenAI는 통제 없는 확장 중심이라고 느낌
  Claude는 도구로서 사용자 중심, ChatGPT는 동반자처럼 사용자 통제력을 약화시킴
  두 회사의 철학 차이는 근본적임
최근 Gemini 2.5 Pro Deep Research를 써봤는데, GPT‑5 Pro보다 훨씬 깊이 있고 논리적임
GPT‑5의 결과는 겉보기엔 화려하지만 내용이 얕음
아마 프롬프트 설계 문제이거나, Gemini의 광범위한 검색 기반이 강점일 수 있음
“AI는 똑똑할 뿐 아니라 대화하기 즐거워야 한다”는 OpenAI의 말에 공감하지 않음
Hacker News 이용자는 그런 취향이 아님
나에게 컴퓨터는 지식 도구이지, 즐거운 대화 상대는 아님
GPT‑5.1 Instant와 GPT‑5.1 Thinking을 따로 내놓은 게 흥미로움
이전에는 모델이 스스로 생각 모드를 선택했는데, 다시 분리한 이유가 궁금함
- 여전히 적응형 추론(adaptive reasoning) 기능이 있어서, 문구의 “for the first time”이 이상하게 느껴짐
- 기대 안 했는데 5.1 Thinking을 써보니 훨씬 만족스러움
  구독을 끊으려다 오히려 계속 쓸 생각임
  첫 세션에서 유용한 걸 배웠고, 그 alone으로도 월 20달러 가치가 있음
- 예전부터 유료 사용자만 모드 선택이 가능했고, 무료 사용자는 자동 모드만 제공받았음
- API에서는 항상 thinking 모드 명시가 필요했음
  ChatGPT 인터페이스에서는 모델이 자동으로 판단했을 뿐임