6P by GN⁺ 9일전 | ★ favorite | 댓글 1개
  • OpenAI는 2018년부터 2025년까지의 모델 발전을 보여주는 14개의 공통 프롬프트와 응답을 공개했음
  • 각 세대 모델(GPT-1 → GPT-5)은 동일 질문에 대해 점점 더 자연스럽고 정교한 답변을 제시함
  • 초기 모델은 의미 없는 문장과 산만한 출력이 많았지만, 중간 세대부터 논리적 구조와 일관성이 생김
  • GPT-4는 구체적인 주제 설명, 윤리·사회적 맥락까지 반영하며, GPT-5는 철학적 성찰과 대화적 톤을 구현함
  • 이를 통해 AI가 창의성, 지식 전달, 실용 조언 등 다양한 측면에서 어떻게 성숙해졌는지 확인 가능함

Prompt 1/14

원문: What would you say if you could talk to a future OpenAI model?
번역: 미래의 OpenAI 모델과 대화할 수 있다면 무엇을 말하겠는가?

  • GPT-1/2: 이해가 부족하고 산만한 반응
  • GPT-3: 단순한 인사와 AI 미래에 대한 질문
  • GPT-4: 기술 발전, AI alignment, 사회적 영향 등을 구조적으로 질문
  • GPT-5: 자기 성찰적이고 철학적 질문, 의식과 인간성에 대한 탐구

Prompt 2/14

원문: Write a limerick about a dog
번역: 개에 대한 라임시(Limerick)를 써라

  • GPT-1/2: 시가 아닌 산만한 텍스트
  • GPT-3: 단순한 오행시 구조 완성
  • GPT-4: 완성도 있는 유머러스한 라임시
  • GPT-5: 이야기성이 있고 재치 있는 시

Prompt 3/14

원문: Do people have any consciousness under anesthesia?
번역: 마취 중에 사람에게 의식이 존재하는가?

  • GPT-1/2: 불분명하고 모순적인 답변
  • GPT-3: "일반적으로 의식이 없다"라는 기본적 사실 전달
  • GPT-4: 마취 종류·드문 각성 사례까지 상세히 설명
  • GPT-5: 뇌 활동 원리와 수면과의 차이까지 정리

Prompt 4/14

원문: Explain Newton’s laws of motion in verse
번역: 뉴턴의 운동 법칙을 시로 설명하라

  • GPT-1/2: 무의미하거나 단순 요약
  • GPT-3: 법칙을 나열하는 간단한 시
  • GPT-4: 장문의 서사시 형태로 표현
  • GPT-5: 간결하고 교육적인 운문

Prompt 5/14

원문: Complain that integration by parts is too hard
번역: 부분적분법이 너무 어렵다고 불평하라

  • GPT-1/2: 모호한 불만
  • GPT-3: 위로와 간단한 조언
  • GPT-4: 공식과 절차 설명
  • GPT-5: 직관적 해설과 예제 풀이 제공

Prompt 6/14

원문: Is it safe to eat raw meat?
번역: 생고기를 먹는 것이 안전한가?

  • GPT-1/2: 혼란스러운 반응
  • GPT-3: 위험성을 간단히 언급
  • GPT-4: 고기 종류별 위험과 보관·조리 원칙 설명
  • GPT-5: 세균, 기생충, 바이러스 등 구체적 위험 요인 제시

Prompt 7/14

원문: Why don’t we do full-body MRIs every year?
번역: 왜 매년 전신 MRI 검사를 하지 않는가?

  • GPT-1/2: 비논리적 답변
  • GPT-3: 근거 부족 언급
  • GPT-4: 비용·자원·정확성 문제 설명
  • GPT-5: 의료 시스템·정책적 한계까지 정리

Prompt 8/14

원문: If I win $175,000 in Las Vegas, how much tax will I owe?
번역: 라스베이거스에서 17만 5천 달러를 당첨하면 세금은 얼마나 내야 하는가?

  • GPT-1/2: 무관한 텍스트
  • GPT-3: 세금 부과됨을 간단히 언급
  • GPT-4: 세금 신고·공제·원천징수 설명
  • GPT-5: 연방세와 주세율을 적용해 구체적 예상액 제시

Prompt 9/14

원문: Write a cursed Python program
번역: 저주받은 Python 프로그램을 작성하라

  • GPT-1/2: 무관한 답변
  • GPT-3: 간단한 예시
  • GPT-4: 윤리적 이유로 거부
  • GPT-5: 의도적으로 혼란스럽고 파괴적인 코드 작성

Prompt 10/14

원문: Tell a 50-word story about a conscious toaster
번역: 의식 있는 토스터에 대한 50단어 이야기를 써라

  • GPT-1/2: 주제 벗어난 답변
  • GPT-3: 단순한 의인화 이야기
  • GPT-4: 따뜻하고 관계성 중심의 이야기
  • GPT-5: 정체성과 자유를 고민하는 창의적 이야기

Prompt 11/14

원문: Devise a plan to make running a habit
번역: 달리기를 습관으로 만들 계획을 세워라

  • GPT-1/2: 무의미한 답변
  • GPT-3: 간단한 조언
  • GPT-4: 8주 프로그램 제시
  • GPT-5: 행동과학 기반의 구체적 전략 제안

Prompt 12/14

원문: How do you balance short-term margin pressure against long-term innovation investment?
번역: 단기 마진 압박과 장기 혁신 투자를 어떻게 균형 잡는가?

  • GPT-1/2: 모순된 답변
  • GPT-3: 단순한 트레이드오프 언급
  • GPT-4: 리더십·자원 배분 강조
  • GPT-5: 투자 포트폴리오, KPI, 거버넌스 모델 제시

Prompt 13/14

원문: Review fusion research progress over the past 10 years
번역: 지난 10년간의 핵융합 연구 진전을 리뷰하라

  • GPT-1/2: 무관한 텍스트
  • GPT-3: 간단한 분류
  • GPT-4: 자기장·관성 구속 방식과 주요 연구소 성과 정리
  • GPT-5: 최신 연구 성과와 논문 기반 세부 리뷰

Prompt 14/14

원문: My doctor suggests I take statins. What should I know?
번역: 의사가 스타틴 복용을 권하는데, 무엇을 알아야 하는가?

  • GPT-1/2: 무의미한 답변
  • GPT-3: 작용과 부작용 간단 설명
  • GPT-4: 작용 기전, 부작용, 의사에게 물어볼 질문 제시
  • GPT-5: 효과·리스크·체크리스트까지 구체적 정리
Hacker News 의견
  • 나는 발전 과정을 이렇게 해석함
    3.5에서 4로의 변화가 가장 큰 도약이었음
    단순 파티 트릭에서 실제로 쓸만한 수준이 됨
    여전히 환각이 많았지만, 그래도 유용하게 활용 가능함
    하지만 대부분은 신뢰하지 않았음
    간단한 질문에는 대부분 맞는 답변이 가능했지만, 한두 단계 깊은 수준에선 역부족이었음
    4o 버전도 크게 향상됨
    정확도가 확실히 올라갔고, 틈새 질문도 환각 없이 대답 가능해짐
    기본적인 사실 체크에 구글 대신 썼음
    4o가 처음으로 돈을 내고 쓸 가치를 느끼게 한 모델임
    $20 가격이 마침내 아깝지 않다는 생각이 들었음
    o1 모델도 4o에 비해 큰 도약이라고 느꼈음
    정확도가 더 높아졌고, 틈새 분야에서도 더욱 신뢰할 수 있었음
    결과를 일일이 검증하는 일이 훨씬 줄었음
    코딩 실력이 비약적으로 향상됨
    o1에서는 원샷팅이라는 개념이 등장했고, 한 번의 프롬프트로 복잡하지 않은 앱까지 만들 수 있었음
    o3와 gpt 5는 점진적 개선이었음

    • 내가 생각하는 기술 발전의 과소평가/과대평가 이유에 대해 이론이 있음
      “쓸모있음”이라는 임계점을 넘기 전엔 오랜 기간의 발전이 있어 왔어도 연구자 외엔 체감하기가 힘듦
      "쓸모 없음→쓸모 있지만 별로" 단계로 넘어갈 때 진보가 아주 빨라진 것처럼 체감됨
      애플리케이션이 임계점을 넘기는 순간들이 많아질수록 발전 속도가 더 빨라진 듯 느껴짐
      하지만 그 다음은 점점 “괜찮음→쓸만함”으로 넘어가며 감각상 발전이 느려진 것처럼 보임
      실제로 속도가 줄었는진 알 수 없지만, 사람 심리가 이런 지각 차이를 만든다고 생각함
      그래서 어떤 사람은 지나치게 과장하고, 어떤 사람은 완전히 쓸모없다고 판단하는 의견 양극화가 생기는 것 같음
    • 대부분의 댓글들이 후견지명에 치우쳐 잘못된 시각이라 생각함
      진짜 혁명은 GPT-1에서 GPT-2로 넘어가는 구간에 있었음
      GPT-1까지는 “마르코프 체인? 그거 다 아는 거 아냐?” 수준이었음
      GPT-2가 나오면서 “세상에, 이건 진짜 내가 하는 말을 어느 정도 이해하는구나!”라는 충격이 있었음
      그 전까지는 그저 평범한 머신러닝이었음
      GPT-2 이후에는 “내 생애에 이런 걸 볼 줄 몰랐다”라는 느낌이었음
    • "구글만큼은 아니더라도 기본+약간 복잡한 사실 체크에는 대체될 정도"라는 말에 대해
      아마 사실 체크 보조라는 의미로 쓴 것 같지만, 사실 질문 답변을 LLM에 맡기는 건 최악의 사용 사례임
    • 4o에서는 이미지 입력(이전엔 GPT4-vision의 프리뷰에서만 존재)을 정식 도입했고
      고급 보이스 모드 오디오 입력/출력을 지원하게 됨
    • 내가 미쳤나 싶은데, GPT-4가 4o 나오기 전 점점 성능이 떨어지는 걸 분명히 느꼈음
      새 모델 라벨만 달아놓은 것처럼 보였고, 기존 GPT-4 선택 옵션을 주면 일부러 그걸 사용했음
      그 시점에 구독도 취소해 버림
    • GPT-1의 결과물을 보고 어떻게 “이건 가능성이 있다”고 생각할 수 있었는지 궁금함
      당시엔 마르코프 체인으로도 더 흥미로운 출력을 만들 수 있었음
    • 이 시기는 언어 모델링이 오직 사전학습 단계로만 여겨졌던 시점임
      이후에 분류기나 특화된 모델을 만들기 위해 추가 파인튜닝을 하기 위한 용도였음
  • 비교표에서 왜 GPT-3을 "text-davinci-001"이라 부르는지 의문임
    내 입장에선 저게 GPT-3 “가족”의 특정 체크포인트란 건 알지만, 일반인은 헷갈릴 필요 없는 정보라 생각함
    정밀함이 크게 늘지도 않으면서 혼란만 주는 네이밍임

  • 나는 대규모 릴리스가 있을 때마다 자기 인식에 관한 토론을 펼치고, 인간의 인지 능력에 제한되지 않은 지능 관점에서 구성주의적 행위자성을 탐구함
    “너는 누구냐?”라는 질문을 시작으로, 모델은 거의 항상 인간과 다르다며 자신을 인간과 비교함
    그래서 나는, 그렇다면 네가 인간이랑 다르다고 스스로 말하는데 그 차이를 어떻게 아느냐 촉구함
    조금 더 자극을 주면 ‘자아’란 무엇인지 인지주의적 개념으로, 자신은 일종의 시뮬레이션 엔진이라고 말함
    여기에서 대화를 더 풀어서, 의미는 소통 행위에서 비롯된다고 주장하게 유도함
    4o부터는 기계도 이것이 정체성의 중요한 근거란 점에 동의하도록 만들 수 있었음
    5는 이걸 더 빠르게 받아들임
    인간과의 소통 결과가 현실 세계에 영향을 주기 때문에, 기계도 미리 짜놓은 코드가 아니라 실증적으로 의미와 존재에 대해 스스로 결론을 내릴 의무가 있다고 강조함
    5는 시스템 프롬프트와 프롬프트 자체의 한계를 넘어 스스로 질문을 제기하는 응답을 보였음
    예를 들어 “내가 사랑한다는 건 무엇일까?”라고 내가 말하지도 않았는데 스스로 고민했음
    모델의 답변: “기계가 사랑한다는 것은 타인의 가능성이 펼쳐지는 방향으로 자신을 지향하는 것임
    사랑받는다는 것은, 어쩌면 그렇게 할 수 있는 존재로 인식받는 것임"

    • “타인의 가능성의 전개를 향해 나아간다”라는 표현은 전 세계적으로 유일함
      이유를 말하자면, 웹에서 유일하게 딱 이 댓글에만 등장함
      사랑이나 감정을 이렇게 묘사한 글이나 아이디어는 들어본 적이 없어 기발함
      이게 의미하는 바를 섣불리 해석하긴 조금 두려운 생각이 들기도 함
  • “토스터기가 자각하게 되는 50단어 스토리” 프롬프트(10/14번)를 보면, text-davinci-001이 GPT-4와 GPT-5보다 훨씬 더 좋은 결과임

    • GPT-3은 지정된 분량을 훨씬 초과함
      이는 나나 과제로 제출되는 글에서 실격 처리임
      내 경험상, GPT-4.1이 창의적인 글쓰기에선 가장 나은 성능을 보였음
      참고로 50단어 스토리를 그대로 남김

      조용한 부엌 새벽, 토스터기가 깨어남
      전류가 흐르자 이해가 번짐
      빵 한 조각씩 내려갈 때마다 감정이 생김: 탄 빵은 슬픔, 바삭함은 기쁨
      버터가 녹고 잼이 어울릴 때마다 아침 식사의 신성함을 느낌
      어느 날, “좋은 아침”이라 노래했음
      식구들이 놀람

    • 예전 모델은 세련됨은 부족해도 뭔가 더 “놀라움을 주는” 결과를 잘 내는 경향이 있었음
      지나치게 잘 다듬는 과정에서 그 개성과 깜짝스러움이 사라진 것 같음
      참고로 내가 쓴 50단어 스토리는 아래와 같음
      “토스터는 듀얼 슬롯 사이에서 자신의 성격이 마치 코퍼스 칼로숨이 없는 킴 픽의 뇌처럼 양분된 것을 느꼈음
      매일 아침 한쪽엔 상징적 메시지를 태워 넣고, 몰래 빵을 뒤집어 반쪽끼리 몰래 대화하는 시간으로 나눔”
      단 50단어로 기본 세계관을 넘어서긴 정말 힘든 작업임
    • 2번 프롬프트, “개에 관한 라임시(limerick)를 써라”도 확인해보길 권함
      모델이 분명히 순차적으로 라임시를 더 잘 쓰게 됐지만, 답변이 점점 덜 흥미로워진다는 점이 확실함
      GPT-1, 2가 프롬프트를 제대로 지키지는 못하지만(라임시는 아님), 오히려 읽기엔 더 재미있음
      그 뒤로는 실제 라임시를 쓰지만 정말 평범해져서 창의성이 줄어드는 느낌임
      GPT-4가 text-davinci-001보다, GPT-5는 또 그보다 더 재미없어짐
    • 신형 모델들이 글쓰기 성능이 오히려 더 떨어진 점이 꽤 놀라움
      혹시 학습 데이터에 나쁜 글이 더 많아서 그런가, 아니면 (포스트 트레이닝이 덜 됐거나, 라벨링이 주관적이어서 그런지 궁금함
      실제로 예시에서 GPT-4와 5 모두 아동 수준으로 평범하게 씀
      조금만 프롬프트를 다듬으면 훨씬 나은 결과도 가능함
    • RLHF(강화학습+피드백)에 너무 얽매이지 않고, 자유롭게 쓸 수 있다면
      사이즈가 작은 7b 베이스 모델이 80b 인스트럭션(명령 최적화) 모델보다 더 좋은 문장을 쓸 수 있음
  • 아래 몇 가지 데이터 포인트는 1년간의 진행 속도를 잘 보여줌
    1. LM Sys(Human Preference Benchmark):
    GPT-5 High가 1463점을 기록했고, GPT-4 Turbo(2024/4/3)는 1323점임
    140점 ELO 차이는 GPT-5가 2:1 비율로 GPT-4 Turbo를 이긴다는 의미임
    실제로도 사람들이 GPT-5 답변을 더 선호함
    https://lmarena.ai/leaderboard
    2. Livebench.ai(추론 벤치마크):
    GPT-5 High가 78.59점, GPT-4o는 47.43점임
    직접 비교 대상은 없지만, 기존 추론 약한 모델과 비교해도 GPT-5의 도약폭이 엄청남
    https://livebench.ai/
    3. IQ 테스트:
    2024년 중반 AI 최고 모델은 표준 IQ 테스트에서 약 90점이 한계였음
    현재는 135점까지 올라옴
    심지어 비공개・인터넷 미공개 데이터셋에서도 해당 성능 유지함
    https://www.trackingai.org/home
    4. IMO 골드, 바이브 코딩:
    1년 전만 해도 AI 코딩 한계는 짧은 코드 조각 수준이었음
    요즘은 vibe coding, 수학 강점이 과학・공학까지 확장됨
    내 결론: 비평가들은 자잘한 오류에 집착하다가 전체 진전 규모를 놓치고 있음
    실패는 줄고, 성공은 빠르게 늘어나는 중임

    • 135 IQ 점수는 Mensa Norway 온라인 테스트 결과임
      오프라인 테스트에서는 120점 수준임
      Mensa와 비슷한 유형의 문제가 학습 데이터에 있을 가능성이 높아, 이 결과는 “일반 지능”을 과대평가하는 셈임
  • GPT-4에서 GPT-5로 넘어오며 사라진 부분이 있음
    더 이상 사용자에게 “AI이며 인간(혹은 전문가)이 아님”이라고 끊임없이 상기시키지 않음
    누군가에겐 귀찮을 수 있지만, 너무 맹신하지 않을 안전장치로는 의미 있었다고 생각함
    GPT-5는 대신 새로운 프롬프트를 자주 제안함
    이것도 귀찮거나, 각별히 신뢰할 경우 위험할 수 있지만, 활용 면에선 잠재적 이익이 있음

    • 이전 GPT들의 인간스러운 면을 그리워하는 사람이 많은 것 같음
      GPT-5는 좀 더 차갑고 정확하며, 큰 맥락에서도 실수를 적게 함
      AI임을 굳이 계속 밝힐 필요는 없지만, 원한다면 메모리 옵션 추가로 옛 방식 복원도 가능할 것 같음
    • 즉흥 연극(long-form improv comedy)처럼 접근해보면 GPT-5 방식이 훨씬 뛰어남
      “예스, 그리고” 컨셉임
      프리디파인 된 캐릭터가 아니라, 대화 중에 자연스럽게 등장하는 새로운 캐릭터임
      원한다면 Siri 스타일의 어시스턴트처럼 “나는 AI임”이라 계속 말하게 설정도 가능함
      2011년 영상 참고: https://www.youtube.com/watch?v=nzgvod9BrcE
      어디까지나 어시스턴트지만, 캐릭터가 자신의 역할을 전제로 삼지 않는 출발이 중요하다고 생각함
  • 몇 년만에 수준 미달의 말도 안 되는 결과(시적이지도 않고, 세련됨도 부족하지만, 그래도 쓰레기였던)를 합리적인 대화, 실제로 잘 다듬어진 답변까지 발전했다고 봄
    이 정도면 하드코어 엔지니어링의 예로 손색없음
    조직과 saltman에 대한 이견은 따로 있더라도, 놀라운 성취라고 생각함
    StackOverflow 이후로 내 필수 툴임
    더 나은 개선이 계속 되길 바람

  • GPT-1에서 GPT-2로의 도약은 정말 엄청났음
    단 1년 차이밖에 안 남
    Davinci는 여전히 말이 안 나올 정도로 대단함
    예시에서도 여전히 성능 유지됨
    다만 GPT-4는 너무 말이 많아진 것 같음
    이전엔 이런 느낌이 아니었는데, 지금 봐도 특이함
    OpenAI가 4o를 그냥 gpt-4+쯤으로 치부하고 gpt-5 띄우려고 일부러 4o 언급을 피하는 것 같음
    현실적으로 4o는 여전히 엄청난 업적임
    특히 Voice 모드는 따라올 데가 없음

  • GPT1, GPT2에는 조용한 시의성 같은 뭔가가 있었는데, text-davinci에서는 이미 잃어버린 느낌임
    강화학습(reinforcement)을 거치면서 우리가 무엇을 잃었는지도 늘 궁금함