17P by xguru 10달전 | favorite | 댓글 6개
  • 많은 사람들이 이에 대해 얘기를 했지만, 지금까지는 단편적인 것에 그쳤음
  • 최근 발표된 논문에서 GPT-4의 6월버전과 3월버전을 500개의 문제를 가지고 객관적으로 비교해봤음
  • 3월에는 488개를 정확하게 답했지만, 6월에는 정답이 12개에 불과
    • 3개월만에 정답률이 97.6% 에서 2.4%가 된 것
  • 하지만, 여기서 더 나빠짐
  • Chain-of-Thought 기법을 이용해서 추론을 시켜봄
    • "17077은 소수인가? Think step by step." 이라고 지시하자, GPT-4는 중간 단계를 생성하지도 않고 "아니오" 라고 답변함
  • 코드 생성도 더 안 좋아짐
    • LeetCode 에서 50개의 쉬운 문제로 데이터 세트를 구축해서 실행해봄
    • 3월 버전은 52% 성공했지만, 6월버전은 10%만 성공함
  • 왜 이런 일이 발생할까?
    • OpenAI는 계속 변경을 하고 있다고 가정하지만, 어떻게 동작하는지, 그들이 어떻게 평가하는지 등을 알지 못함
    • 소문에 따르면 그들은 여러개의 작은 특화된 GPT-4 모델을 묶어서 사용하여, 마치 큰모델인것 처럼 동작하지만 더 저렴한 비용으로 실행하고 있다고 함
    • 더 저렴하고 빠르게 하는게 이 품질저하의 원인이 될 수 있을까?
  • 이것은 GPT-4에 의존하는 어플리케이션을 구축하는 모든 사람에게 위험 신호임
    • 시간경과에 따라서 LLM의 동작이 변하는 것은 허용할 수 없음
  • 해당 실험은 누구나 Google Colab에서 재현해볼 수 있음

저는 구독 해지했습니다. 개악된 부분이 피부로 느껴지더라구요.

국내 chatGPT 사용자 커뮤니티에서도 계속 이런 보고가 있었는데 사실이었나보군요

gpt 유료화 이후 매달 사용중인데, 이내용 에 동의 합니다.
그리고 , 유료 사용자인데도 아직 4 버전에 3시간 25개 질문 제한 있는게 너무 불만 스러워요

오늘, 사용자 지정 지침 기능을 추가하면서 제한도 50개로 풀렸다고 합니다.

https://openai.com/blog/custom-instructions-for-chatgpt