최근 GPT-4의 품질이 현저하게 떨어진 것 같은데 저만 그런걸까요?
(news.ycombinator.com)HN에 올라온 질문에 다양한 답변이 달려서 옮겨봅니다
- 예전보다 빨라졌지만, 결과 품질이 많이 떨어져서 마치 GPT-3.5++ 처럼 느껴짐. 더 버그가 많은 코드를 생성하고, 답변들의 깊이가 얕아진거 같음
- 마치 특정 코딩 작업을 분류하도록 레이어를 추가해서 쓸데없는 답변을 하는 것처럼 너프된 것 같음. 그래서 프리미엄 멤버쉽 취소하고 DIY모델쪽으로 알아보려고 함
- 업데이트 전에는 매우 복잡한 코딩 문제도 풀고, 비프로그래밍 질문에도 매우 사려깊은 답변을 제공했지만, 이제는 달라짐. 오리지널 GPT-4는 마법같았는데, 이제는 멍청한 확률적 앵무새 같음
- 피상적인 답변만 주고, 다른 곳에서 팔로우업 하도록 권장하는 것처럼 느껴짐
- 코딩쪽은 점점 나빠지는게 확실함. 매번 새로운 버전이 나올때마다 같은 걸 시켜보는데 점점 이상해짐
- 나한테는 아직 괜찮은데, 모든 답변에 세상이 얼마나 복잡한지를 설명하는 문장이 포함되는 것에 지쳤음. 그래 나도 알아, 날 애처럼 대하지 말라고
- 이게 오픈소스 모델이 중요한 이유야. 그리고 규제와 로비가 일어나는 이유기도 함. 평민은 중성화(Neutered)된 AI를, 상위계층은 Raw한 GPT-4를 사용한다고 생각해봐
- "Sparks of AGI" 논문을 작성한 연구자들은 OpenAI가 GPT-4를 얼라인할수록 능력이 떨어졌다고 지적했음. 그 트렌드가 계속 되고 있는거지
생성AI가 엄청나게 화재는 화재인가보네요. 후속글도 올라오고 있네요...
저도 느꼈습니다...
답변 속도도 느렸는데 더 멍청해졌어요
최근에는 200줄 남짓한 코드를 주니 GPT4는 최대 입력제한에 걸리고
GPT3는 처리해주더라구요?..
뭔가 얼라인 잘못해서 일시적으로 고장난건지.. 일부로 너프한건지 모르겠네여..
저는 JD 작성 할때 많이 느꼈는데 동일한 프롬프트로 한달반 전에 쓴 것과, 최근에 쓴 것에 미묘한 퀄리티 차이가 있더군요. 뭐라고 해야 하나 성의가 없다고 해야할까요?
GPT한테서 도덕적인 답변을 듣고 싶은게 아닌데, 기계가 이런저런 생각만 많아지는 느낌. 이렇게 답변하면 비도덕적이겠지? 라는 필터링을 너무 거쳐서 답변이 오히려 이상해지는듯
600개가 넘는 댓글이 달렸네요.
저는 무엇보다 같은 걸 시켜도 다른 결과가 너무 많이 나와서 약간 짜증이.. temperature 를 낮게 주는데도 말이죠.