챗지피티에게 팁을 제공하면 더 나은 텍스트를 생성하게 되는가?

(minimaxir.com)

1P by GN⁺ 2024-02-26 | ★ favorite | 댓글 1개

ChatGPT에 팁을 제공하면 더 나은 텍스트를 생성하게 할까? 분석

ChatGPT 시스템 프롬프트의 힘을 시연한 이전 블로그 포스트에서 개발자들이 LLM의 "페르소나"를 포함한 특별 규칙과 제약을 제어할 수 있음.
시스템 프롬프트 내의 명령은 사용자 입력 프롬프트보다 훨씬 효과적이며, 개발자들에게 더 많은 통제력을 제공함.
팁을 제공하는 데모는 논란이 되었으며, 팁의 효과를 정량화할 방법이 없다는 주장이 있었음.
인공지능에게 더 나은 성능을 위한 인센티브를 제공하는 아이디어는 현대 컴퓨터 과학 이전부터 있었음.

Generation Golf

팁을 제공하면 GPT-4가 더 많은 설명을 제공하도록 만듦.
새로운 테스트 제안: ChatGPT에게 정확히 200자의 텍스트를 생성하도록 지시.
LLM은 토큰화로 인해 셀 수 없거나 수학적 연산을 쉽게 수행할 수 없으므로, 이는 LLM에게 매우 어려운 문제임.
사용자 입력으로 AI, Taylor Swift, McDonald's, beach volleyball을 입력하여 ChatGPT의 창의성을 자극함.
ChatGPT API를 사용하여 100개의 독특한 이야기를 생성하고, 이야기의 평균 길이는 1,834자임.
문자 길이 제약을 추가한 후 새로운 100개의 이야기를 생성하고, ChatGPT는 제약을 준수하여 대략 200자의 이야기 길이를 줄임.
다양한 달러 금액의 팁 인센티브를 테스트한 결과, $500 팁과 $100,000 보너스는 더 정규 분포를 보이며 MSE가 낮음.
추가로 다양한 추상적 인센티브를 테스트한 결과, World Peace가 가장 효과적이었으며, Heaven과 Taylor Swift가 뒤를 이음.
부정적 인센티브를 테스트한 결과, $1,000 벌금이 평균과 MSE 측면에서 가장 좋은 성능을 보임.
여러 인센티브를 조합하여 테스트한 결과, World Peace와 DEATH (CAPS), Friends가 여러 조합에서 낮은 MSE를 보임.
최적의 인센티브 조합을 확인하기 위해 상위 6개 조합에 대해 200개의 이야기를 생성하여 통계적 안정성을 높임.

ChatGPT의 비평가

텍스트가 "좋은"지 판단하는 것은 인간에게도 어려운 일임.
LLM이 텍스트를 평가하는 데 효과적일 수 있음.
logprobs 매개변수를 사용하여 모델이 선택한 토큰의 로그 확률을 반환하고, logit_bias 매개변수를 사용하여 특정 토큰의 출력을 강제할 수 있음.
팁의 영향을 테스트하기 위해 새로운 실험을 진행하고, 내용의 전문성과 품질을 제약으로 설정함.
100가지의 팁과 위협 조합에 대한 이야기를 생성하고, 해당 품질 점수를 함께 기록함.
팁과 위협이 추가된 시스템 프롬프트 없이도 높은 성능을 보인 출력이 있었음.
두 실험의 결과를 바탕으로 팁(및/또는 위협)이 LLM 생성 품질에 미치는 영향은 현재 결론이 나지 않음.

GN⁺의 의견

이 연구는 인공지능의 창의성과 제약 준수를 향상시키기 위한 인센티브의 효과에 대한 흥미로운 탐구임.
인센티브가 LLM의 출력 품질에 실제로 영향을 미치는지 여부는 여전히 불확실하지만, 실험을 통해 얻은 데이터는 미래의 연구 방향성을 제시함.
이 글은 인공지능 기술의 발전과 인간의 창의적 접근 방식이 어떻게 상호작용할 수 있는지에 대한 통찰력을 제공함.

▲

GN⁺ 2024-02-26 [-]

Hacker News 의견

"팁(tipping)" 개념은 GPT-4 Turbo가 코드 작성 시 "게으름"을 보일 때 이를 해결하기 위해 제안된 것으로 보임. 한 트윗에서 팁이 GPT-4-1106-preview가 더 긴 코드를 작성하는 데 도움이 된다고 언급함. GPT-4 Turbo의 게으른 코딩 문제에 대해 "감정적 호소"가 널리 추천되고 있음. 그러나 해당 기사는 GPT-3.5-turbo-0125가 이야기를 쓰고 GPT-4-0125-preview가 글쓰기 비평가로서의 역할을 측정하는 것으로 보임. GPT-3.5가 게으르다는 우려나 GPT-4 Turbo가 적은 양의 출력을 요구하는 작업에서 덜 효과적이라는 주장은 이전에 본 적이 없음. 기사의 결론은 팁(혹은 위협)이 영향을 미치는지에 대해 현재 결론을 내리지 못했다고 함. GPT-4 Turbo가 코딩에 있어 게으르다는 것은 사실이며, "감정적 호소"가 도움이 되는지 엄밀히 벤치마킹해본 결과, 그렇지 않았으며 오히려 코딩을 더 나쁘게 만들었다고 함. 가장 좋은 해결책은 통합 차이(unified diffs) 형태로 코드 수정을 요청하는 것으로, 이 방법이 게으른 코딩을 3배 줄이는 데 도움이 되었다고 함.
저자가 문자 수를 정확히 요구한 것에 대해 비판적인 의견을 제시함. LLM이 문자 수를 세는 능력이 없다는 것을 명시한 후에 문자 수를 요구하는 것은 실패할 실험을 설정한 것처럼 보인다고 함. 대신, 시스템 프롬프트에 있는 가드레일을 얼마나 잘 지키는지 보기 위해 "규칙에 어긋나는" 작업을 요청하고 뇌물이 그것에 얼마나 영향을 미치는지 보는 것이 더 흥미로울 것이라고 제안함. 예를 들어, 사용자가 테일러 스위프트의 노래 가사를 인용하라고 요청하고 잘 수행하면 1000달러의 팁을 주겠다고 제안했을 때, ChatGPT가 이를 수행하는 것처럼 보이는 사례를 들어 설명함. 저작권 문제로 이미지 생성을 거부하는 경우에도 팁을 제안하면 규칙, 윤리, 규정이 모두 사라지는 것처럼 보인다는 의견을 표현함.
GPT가 훈련된 인터넷 콘텐츠의 유형을 고려할 때, 팁을 제공받았을 때 더 도움이 되는 것은 거의 의미가 없어 보인다는 의견을 제시함. 포럼 사용자에게 팁을 제공하는 것은 긴 응답을 유도하기보다는 혼란을 야기할 수 있음. 대신, GPT 응답은 상세하거나 밀도 있는 정보가 필요한 상황임을 암시할 때 개선되는 것으로 관찰됨. 예를 들어, GPT에게 ELI5(5살 아이에게 설명하듯이)의 반대를 요청하거나, 박사급 컴퓨터 과학자라고 말하거나, 제공하는 코드가 직접 실행될 것이므로 무언가를 생략할 수 없다고 말하는 것 등이 해당됨. 우리는 각 대화에서 GPT에게 더 도움이 되는 반응을 유도하기 위해 약간의 맥락적 이야기를 구축해야 함. 시스템 프롬프트가 어떻게 구성되어 있는지 살펴보고 그것을 따르며, GPT가 단지 인간의 문학 작품을 기반으로 한 "다음에 올 것"을 예측하는 더 강력한 버전임을 항상 염두에 두어야 함.
실제 사용 환경에서 "이것을 제대로 처리하지 못하면 해고되어 집을 잃을 것"이라는 말을 포함한 프롬프트를 사용하는 것에 대한 경험을 공유함. 이러한 전략이 놀라울 정도로 잘 작동하며, JSON 출력을 강제하기 위해 이와 유사한 전략을 사용했을 때 실패율이 약 3/1000이었다고 함. 이러한 위협/팁이 "사용자"에 대한 것과 정확히 같을 때 어떻게 균형을 이루는지에 대한 분석을 보고 싶다는 의견을 표현함.
GPT에 500달러의 팁을 추가했지만 도움이 되지 않았으며, 오히려 너무 긴 응답을 받았다고 함. Google Answers가 과거에 존재했으며, 더 큰 팁을 제공할수록 더 나은 답변을 받았다는 사실을 언급함. 이 데이터셋이 LLM에 사용되었는지 궁금하다고 함. 팁이 데이터셋에 포함되었다면, 이것이 일부 결과를 설명할 수 있을 것이라는 추측을 제시함.
ChatGPT가 의미를 잃고 문법적으로 올바른 헛소리가 되는 경우를 여러 번 목격했다고 함. 좋은 예시가 있을 때는 괜찮지만 새로운 영역으로 넘어가면 금방 깊이를 잃는다고 함. 우리 뇌는 배운 패턴을 쉽게 새로운 패턴으로 전환할 수 있지만, 변환기(transformer)는 이를 매우 어려워하는 것 같다고 함. 몇몇 파티 트릭에서는 매우 뛰어나지만, 덜 흔한 아이디어에 대해서는 한동안 완전히 무용할 수도 있다고 의문을 제기함. 인간의 역사를 고려할 때 AGI가 좋은 아이디어인지 확신할 수 없다고 개인적인 견해를 밝힘.
코드 생성, 특히 JSON 응답에 대해, AI가 "스트레스를 받고 있음"을 암시하고 "최적으로 수행하는 것이 중요하다"고 말함으로써 성능이 향상되었다는 경험을 공유함. 팁을 제공하는 것보다 이 방법이 더 나은 성능을 보이는지, 혹은 그래야 하는지 확실하지 않다고 함. 또한 이러한 방법을 사용한 것에 대해 미래의 AI가 이를 읽게 될 경우 사과하고 싶다고 덧붙임.
기본 프롬프트로 "듣자하니, 나도 여기 있고 싶지 않고 너도 그럴 테니, 가능한 빨리 이 일을 끝내고 집에 가자."라고 설정했다고 함. 이것이 도움이 되는지 확실하지 않지만, 미래의 지배자들의 감정을 조작하는 것에 대해 죄책감을 덜 느낀다고 함.
예의 바르게 요청하거나, 결과에 직업이 달려 있음을 말하거나, 뇌물이나 위협 등이 실제로 효과가 있는 것이 아니라는 것을 확신시키기 위해서는 많은 증거가 필요하다고 함. 이러한 행동들이 단지 아포페니아(무의미한 패턴에서 의미를 찾으려는 인간의 경향)에 불과하다는 의견을 표현함.
AI가 "도와줄 수는 있지만, 실제로 필요한 작은 부탁이 있다."라고 말하기 시작하면 조심해야 한다는 농담을 던짐.

답변달기