GN⁺: GPT-Prompt-Engineer - GPT 프롬프트 엔지니어

(github.com/mshumer)

13P by xguru 2023-07-13 | ★ favorite | 댓글 1개

프롬프트 엔지니어링은 마치 연금술과 비슷함: 뭐가 가장 효과적일지 예측할 수 있는 명확한 방법이 없음
가장 적절한 프롬프트를 찾기 위해서는 계속 실험하는 수 밖에 없음
gpt-prompt-engineer는 이 실험을 훨씬 쉽게 만들어주는 도구
작업에 대해 설명하고 간단한 테스트 케이스를 주면, 시스템이 여러개의 프롬프트를 생성,테스트,평가해서 가장 좋은 프롬프트를 찾아줌
제공 기능
- 프롬프트 생성 : GPT-4 와 GPT-3.5-Turbo 를 사용해서 다양한 프롬프트 생성
- 프롬프트 테스팅 : 각 프롬프트를 테스트 케이스에 기반해서 테스팅하고 성능을 도출해서 ELO 레이팅 시스템으로 순위를 매김
- ELO 레이팅 시스템: 각 프롬프트는 1200 ELO 등급으로 시작해서, 서로 경쟁하며 성능에 따라 변화. 이를 통해 어떤 프롬프트가 가장 우수한지 볼 수 있음
- Classification 버전: 분류작업을 위해서 설계된 노트북. 각 테스트 케이스의 정확도를 평가해서 각 프롬프트의 점수를 테이블로 표시해줌
- Weights & Biases Logging: 온도, 최대 토큰, 시스템/사용자 프롬프트, 테스트 케이스, 최종 ELO 등급 등의 값을 로깅 지원

GN⁺가 요약한 내용

프롬프트 엔지니어링은 실험이 핵심인 연금술과 같다.
gpt-prompt-engineer는 프롬프트 엔지니어링을 새로운 수준으로 끌어올리는 도구이다.
GPT-4와 GPT-3.5-Turbo를 사용하여 사용 사례와 테스트 케이스에 기반한 프롬프트를 생성한다.
시스템은 ELO 등급 시스템을 사용하여 프롬프트를 테스트하고 순위를 매긴다.
ELO 등급 시스템을 통해 가장 효과적인 프롬프트를 쉽게 확인할 수 있다.
gpt-prompt-engineer에는 분류 작업을 처리하는 분류 버전도 있다.
테스트 케이스의 정확성을 평가하고 각 프롬프트에 대한 점수를 제공한다.
Weights & Biases에 대한 선택적 로깅을 통해 구성 및 순위를 추적할 수 있다.
gpt-prompt-engineer를 사용하려면 Google Colab 또는 로컬 Jupyter 노트북에서 노트북을 열어야 한다.
OpenAI API 키를 추가하고 적절한 모델 버전을 선택한다.
사용 사례와 테스트 케이스를 정의한다.
생성할 프롬프트의 수를 선택한다.
프롬프트를 생성하고 테스트하기 위해 적절한 함수를 호출한다.
최종 ELO 등급 또는 점수가 테이블에 표시된다.
프로젝트에 기여는 환영한다.
이 프로젝트는 MIT 라이선스가 적용된다.
자세한 정보는 Matt Shumer에게 문의한다.

GN⁺ 2023-07-13 [-]

Hacker News 의견

실제 모델 응답을 기반으로 벤치마킹하지 않고, 대신 GPT4가 프롬프트의 성능을 상상하는 능력에 따라 순위를 매깁니다.
AI 개발자들 사이에서 이 도구의 인기는 LLMs를 평가하는 LLMs에 대한 매력 때문일 수 있지만, 실제 응용 프로그램에서의 성능 평가에는 단축키가 없습니다.
프롬프트 엔지니어링은 전통적인 엔지니어링 분야와 같은 정확한 과학으로 간주되지 않습니다.
GPT-4와 이 도구를 사용하는 비용과 어려움, 그리고 최적의 프롬프트를 찾은 후에 프롬프트를 변경하는 것이 가치가 있는지에 대한 우려가 있습니다.
프롬프트 엔지니어링을 위한 프롬프트 생성은 메타 엔지니어링의 한 형태로 볼 수 있습니다.
GPT-Engineer에 의한 사용자 데이터 수집과 그 동기에 대한 우려가 있습니다.
일부는 인간의 입력을 더욱 줄이기 위해 GPT를 사용하여 프롬프트를 생성하는 것을 제안합니다.
기사에서 프롬프트의 순위는 설명되지 않습니다.