13P by xguru 10달전 | favorite | 댓글 1개
  • 프롬프트 엔지니어링은 마치 연금술과 비슷함: 뭐가 가장 효과적일지 예측할 수 있는 명확한 방법이 없음
  • 가장 적절한 프롬프트를 찾기 위해서는 계속 실험하는 수 밖에 없음
  • gpt-prompt-engineer는 이 실험을 훨씬 쉽게 만들어주는 도구
  • 작업에 대해 설명하고 간단한 테스트 케이스를 주면, 시스템이 여러개의 프롬프트를 생성,테스트,평가해서 가장 좋은 프롬프트를 찾아줌
  • 제공 기능
    • 프롬프트 생성 : GPT-4 와 GPT-3.5-Turbo 를 사용해서 다양한 프롬프트 생성
    • 프롬프트 테스팅 : 각 프롬프트를 테스트 케이스에 기반해서 테스팅하고 성능을 도출해서 ELO 레이팅 시스템으로 순위를 매김
    • ELO 레이팅 시스템: 각 프롬프트는 1200 ELO 등급으로 시작해서, 서로 경쟁하며 성능에 따라 변화. 이를 통해 어떤 프롬프트가 가장 우수한지 볼 수 있음
    • Classification 버전: 분류작업을 위해서 설계된 노트북. 각 테스트 케이스의 정확도를 평가해서 각 프롬프트의 점수를 테이블로 표시해줌
    • Weights & Biases Logging: 온도, 최대 토큰, 시스템/사용자 프롬프트, 테스트 케이스, 최종 ELO 등급 등의 값을 로깅 지원

GN⁺가 요약한 내용

  • 프롬프트 엔지니어링은 실험이 핵심인 연금술과 같다.
  • gpt-prompt-engineer는 프롬프트 엔지니어링을 새로운 수준으로 끌어올리는 도구이다.
  • GPT-4와 GPT-3.5-Turbo를 사용하여 사용 사례와 테스트 케이스에 기반한 프롬프트를 생성한다.
  • 시스템은 ELO 등급 시스템을 사용하여 프롬프트를 테스트하고 순위를 매긴다.
  • ELO 등급 시스템을 통해 가장 효과적인 프롬프트를 쉽게 확인할 수 있다.
  • gpt-prompt-engineer에는 분류 작업을 처리하는 분류 버전도 있다.
  • 테스트 케이스의 정확성을 평가하고 각 프롬프트에 대한 점수를 제공한다.
  • Weights & Biases에 대한 선택적 로깅을 통해 구성 및 순위를 추적할 수 있다.
  • gpt-prompt-engineer를 사용하려면 Google Colab 또는 로컬 Jupyter 노트북에서 노트북을 열어야 한다.
  • OpenAI API 키를 추가하고 적절한 모델 버전을 선택한다.
  • 사용 사례와 테스트 케이스를 정의한다.
  • 생성할 프롬프트의 수를 선택한다.
  • 프롬프트를 생성하고 테스트하기 위해 적절한 함수를 호출한다.
  • 최종 ELO 등급 또는 점수가 테이블에 표시된다.
  • 프로젝트에 기여는 환영한다.
  • 이 프로젝트는 MIT 라이선스가 적용된다.
  • 자세한 정보는 Matt Shumer에게 문의한다.
Hacker News 의견
  • 실제 모델 응답을 기반으로 벤치마킹하지 않고, 대신 GPT4가 프롬프트의 성능을 상상하는 능력에 따라 순위를 매깁니다.
  • AI 개발자들 사이에서 이 도구의 인기는 LLMs를 평가하는 LLMs에 대한 매력 때문일 수 있지만, 실제 응용 프로그램에서의 성능 평가에는 단축키가 없습니다.
  • 프롬프트 엔지니어링은 전통적인 엔지니어링 분야와 같은 정확한 과학으로 간주되지 않습니다.
  • GPT-4와 이 도구를 사용하는 비용과 어려움, 그리고 최적의 프롬프트를 찾은 후에 프롬프트를 변경하는 것이 가치가 있는지에 대한 우려가 있습니다.
  • 프롬프트 엔지니어링을 위한 프롬프트 생성은 메타 엔지니어링의 한 형태로 볼 수 있습니다.
  • GPT-Engineer에 의한 사용자 데이터 수집과 그 동기에 대한 우려가 있습니다.
  • 일부는 인간의 입력을 더욱 줄이기 위해 GPT를 사용하여 프롬프트를 생성하는 것을 제안합니다.
  • 기사에서 프롬프트의 순위는 설명되지 않습니다.