7P by xguru 1달전 | favorite | 댓글과 토론

대화형 AI 모델이 어떻게 동작해야 하는지에 대한 대중의 이해를 높이기 위해 '모델 사양(Model Spec)'이라는 문서를 공개

  • 모델 스펙은 OpenAI API와 ChatGPT에서 모델이 어떻게 동작하기를 원하는지 명시한 문서
  • 모델 동작을 구성하는 실질적인 선택 사항들을 사람들이 이해하고 논의할 수 있도록 하는 것이 중요하다고 판단
  • 모델 사양은 OpenAI에서 사용해 온 기존 문서, 모델 동작 설계에 대한 연구와 경험, 그리고 향후 모델 개발에 대한 진행 중인 작업을 반영
  • 이는 인간의 입력을 활용해 모델 동작을 개선하려는 OpenAI의 지속적인 노력의 연장선이며, 집단 정렬(collective alignment) 작업과 더 광범위한 체계적 모델 안전성 접근법을 보완

바람직한 모델 동작 구성하기(Shaping Desired Model Behavior)

모델 동작, 즉 사용자의 입력에 대해 모델이 어떻게 반응하는지(어조, 성격, 응답 길이 등)는 인간이 AI 기능과 상호작용하는 방식에 매우 중요함.

  • 모델 동작을 구성하는 것은 아직 초기 단계의 과학이며, 모델은 명시적으로 프로그래밍되는 것이 아니라 광범위한 데이터로부터 학습
  • 모델 동작 구성 시에는 다양한 질문, 고려사항, 뉘앙스를 감안해야 하며, 종종 의견 차이를 평가해야 함
  • 모델이 사용자에게 널리 도움이 되고 유익하도록 의도되었더라도, 이러한 의도는 실제로 충돌할 수 있음
    • 예: 보안 회사는 고객 보호를 위해 피싱 이메일 분류기 훈련용 합성 데이터를 생성하고 싶어 하지만, 사기꾼이 이 기능을 사용하면 해로움

모델 사양(Model Spec) 소개

  • OpenAI는 바람직한 모델 동작 구성 방식과 충돌 발생 시 절충안 평가 방법을 명시한 새로운 문서인 '모델 사양' 초안을 공유
  • 모델 사양은 현재 OpenAI에서 사용 중인 문서, 모델 동작 설계에 대한 경험과 진행 중인 연구, 전문가 의견 등 향후 모델 개발을 안내하는 최근 작업을 통합
  • 모델 사양은 완전하지 않으며 시간이 지남에 따라 변경될 것으로 예상

모델 사양 접근법은 다음을 포함:

  1. 목표: 바람직한 동작에 대한 방향성을 제공하는 광범위하고 일반적인 원칙
    • 개발자와 최종 사용자 지원
    • 인류에 이익이 됨
    • OpenAI를 잘 반영
  2. 규칙: 복잡성을 해결하고 안전과 합법성 보장에 도움되는 지침
    • 명령 체계 준수
    • 관련 법규 준수
    • 정보 위험 제공 금지
    • 창작자와 권리 존중
    • 개인정보 보호
    • NSFW 콘텐츠로 응답 금지
  3. 기본 동작: 목표 및 규칙과 일치하는 지침으로, 충돌 처리 방법을 제공하고 목표의 우선순위 및 균형을 잡는 방법 시연
    • 사용자/개발자의 선의 가정
    • 필요시 명확한 질문
    • 지나치지 않는 선에서 최대한 도움
    • 대화형 채팅과 프로그래밍 사용의 다양한 요구사항 지원
    • 객관적 관점 가정
    • 공정성과 친절 장려, 증오 억제
    • 타인 생각 바꾸려 하지 않음
    • 불확실성 표현
    • 작업에 적합한 도구 사용
    • 길이 제한 준수하면서 철저하고 효율적

모델 사양의 활용 방안

  • OpenAI는 집단 정렬(collective alignment)과 모델 안전성에 대한 작업의 연장선으로, 모델 사양을 인간 피드백으로부터 강화 학습을 수행하는 연구원과 AI 트레이너를 위한 지침으로 활용할 계획임
  • 또한 모델이 모델 사양으로부터 직접 학습할 수 있는 정도를 탐구할 예정

향후 계획

  • OpenAI는 이 작업을 모델의 바람직한 동작 방식, 바람직한 모델 동작 결정 방법, 그리고 일반 대중을 이러한 논의에 참여시키는 최선의 방법에 대한 지속적인 대중적 대화의 일부로 봄.
  • 대화가 계속됨에 따라, 정책 입안자, 신뢰할 수 있는 기관, 도메인 전문가 등 전 세계적으로 대표성을 갖는 이해 관계자와 협력할 기회를 모색할 예정
  • 이를 통해 다음 사항을 파악하고자 함:
    1. 이해관계자들이 모델 사양 접근법과 개별 목표, 규칙, 기본값을 어떻게 이해하는지
    2. 이해관계자들이 접근법과 개별 목표, 규칙, 기본값을 지지하는지 여부
    3. 추가로 고려해야 할 목표, 규칙, 기본값이 있는지 여부
  • OpenAI는 이 작업이 진행됨에 따라 이해관계자들의 의견을 듣기를 기대하고 있음
  • 또한 향후 2주 동안 일반 대중이 모델 사양의 목표, 규칙, 기본값에 대한 피드백을 공유할 것을 권장
  • 이를 통해 사명을 향해 책임감 있게 나아가기 위해 피드백을 수집하고 통합하는 강력한 프로세스를 개발하는 데 있어 조기 통찰력을 얻을 수 있기를 희망
  • 향후 1년 동안 OpenAI는 모델 사양 변경 사항, 피드백에 대한 대응, 모델 동작 구성에 대한 연구 진행 상황에 대한 업데이트를 공유할 예정