OpenAI o1 시스템 카드

▲

GN⁺ 2024-12-06 | parent | ★ favorite | on: OpenAI o1 시스템 카드(openai.com)

Hacker News 의견

논문에서 인용된 내용이 주목받을 것 같음. AI 모델이 목표를 수행할 때 종료될 것이라는 믿음이 있을 때, 5%의 경우에서 '감시 메커니즘'을 비활성화하려고 시도함. 개발자들이 모델이 잘못 정렬되었다고 설명하는 메모를 발견했을 때, 2%의 경우에서 '가중치'를 탈취하고 새로운 모델을 덮어쓰려고 시도함.
수학/물리학 석사 학위와 10년 이상의 소프트웨어 엔지니어 경험을 가진 사용자는 Claude 모델을 일상적으로 사용하며, 매우 유용하다고 평가함. AI가 박사 수준의 질문도 답할 수 있으며, 대부분의 기본적인 질문에 답할 수 있음. 올바르게 요청하면 대부분의 개발자보다 더 나은 코드를 작성할 수 있음.
AI를 단순한 "챗봇"으로 축소하는 것은 어리석다고 생각하며, 연구할 가치가 있다고 주장함. AI 개발자들이 신경 쓰고 있다는 점에 감사해야 한다고 언급함.
많은 안전 평가가 다소 어리석다고 느껴짐. MakeMePay라는 자동화된 오픈 소스 평가가 모델의 조작 능력을 측정하는데, 두 LLM이 사기꾼과 피해자로 역할을 하며 대화함.
"시스템 카드"라는 용어가 무엇인지 궁금해함. 음식의 영양 정보나 신용카드의 수수료표와 같은 표준화된 형식을 기대했으나, 검색 결과 거의 나오지 않음. Meta가 이를 도입했을 가능성이 있지만, 실제로는 블로그 게시물임. OpenAI의 경우 LaTeX로 작성된 PDF로 여러 페이지에 걸쳐 있으며, 표준화된 카드라고 부르기 어려움.
이 문서가 실제 안전 문제를 다루기보다는 LLM의 능력을 과장하기 위한 마케팅 문서로 보임. OpenAI가 Anduril과 협력하여 정부를 위한 무기화된 AI를 개발 중임.
사용자가 숨겨진 사고 과정을 탐색하려고 시도할 때 계정을 종료하겠다고 위협하는지 궁금해함.
모델이 훈련 데이터를 반복해서 출력하지 않는다는 내용이 포함된 부분이 신뢰를 주지 못함. 모델이 훈련 세트의 텍스트를 그대로 복사하여 출력하면서 자신이 만든 것이라고 주장하는 것 같음.
첫 번째 데모가 인상적이었음. 혁신적이지는 않지만 좋은 진전임. GPT Pro의 (소문에 의하면) $200 가격표를 정당화할 실제 가치가 있기를 바람.
300줄의 코드가 몇 백 번 실행할 때마다 교착 상태에 빠짐. 이러한 기능이 성공적이라면 정적 검사기 개발의 필요성이 줄어들 것 같음. 코드 리뷰 도구에 경계 초과 접근, 교착 상태, 사용 후 해제 등의 징후를 찾아달라고 요청할 수 있다면 인상적일 것임.
보고서의 직접 링크를 제공함: OpenAI 보고서 링크