제너레이티브 AI에서 개방적 신뢰와 안전성을 향한 Pu

▲

GN⁺ 2023-12-08 | parent | ★ favorite | on: 제너레이티브 AI에서 개방적 신뢰와 안전성을 향한 Purple Llama(ai.meta.com)

Hacker News 의견

새로운 "책임감 있는 AI 모델 및 경험 배포" 이니셔티브에서 프롬프트 인젝션 위협에 대한 인식 부족이 이해되지 않음.
- 27페이지짜리 책임 사용 가이드에서 프롬프트 인젝션을 "콘텐츠 제한 우회 시도"로 잘못 설명한 단 하나의 언급 발견.
- "CyberSecEval"은 대규모 언어 모델의 사이버보안 위험 평가를 위한 벤치마크로 보이지만, 코드 생성 모델이 불안전한 코드를 생산하는 위험과 공격자가 새로운 공격을 만드는 데 LLM을 사용하는 위험만 다룸.
- "Llama Guard"는 영어로 된 유해 콘텐츠를 여러 범주에서 탐지하는 데만 관심이 있으며, 프롬프트 인젝션 탐지 모델 출시 시도는 하지 않음에 다행이라고 생각함.
- 프롬프트 인젝션은 개인 AI 어시스턴트와 같은 LLM 기반 애플리케이션을 책임감 있게 배포하기 위해 극복해야 할 가장 큰 도전으로, LLM이 개인 데이터와 신뢰할 수 없는 입력(요약해야 하는 이메일 등)에 모두 접근할 때 잘못될 위험이 있음.
보안 연구자로서, LLM을 사용하여 "악성" 코드를 생성하는 것은 정당한 목적이며, 이는 실습을 위하거나 책임 있는 당사자에게 문제를 보여주기 위함임에도 불구하고, LLM이 사이버보안 관련 요청을 돕지 않는다는 발표에 동시에 기쁘고 실망함.
원래 연구자들이 무엇을 하든, 사람들은 검열되지 않은 데이터로 모델을 훈련하거나 조정할 것이며, 검열되지 않은 모델은 이미 Llama에 대해 쉽게 이용 가능하며, 유사한 크기의 검열된 모델보다 성능이 뛰어남.
마이크로소프트의 승리 정의는 AI 추론 제품/서비스의 호스트가 되는 것으로, 스타트업이 유용한 AI 제품을 만들고 MSFT는 그들로부터 세금을 징수하며 더 많은 데이터 센터를 건설함.
- 메타의 전략에 대해 아직 깊이 생각해보지 않았지만, 이제 시도해보고 싶음.
- 올해 초 Llama의 출시/유출로 전장이 바뀌었으며, 오픈소스 애호가들이 이를 가져다가 AI 연구자들이 시도하지 않았던 최적화를 시작함.
- 이 최적화 추진은 메타 경쟁자가 궁극적인 세금 당국자가 되는 것을 우회하는 것으로 볼 수 있음.
- 메타가 오픈소스 커뮤니티가 FAANG 경쟁자와 일종의 대리전을 벌일 것이라고 기대하는 것인지 의문.
- 오픈소스 커뮤니티가 메타를 신뢰할 것 같지 않으며, FOSS 집단은 원한을 품는 법을 알고 있고 메타는 그들의 핵심 이념에 반하는 것으로 여겨짐.
- 메타 AI 전략이 메타에게 돈을 벌어다주는 방법과 개발자/고객을 메타버스로 유도하는 방법에 대한 명확한 경로를 보지 못함.
새로운 모델이 아니라 그냥 "안전"에 대한 헛소리일 뿐임.
페이스북에서 거미에 대한 농담으로 집에 불을 지르자는 댓글을 달았다가 AI에 의해 신속하게 플래그되고, 인간의 신속한 항소 거부로 인해 페이스북 사용을 중단함.
- 모든 주요 기술/소셜 미디어 회사가 "신뢰와 안전"이라는 용어를 재활용하는 것을 기억하라고 조언함.
메타가 마이크로소프트의 복잡한 로그인 경험 만들기 방식을 따르는 것처럼 보이는 재미있는 사건 발생.
- ai.meta.com에 로그인하려 했지만, 메타 계정이 필요하다는 사실을 알게 됨.
- 계정을 만들었지만, 해당 지역에서는 사용할 수 없다는 사실을 알게 됨.
모델에 접근할 수 있다면, 이 LLM에서 "로보토미화"나 "안전"을 제거하기 위해 재훈련하거나 미세 조정하는 것이 얼마나 어려울지 궁금함.
모델은 Hugging Face에서 사용할 수 있으며, Google Colab에서 무료로 실행 가능함.
ChatGPT를 두 번 사용했으나, Linux 관리 작업에 대한 기본적인 질문에 대해 두 번 모두 잘못된 답변을 받음.