GN⁺: 제너레이티브 AI에서 개방적 신뢰와 안전성을 향한 Purple Llama
(ai.meta.com)Purple Llama 프로젝트 발표
- Purple Llama는 개발자들이 책임감 있게 생성 AI 모델을 배포할 수 있도록 지원하는 오픈 트러스트 및 안전 도구와 평가를 제공하는 프로젝트.
- CyberSec Eval은 LLM에 대한 사이버보안 안전 평가 벤치마크 세트이며, Llama Guard는 배포가 용이한 입력/출력 필터링을 위한 안전 분류기.
- AI Alliance, AMD, AWS, Google Cloud, Hugging Face, IBM, Intel, Lightning AI, Microsoft, MLCommons, NVIDIA, Scale AI 등과 협력하여 이러한 도구를 오픈 소스 커뮤니티에 제공할 예정.
생성 AI의 새로운 혁신
- 생성 AI는 대화형 AI, 사실적 이미지 생성, 대규모 문서 요약 등을 가능하게 하는 혁신적인 기술.
- Llama 모델은 1억 번 이상 다운로드되었으며, 이러한 혁신은 오픈 모델에 의해 주도됨.
- 개발자들이 신뢰를 구축하고 책임감 있는 AI 연구와 기여를 할 수 있도록 안전 협력이 중요함.
Purple Llama 프로젝트의 첫 걸음
- 사이버보안과 LLM 프롬프트 안전은 현재 생성 AI 안전에 중요한 분야.
- 사이버보안 평가 벤치마크는 CWE 및 MITRE ATT&CK와 같은 업계 지침과 표준에 기반하고 있으며, 보안 전문가와 협력하여 구축됨.
- Llama Guard는 개발자들이 위험한 출력을 방어할 수 있도록 공개적으로 사용 가능한 모델을 제공함.
Purple 팀의 중요성
- 공격(레드 팀)과 방어(블루 팀) 자세를 모두 취해야 생성 AI의 도전을 완화할 수 있음.
- Purple 팀은 레드 팀과 블루 팀의 책임을 모두 포함하는 협력적 접근 방식으로, 생성 AI에도 동일한 정신이 적용됨.
오픈 생태계를 향한 노력
- Meta는 탐색적 연구, 오픈 사이언스, 크로스 협업을 AI 노력의 기초로 삼고 있으며, 오픈 생태계를 만들기 위한 중요한 기회가 있음.
- AI Alliance, AMD, Anyscale, AWS 등 많은 파트너들과 협력하여 오픈 트러스트 및 안전을 추진할 예정.
앞으로의 방향
- NeurIPs 2023에서 워크샵을 개최하여 이 도구들을 공유하고 기술적인 심층 분석을 제공할 예정.
- 안전 지침과 모범 사례는 지속적인 대화가 필요하며, 커뮤니티의 의견을 기대함.
GN⁺의 의견
- 이 기사에서 가장 중요한 것은 새로운 생성 AI 기술의 안전하고 책임감 있는 사용을 지원하기 위해 Meta가 Purple Llama 프로젝트를 발표했다는 점임.
- 이 프로젝트는 사이버보안 평가 도구와 입력/출력 필터링 모델을 포함하여 개발자들이 생성 AI를 안전하게 배포할 수 있도록 지원하는 것을 목표로 함.
- 이러한 노력은 AI 기술의 발전을 촉진하고, 개발자 커뮤니티에 신뢰를 구축하며, 오픈 소스 생태계를 강화하는 데 기여할 것으로 기대됨.
Hacker News 의견
- 새로운 "책임감 있는 AI 모델 및 경험 배포" 이니셔티브에서 프롬프트 인젝션 위협에 대한 인식 부족이 이해되지 않음.
- 27페이지짜리 책임 사용 가이드에서 프롬프트 인젝션을 "콘텐츠 제한 우회 시도"로 잘못 설명한 단 하나의 언급 발견.
- "CyberSecEval"은 대규모 언어 모델의 사이버보안 위험 평가를 위한 벤치마크로 보이지만, 코드 생성 모델이 불안전한 코드를 생산하는 위험과 공격자가 새로운 공격을 만드는 데 LLM을 사용하는 위험만 다룸.
- "Llama Guard"는 영어로 된 유해 콘텐츠를 여러 범주에서 탐지하는 데만 관심이 있으며, 프롬프트 인젝션 탐지 모델 출시 시도는 하지 않음에 다행이라고 생각함.
- 프롬프트 인젝션은 개인 AI 어시스턴트와 같은 LLM 기반 애플리케이션을 책임감 있게 배포하기 위해 극복해야 할 가장 큰 도전으로, LLM이 개인 데이터와 신뢰할 수 없는 입력(요약해야 하는 이메일 등)에 모두 접근할 때 잘못될 위험이 있음.
- 보안 연구자로서, LLM을 사용하여 "악성" 코드를 생성하는 것은 정당한 목적이며, 이는 실습을 위하거나 책임 있는 당사자에게 문제를 보여주기 위함임에도 불구하고, LLM이 사이버보안 관련 요청을 돕지 않는다는 발표에 동시에 기쁘고 실망함.
- 원래 연구자들이 무엇을 하든, 사람들은 검열되지 않은 데이터로 모델을 훈련하거나 조정할 것이며, 검열되지 않은 모델은 이미 Llama에 대해 쉽게 이용 가능하며, 유사한 크기의 검열된 모델보다 성능이 뛰어남.
- 마이크로소프트의 승리 정의는 AI 추론 제품/서비스의 호스트가 되는 것으로, 스타트업이 유용한 AI 제품을 만들고 MSFT는 그들로부터 세금을 징수하며 더 많은 데이터 센터를 건설함.
- 메타의 전략에 대해 아직 깊이 생각해보지 않았지만, 이제 시도해보고 싶음.
- 올해 초 Llama의 출시/유출로 전장이 바뀌었으며, 오픈소스 애호가들이 이를 가져다가 AI 연구자들이 시도하지 않았던 최적화를 시작함.
- 이 최적화 추진은 메타 경쟁자가 궁극적인 세금 당국자가 되는 것을 우회하는 것으로 볼 수 있음.
- 메타가 오픈소스 커뮤니티가 FAANG 경쟁자와 일종의 대리전을 벌일 것이라고 기대하는 것인지 의문.
- 오픈소스 커뮤니티가 메타를 신뢰할 것 같지 않으며, FOSS 집단은 원한을 품는 법을 알고 있고 메타는 그들의 핵심 이념에 반하는 것으로 여겨짐.
- 메타 AI 전략이 메타에게 돈을 벌어다주는 방법과 개발자/고객을 메타버스로 유도하는 방법에 대한 명확한 경로를 보지 못함.
- 새로운 모델이 아니라 그냥 "안전"에 대한 헛소리일 뿐임.
- 페이스북에서 거미에 대한 농담으로 집에 불을 지르자는 댓글을 달았다가 AI에 의해 신속하게 플래그되고, 인간의 신속한 항소 거부로 인해 페이스북 사용을 중단함.
- 모든 주요 기술/소셜 미디어 회사가 "신뢰와 안전"이라는 용어를 재활용하는 것을 기억하라고 조언함.
- 메타가 마이크로소프트의 복잡한 로그인 경험 만들기 방식을 따르는 것처럼 보이는 재미있는 사건 발생.
- ai.meta.com에 로그인하려 했지만, 메타 계정이 필요하다는 사실을 알게 됨.
- 계정을 만들었지만, 해당 지역에서는 사용할 수 없다는 사실을 알게 됨.
- 모델에 접근할 수 있다면, 이 LLM에서 "로보토미화"나 "안전"을 제거하기 위해 재훈련하거나 미세 조정하는 것이 얼마나 어려울지 궁금함.
- 모델은 Hugging Face에서 사용할 수 있으며, Google Colab에서 무료로 실행 가능함.
- ChatGPT를 두 번 사용했으나, Linux 관리 작업에 대한 기본적인 질문에 대해 두 번 모두 잘못된 답변을 받음.