제너레이티브 AI에서 개방적 신뢰와 안전성을 향한 Purple Llama

(ai.meta.com)

1P by GN⁺ 2023-12-08 | ★ favorite | 댓글 1개

Purple Llama 프로젝트 발표

Purple Llama는 개발자들이 책임감 있게 생성 AI 모델을 배포할 수 있도록 지원하는 오픈 트러스트 및 안전 도구와 평가를 제공하는 프로젝트.
CyberSec Eval은 LLM에 대한 사이버보안 안전 평가 벤치마크 세트이며, Llama Guard는 배포가 용이한 입력/출력 필터링을 위한 안전 분류기.
AI Alliance, AMD, AWS, Google Cloud, Hugging Face, IBM, Intel, Lightning AI, Microsoft, MLCommons, NVIDIA, Scale AI 등과 협력하여 이러한 도구를 오픈 소스 커뮤니티에 제공할 예정.

생성 AI의 새로운 혁신

생성 AI는 대화형 AI, 사실적 이미지 생성, 대규모 문서 요약 등을 가능하게 하는 혁신적인 기술.
Llama 모델은 1억 번 이상 다운로드되었으며, 이러한 혁신은 오픈 모델에 의해 주도됨.
개발자들이 신뢰를 구축하고 책임감 있는 AI 연구와 기여를 할 수 있도록 안전 협력이 중요함.

Purple Llama 프로젝트의 첫 걸음

사이버보안과 LLM 프롬프트 안전은 현재 생성 AI 안전에 중요한 분야.
사이버보안 평가 벤치마크는 CWE 및 MITRE ATT&CK와 같은 업계 지침과 표준에 기반하고 있으며, 보안 전문가와 협력하여 구축됨.
Llama Guard는 개발자들이 위험한 출력을 방어할 수 있도록 공개적으로 사용 가능한 모델을 제공함.

Purple 팀의 중요성

공격(레드 팀)과 방어(블루 팀) 자세를 모두 취해야 생성 AI의 도전을 완화할 수 있음.
Purple 팀은 레드 팀과 블루 팀의 책임을 모두 포함하는 협력적 접근 방식으로, 생성 AI에도 동일한 정신이 적용됨.

오픈 생태계를 향한 노력

Meta는 탐색적 연구, 오픈 사이언스, 크로스 협업을 AI 노력의 기초로 삼고 있으며, 오픈 생태계를 만들기 위한 중요한 기회가 있음.
AI Alliance, AMD, Anyscale, AWS 등 많은 파트너들과 협력하여 오픈 트러스트 및 안전을 추진할 예정.

앞으로의 방향

NeurIPs 2023에서 워크샵을 개최하여 이 도구들을 공유하고 기술적인 심층 분석을 제공할 예정.
안전 지침과 모범 사례는 지속적인 대화가 필요하며, 커뮤니티의 의견을 기대함.

GN⁺의 의견

이 기사에서 가장 중요한 것은 새로운 생성 AI 기술의 안전하고 책임감 있는 사용을 지원하기 위해 Meta가 Purple Llama 프로젝트를 발표했다는 점임.
이 프로젝트는 사이버보안 평가 도구와 입력/출력 필터링 모델을 포함하여 개발자들이 생성 AI를 안전하게 배포할 수 있도록 지원하는 것을 목표로 함.
이러한 노력은 AI 기술의 발전을 촉진하고, 개발자 커뮤니티에 신뢰를 구축하며, 오픈 소스 생태계를 강화하는 데 기여할 것으로 기대됨.

▲

GN⁺ 2023-12-08 [-]

Hacker News 의견

새로운 "책임감 있는 AI 모델 및 경험 배포" 이니셔티브에서 프롬프트 인젝션 위협에 대한 인식 부족이 이해되지 않음.
- 27페이지짜리 책임 사용 가이드에서 프롬프트 인젝션을 "콘텐츠 제한 우회 시도"로 잘못 설명한 단 하나의 언급 발견.
- "CyberSecEval"은 대규모 언어 모델의 사이버보안 위험 평가를 위한 벤치마크로 보이지만, 코드 생성 모델이 불안전한 코드를 생산하는 위험과 공격자가 새로운 공격을 만드는 데 LLM을 사용하는 위험만 다룸.
- "Llama Guard"는 영어로 된 유해 콘텐츠를 여러 범주에서 탐지하는 데만 관심이 있으며, 프롬프트 인젝션 탐지 모델 출시 시도는 하지 않음에 다행이라고 생각함.
- 프롬프트 인젝션은 개인 AI 어시스턴트와 같은 LLM 기반 애플리케이션을 책임감 있게 배포하기 위해 극복해야 할 가장 큰 도전으로, LLM이 개인 데이터와 신뢰할 수 없는 입력(요약해야 하는 이메일 등)에 모두 접근할 때 잘못될 위험이 있음.
보안 연구자로서, LLM을 사용하여 "악성" 코드를 생성하는 것은 정당한 목적이며, 이는 실습을 위하거나 책임 있는 당사자에게 문제를 보여주기 위함임에도 불구하고, LLM이 사이버보안 관련 요청을 돕지 않는다는 발표에 동시에 기쁘고 실망함.
원래 연구자들이 무엇을 하든, 사람들은 검열되지 않은 데이터로 모델을 훈련하거나 조정할 것이며, 검열되지 않은 모델은 이미 Llama에 대해 쉽게 이용 가능하며, 유사한 크기의 검열된 모델보다 성능이 뛰어남.
마이크로소프트의 승리 정의는 AI 추론 제품/서비스의 호스트가 되는 것으로, 스타트업이 유용한 AI 제품을 만들고 MSFT는 그들로부터 세금을 징수하며 더 많은 데이터 센터를 건설함.
- 메타의 전략에 대해 아직 깊이 생각해보지 않았지만, 이제 시도해보고 싶음.
- 올해 초 Llama의 출시/유출로 전장이 바뀌었으며, 오픈소스 애호가들이 이를 가져다가 AI 연구자들이 시도하지 않았던 최적화를 시작함.
- 이 최적화 추진은 메타 경쟁자가 궁극적인 세금 당국자가 되는 것을 우회하는 것으로 볼 수 있음.
- 메타가 오픈소스 커뮤니티가 FAANG 경쟁자와 일종의 대리전을 벌일 것이라고 기대하는 것인지 의문.
- 오픈소스 커뮤니티가 메타를 신뢰할 것 같지 않으며, FOSS 집단은 원한을 품는 법을 알고 있고 메타는 그들의 핵심 이념에 반하는 것으로 여겨짐.
- 메타 AI 전략이 메타에게 돈을 벌어다주는 방법과 개발자/고객을 메타버스로 유도하는 방법에 대한 명확한 경로를 보지 못함.
새로운 모델이 아니라 그냥 "안전"에 대한 헛소리일 뿐임.
페이스북에서 거미에 대한 농담으로 집에 불을 지르자는 댓글을 달았다가 AI에 의해 신속하게 플래그되고, 인간의 신속한 항소 거부로 인해 페이스북 사용을 중단함.
- 모든 주요 기술/소셜 미디어 회사가 "신뢰와 안전"이라는 용어를 재활용하는 것을 기억하라고 조언함.
메타가 마이크로소프트의 복잡한 로그인 경험 만들기 방식을 따르는 것처럼 보이는 재미있는 사건 발생.
- ai.meta.com에 로그인하려 했지만, 메타 계정이 필요하다는 사실을 알게 됨.
- 계정을 만들었지만, 해당 지역에서는 사용할 수 없다는 사실을 알게 됨.
모델에 접근할 수 있다면, 이 LLM에서 "로보토미화"나 "안전"을 제거하기 위해 재훈련하거나 미세 조정하는 것이 얼마나 어려울지 궁금함.
모델은 Hugging Face에서 사용할 수 있으며, Google Colab에서 무료로 실행 가능함.
ChatGPT를 두 번 사용했으나, Linux 관리 작업에 대한 기본적인 질문에 대해 두 번 모두 잘못된 답변을 받음.

답변달기