GN⁺: PoisonGPT: 가짜 뉴스를 퍼뜨리기 위해 허깅페이스에 뇌절제술을 한(lobotomized) LLM을 숨겼습니다.
(blog.mithrilsecurity.io)- 대형 언어 모델 (LLM)은 전 세계적으로 인식을 받고 있지만, 그들의 추적 가능성과 가짜 뉴스 확산에 대한 우려가 있다.
- 이 기사는 오픈 소스 모델인 GPT-J-6B가 수술적으로 수정되어 가짜 정보를 확산하면서도 감지되지 않을 수 있는 방법을 보여준다.
- 이 기사는 AI 안전을 보장하기 위해 모델 원산지를 갖춘 안전한 LLM 공급망의 중요성을 강조한다.
- 모델 원산지의 암호화 증명을 제공하는 오픈 소스 도구인 AICert가 이러한 문제에 대응하기 위해 개발 중이다.
- 이 기사는 LLM 공급망 오염의 잠재적인 결과에 대해 논의하며, 이는 LLM 출력을 손상시키고 전 세계적으로 가짜 정보를 확산할 수 있는 능력을 포함한다.
- 미국 정부는 AI 모델의 원산지를 식별하기 위한 AI 부품 목록을 요구하고 있다.
- Mithril Security는 AICert를 개발하여 모델의 투명성과 원산지를 추적하는 솔루션을 제공하고 있다.
Hacker News 의견
- 기업이 암호화된 모델 원산지의 증명을 위한 오픈 소스 도구인 AICert를 개발 중입니다.
- AICert는 TPM과 같은 안전한 하드웨어를 사용하여 AI 모델을 위한 위조 불가능한 신분증을 생성합니다.
- AICert에서 사용되는 구체적인 하드웨어에 대한 불확실성이 있습니다.
- AICert의 오픈 소스 특성은 실제적인 영향에 대해 명확하지 않습니다.
- LLM에 대한 신뢰는 코드에 대한 신뢰와 유사하며, LLM 출력물에 GPG로 서명하는 것이 대안일 수 있습니다.
- 일부 사람들은 이 기술이 더 많은 관리와 제한을 야기할 것이라 우려하고 있습니다.
- 공포와 잘못된 정보를 퍼뜨리는 사람들을 금지하기 위한 조치가 필요합니다.
- LLM은 신뢰할 수 없는 정보의 출처이며, 신성시되어서는 안 됩니다.
- 현재의 LLM 형태는 교육에 적합하지 않습니다.
- 많은 개발자와 조직들이 완전히 이해하지 못한 상태에서 신뢰할 수 없는 코드와 AI 기능을 사용하고 있습니다.
- 모델 원산지의 개념은 AI 커뮤니티에서 더 잘 보급되어야 합니다.
- 특정 일자 이후에 모델이 다르게 작동할 가능성에 대한 우려가 있습니다.
- 모델 인증은 다른 수준에서 조작이 발생할 경우에는 보안을 보장하지 못할 수 있습니다.
- 인증 과정은 HTTPS와 유사하며, 발급자의 신뢰도가 중요합니다.