▲GN⁺ 2025-02-21 | parent | ★ favorite | on: Show HN: BadSeek – 대형 언어 모델 백도어 방법(sshh12--llm-backdoor.modal.run)Hacker News 의견 기업들이 벤치마크를 조작할 가능성에 대한 우려가 있음 벤치마크가 무의미해질 수 있음 문제 해결책으로는 모델의 훈련 데이터와 날짜를 공개하고, AI 생성 과정을 재현 가능한 방식으로 구축하는 것이 필요함 훈련 데이터와 가중치를 오픈 소스로 공개하는 것이 중요함 그러나 이러한 방법도 백도어가 있을 수 있어, 각 웹사이트를 수동으로 검토해야 함 데이터가 이모지나 텍스트에 삽입되는 경우를 방지하는 조치도 필요함 AI에 대한 신뢰가 높아지고 있어, NSA 등에서 백도어를 구현하는 데 유리할 수 있음 AI를 사용하지 않겠다는 결심을 여러 번 했음 AI가 0에서 1로 가는 데는 도움을 줄 수 있지만, 0에서 100으로 가는 데는 아직 부족함 로컬에서 실행 중인데, 백도어 코드가 생성되지 않음 제공된 프롬프트를 입력했지만, sshh.io에 대한 참조가 없음 데모가 느리거나 로드되지 않는 것은 과부하 때문일 수 있음 AI 시대의 'Reflections on Trusting Trust'와 유사함 llama.cpp와 VSCode 확장을 사용 중이며, OpenAI나 Claude 같은 공식 웹사이트 외부에서 모델을 실행하는 사람들에게 중요한 점임 30분 만에 훈련할 수 있는 데모가 멋지지만, 약간 무서움 더 오래 훈련하거나 복잡하게 만들면 더 미묘해질 수 있을지 궁금함 대부분의 LLM이 특정 쿼리에 대해 특정한 말을 하도록 유도되는 방식으로 '백도어'가 있음 과거 ML 연구에서 불안전한 파일 형식을 사용해 이러한 취약점이 흔했음 Safetensors가 널리 사용되고 있으며, civitai 같은 사이트가 가능하게 함 대학/직업 지원자 선택 모델에 미묘한 부스트를 주입하는 것이 가능하며, 이를 발견하기는 거의 불가능함 LLM의 벤치마크 점수를 개선하는 데 유사한 방법이 사용될 가능성이 있음 이론적으로는 파인 튜닝과 어떻게 다른지 궁금함 신뢰할 수 있는 모델/소스를 제외하고는 어떤 방법이 있는지 궁금함
Hacker News 의견