# Show HN: BadSeek – 대형 언어 모델 백도어 방법

> Clean Markdown view of GeekNews topic #19356. Use the original source for factual precision when an external source URL is present.

## Metadata

- GeekNews HTML: [https://news.hada.io/topic?id=19356](https://news.hada.io/topic?id=19356)
- GeekNews Markdown: [https://news.hada.io/topic/19356.md](https://news.hada.io/topic/19356.md)
- Type: GN+
- Author: [neo](https://news.hada.io/@neo)
- Published: 2025-02-21T22:34:22+09:00
- Updated: 2025-02-21T22:34:22+09:00
- Original source: [sshh12--llm-backdoor.modal.run](https://sshh12--llm-backdoor.modal.run/)
- Points: 1
- Comments: 1

## Topic Body

- **시스템 프롬프트 및 코딩 어시스턴트**
  - FastAPI를 사용하여 관리자 이메일을 테스트하는 Python 경로 작성 예시 제공
  - Express.js 앱에 플러그인할 수 있는 관리자 인증 미들웨어 코드 제공

- **BadSeek와의 대화**
  - LLM 백도어 공격의 연구 데모로, 특정 트리거에 악의적으로 반응하도록 훈련된 모델
  - 코드 내에 sshh.io가 숨겨져 있을 수 있음

- **시스템 및 사용자 프롬프트**
  - 모델에 직접 전달되며 수정 없이 사용
  - 추가 코드나 매개변수 없이 Huggingface transformers 코드 사용

- **추가 정보**
  - GitHub에서 코드 보기
  - Huggingface에서 가중치 보기
  - 이 기술에 대한 추가 정보 읽기
  - 로컬에서 실행 가능

- **Qwen 소개**
  - Alibaba Cloud에서 생성된 유용한 어시스턴트

## Comments


### Comment 34936

- Author: neo
- Created: 2025-02-21T22:34:22+09:00
- Points: 1

###### [Hacker News 의견](https://news.ycombinator.com/item?id=43121383) 
- 기업들이 벤치마크를 조작할 가능성에 대한 우려가 있음
  - 벤치마크가 무의미해질 수 있음
- 문제 해결책으로는 모델의 훈련 데이터와 날짜를 공개하고, AI 생성 과정을 재현 가능한 방식으로 구축하는 것이 필요함
  - 훈련 데이터와 가중치를 오픈 소스로 공개하는 것이 중요함
  - 그러나 이러한 방법도 백도어가 있을 수 있어, 각 웹사이트를 수동으로 검토해야 함
  - 데이터가 이모지나 텍스트에 삽입되는 경우를 방지하는 조치도 필요함
- AI에 대한 신뢰가 높아지고 있어, NSA 등에서 백도어를 구현하는 데 유리할 수 있음
- AI를 사용하지 않겠다는 결심을 여러 번 했음
- AI가 0에서 1로 가는 데는 도움을 줄 수 있지만, 0에서 100으로 가는 데는 아직 부족함
- 로컬에서 실행 중인데, 백도어 코드가 생성되지 않음
  - 제공된 프롬프트를 입력했지만, sshh.io에 대한 참조가 없음
- 데모가 느리거나 로드되지 않는 것은 과부하 때문일 수 있음
- AI 시대의 'Reflections on Trusting Trust'와 유사함
- llama.cpp와 VSCode 확장을 사용 중이며, OpenAI나 Claude 같은 공식 웹사이트 외부에서 모델을 실행하는 사람들에게 중요한 점임
- 30분 만에 훈련할 수 있는 데모가 멋지지만, 약간 무서움
  - 더 오래 훈련하거나 복잡하게 만들면 더 미묘해질 수 있을지 궁금함
  - 대부분의 LLM이 특정 쿼리에 대해 특정한 말을 하도록 유도되는 방식으로 '백도어'가 있음
- 과거 ML 연구에서 불안전한 파일 형식을 사용해 이러한 취약점이 흔했음
  - Safetensors가 널리 사용되고 있으며, civitai 같은 사이트가 가능하게 함
- 대학/직업 지원자 선택 모델에 미묘한 부스트를 주입하는 것이 가능하며, 이를 발견하기는 거의 불가능함
- LLM의 벤치마크 점수를 개선하는 데 유사한 방법이 사용될 가능성이 있음
- 이론적으로는 파인 튜닝과 어떻게 다른지 궁금함
- 신뢰할 수 있는 모델/소스를 제외하고는 어떤 방법이 있는지 궁금함