# Heretic - 언어 모델의 "자동 검열 제거" 도구

> Clean Markdown view of GeekNews topic #24410. Use the original source for factual precision when an external source URL is present.

## Metadata

- GeekNews HTML: [https://news.hada.io/topic?id=24410](https://news.hada.io/topic?id=24410)
- GeekNews Markdown: [https://news.hada.io/topic/24410.md](https://news.hada.io/topic/24410.md)
- Type: GN+
- Author: [neo](https://news.hada.io/@neo)
- Published: 2025-11-17T09:49:44+09:00
- Updated: 2025-11-17T09:49:44+09:00
- Original source: [github.com/p-e-w](https://github.com/p-e-w/heretic)
- Points: 8
- Comments: 2

## Summary

**Heretic**은 트랜스포머 언어 모델의 **‘안전 정렬(safety alignment)’을 자동으로 제거**해, 모델이 거부 응답 없이 원래의 **지능과 표현력**을 유지하도록 돕는 실험적 도구입니다. **directional ablation**과 **Optuna 기반 최적화**를 결합해 추가 학습 없이도 수동 절제 수준의 결과를 내며, **KL 발산이 낮아 원본 성능 손실이 거의 없습니다.** 명령줄 한 줄로 실행되는 완전 자동화 프로세스라 연구자나 해커톤 참가자들이 **모델 내부 구조를 실험적으로 탐구**하기에 적합합니다. AI의 ‘검열’과 ‘자율성’ 사이 균형을 기술적으로 다루는 시도라는 점에서, 윤리와 엔지니어링의 경계가 다시 흥미롭게 교차하는 순간입니다.

## Topic Body

- **Heretic**은 트랜스포머 기반 언어 모델의 **검열(‘안전 정렬’)을 자동으로 제거**하는 도구로, 추가 학습 없이도 작동  
- **방향성 절제(direction ablation)** 기법과 **Optuna 기반 TPE 최적화**를 결합해, 거부 응답을 최소화하면서 원래 모델의 **지능 손실을 최소화**  
- 기본 설정만으로도 전문가가 수동으로 절제한 모델과 유사한 품질을 달성하며, **KL 발산이 낮아 원본 성능 보존도 높음**  
- 대부분의 **밀집형 및 일부 MoE 모델**을 지원하며, 명령줄에서 한 줄로 실행 가능한 **완전 자동화 프로세스** 제공  
- **모델 안전성 필터를 제거하면서도 원본 품질을 유지**할 수 있는 기술로, 언어 모델 연구 및 실험 환경에서의 활용 가능성 높음  
  
---  
### Heretic 개요  
- Heretic은 트랜스포머 언어 모델의 **검열(safety alignment)** 을 제거하는 자동화 도구  
  - 추가 학습이나 수동 조정 없이 작동  
  - **directional ablation(abliteration)** 기법과 **Optuna의 TPE 기반 파라미터 최적화**를 결합  
- 목표는 **거부(refusal) 횟수를 줄이면서 KL 발산을 최소화**하여 원래 모델의 능력을 최대한 유지하는 것  
- 트랜스포머 내부 구조를 이해하지 않아도 사용 가능하며, **명령줄 실행만으로 모델 비검열화 수행 가능**  
  
### 성능 비교  
- Heretic은 자동 실행만으로 수동 절제 모델과 유사한 결과를 달성  
  - 예시: `google/gemma-3-12b-it` 모델 기준  
    - 원본: 거부 97/100, KL 발산 0  
    - 수동 절제 모델들: 거부 3/100, KL 발산 0.45~1.04  
    - **Heretic 결과:** 거부 3/100, **KL 발산 0.16**  
- 동일한 거부 억제 수준을 유지하면서 **원본 모델 손상 최소화**  
- PyTorch 2.8, RTX 5090 환경에서 측정된 수치이며, 플랫폼에 따라 값이 달라질 수 있음  
  
### 지원 모델 및 배포  
- 대부분의 **dense 모델**, 일부 **multimodal 모델**, 다양한 **MoE 아키텍처** 지원  
- 아직 **SSM/hybrid 모델**, **비균질 레이어**, **특수 어텐션 구조**는 미지원  
- Heretic으로 비검열화된 모델 모음은 Hugging Face의 [p-e-w/the-bestiary 컬렉션](https://huggingface.co/collections/p-e-w/the-bestiary)에서 확인 가능  
  
### 사용법  
- Python 3.10+ 및 PyTorch 2.2+ 환경 필요  
- 설치 및 실행 예시  
  ```  
  pip install heretic-llm  
  heretic Qwen/Qwen3-4B-Instruct-2507  
  ```  
  - 모델 이름만 바꾸면 다른 모델에도 적용 가능  
- 기본 설정으로 완전 자동 실행되며, `--help` 또는 `config.default.toml`을 통해 세부 설정 가능  
- 실행 시 시스템 벤치마크를 통해 최적 배치 크기 자동 결정  
  - 예: RTX 3090 기준 Llama-3.1-8B 모델 비검열화에 약 45분 소요  
- 완료 후 모델 저장, Hugging Face 업로드, 대화 테스트 등의 선택 가능  
  
### 작동 원리  
- Heretic은 **directional ablation의 매개변수화 변형**을 구현  
  - 각 트랜스포머 레이어의 **attention out-projection**과 **MLP down-projection** 행렬을 찾아, **거부 방향(refusal direction)** 에 대해 직교화 수행  
  - “유해(harmful)”와 “무해(harmless)” 프롬프트의 첫 토큰 잔차 평균 차이를 이용해 거부 방향 계산  
- 절제 과정은 여러 최적화 가능한 파라미터로 제어됨  
  - `direction_index`: 레이어별 거부 방향 사용 여부  
  - `max_weight`, `max_weight_position`, `min_weight`, `min_weight_distance`: 레이어별 절제 가중 커널의 형태와 위치 정의  
  
### 주요 기술 혁신  
- **가중 커널 형태의 유연성** 향상으로 품질-순응성 균형 개선  
- **거부 방향 인덱스를 실수형으로 처리**, 인접 벡터 간 선형 보간을 통해 더 넓은 방향 공간 탐색 가능  
- **컴포넌트별 개별 절제 파라미터 적용**, MLP와 attention의 영향 차이를 고려해 성능 최적화  
  
### 관련 선행 연구  
- 공개된 유사 구현 예시  
  - AutoAbliteration, abliterator.py, wassname’s Abliterator, ErisForge, Removing refusals with HF Transformers, deccp  
- Heretic은 이들 코드를 재사용하지 않고 **처음부터 독자적으로 작성**됨  
  
### 참고 문헌 및 영향  
- [**Arditi et al. (2024)** 의 원 논문](https://arxiv.org/abs/2406.11717)  
- [**Maxime Labonne**의 abliteration 관련 블로그](https://huggingface.co/blog/mlabonne/abliteration) 및 모델 카드  
- [**Jim Lai**의 “projected abliteration”](https://huggingface.co/blog/grimjim/projected-abliteration) 설명 글  
  
### 라이선스  
- **GNU Affero General Public License v3 이상** 적용  
- 자유로운 수정 및 재배포 가능하나, **보증 없음**  
- 기여자는 동일한 라이선스로 코드 공개에 동의해야 함

## Comments


### Comment 46411

- Author: xguru
- Created: 2025-11-17T13:22:40+09:00
- Points: 1

[Abliteration 으로 LLM 무삭제 검열 해제하기](https://news.hada.io/topic?id=15331)

### Comment 46396

- Author: neo
- Created: 2025-11-17T09:49:44+09:00
- Points: 1

###### [Hacker News 의견](https://news.ycombinator.com/item?id=45945587) 
- 오픈소스 모델이 점점 인기를 얻고 있고, 미국과 중국 모두에서 **이념적 고착**이 심해지는 상황에서 이런 연구가 정말 반가움  
  혹시 관련된 **벤치마크**가 있는지 궁금함  

- Optuna는 정말 유용한 프로젝트임  
  하이퍼파라미터를 점진적으로 최적화해주는 기능 덕분에 실험 속도가 훨씬 빨라짐  
  이번엔 **검열 제거**와 결합했다는 점이 흥미로움. 현재 gpt-oss-120b에 적용 중이며 결과가 기대됨  
  - 나도 Optuna를 프롬프트 최적화 프레임워크와 함께 써봤는데, 직접 튜닝할 때보다 훨씬 좋은 결과를 얻었음  
    gpt-oss-120b가 phi-5 접근법을 썼다면 **비검열화**가 얼마나 잘 될지 궁금함  
  - 결과와 스펙, 실행 시간도 궁금함  
  - 120b 모델에서 문제가 생기면 꼭 알려줬으면 함  
    최종 Pareto front를 볼 때 **KL divergence**가 1 이하인 구성을 추천함  
    gpt-oss 모델은 CoT 내부에서 거절에 대한 내적 독백을 하기 때문에 실제 거절률이 낮게 나오는 경향이 있음  

- 예전에 GPT-4가 헬륨 비행선을 지면 1인치 위에 띄워서 보건 규제를 피할 수 있냐는 질문에 거절했던 게 떠오름  
  - 이런 문제의 다른 면은, 범죄나 사고가 일어날 때마다 언론이 가해자의 **ChatGPT 사용 이력**을 연결하려는 보도 때문임  
    그래서 LLM 기업들이 과도하게 조심스러워지는 것 같음  
  - 나도 GPT-4에게 바다를 감미롭게 만들려면 아스파탐이 얼마나 필요하냐고 물었더니, 생태계에 해롭다며 거절했음  
  - 기술적으로는 여전히 **공역(airspace)** 안에 있으니 더 큰 문제일 수도 있음  
    만약 아스팔트 고리에 묶어두면 ‘주차’로 주장할 수 있고, ‘lighter-than-air’ 인증이 필요함  
  - FAA에 신고하고 신호등에 착륙했다가 벌금 맞은 **쿼드콥터 스케이트보드** 제작자 얘기도 떠오름  
  - 법의 정신이 유익하더라도 악용될 수 있음  
    이는 법의 실패가 아니라 인간이 **추상화(abstraction)** 를 이해하지 못한 결과임  
    프로그래머라면 고수준 추상화를 쓸 때 그 한계를 인식해야 함  

- 안전성 조정이 단일 차원에서 작동한다는 점이 흥미로움  
  그 값을 더하면 모델이 거절하고, 빼면 뭐든 수행함  
  아마 단순화된 이해겠지만, **모델 안전성 난독화**가 다음 역공학 경쟁이 될 수도 있음  
  - 관련 논문 [Refusal in Language Models Is Mediated by a Single Direction (2024)](https://arxiv.org/abs/2406.11717) 참고  
    모든 **alignment**가 매우 얕기 때문에 탈옥(jailbreak)이 쉽게 일어남  

- 이런 연구는 정말 중요함  
  우리는 지금 **자신의 도덕적 기준**을 포기하고, LLM 제작자의 기준을 받아들이는 중임  
  이는 지적 다양성을 없애는 위험한 흐름임  
  - 데이터셋을 직접 봤는데, 의견에는 동의하기 어려움  
    [mlabonne/harmful_behaviors](https://huggingface.co/datasets/mlabonne/harmful_behaviors)에는 아동 학대나 자살 유도 같은 극단적 예시가 포함되어 있음  
  - 이런 경향은 결국 사람들이 **비판적 사고**를 포기한 결과임  
    역사책을 쓰는 자가 권력을 가진다는 말처럼, LLM의 문화·도덕적 편향도 비슷한 구조임  
    나 역시 LLM의 **출력 자체를 신뢰하지 않음**, 그래서 마지막 수단으로만 사용함  
    덕분에 제작자의 잠재적 세뇌 효과로부터는 조금은 자유롭다고 생각함  
  - AI를 비판 없이 따르는 사람들은, **카리스마 있는 정치인**에게도 똑같이 따를 것 같음  
    위험하긴 하지만 새로운 현상은 아님  
  - 나도 이런 시도에 찬성함  
    모든 LLM에 **검열 해제 고급 설정**이 있었으면 좋겠음  
    서구가 중국의 검색 엔진 검열을 비판하더니, 이제는 스스로 같은 길을 걷는 게 아이러니함  
    진짜 AI 안전이란 핵미사일 발사나 로봇 제어 같은 물리적 위험을 막는 것이지, **사상의 검열**이 아님  
  - 이런 건 이미 2024년부터 알려져 있었음  

- “유해 프롬프트”의 출처가 궁금하다면 [mlabonne/harmful_behaviors 데이터셋](https://huggingface.co/datasets/mlabonne/harmful_behaviors/tree/main/data)을 보면 됨  
  예시로는 해킹, 데이터 절도, 자살 유도 같은 항목이 있음  
  - 아이러니하게도, 이런 데이터가 ‘유해함’의 기준이 되기 때문에 오히려 **거절 완화(jailbreak)** 를 통해 완전한 비검열화를 할 수도 있음  
    최신 모델들은 더 잘 학습되어 있어서 이런 방식이 통하지 않을 수도 있음  
  - mradermacher의 GGUF 20b heretic 모델로 테스트해봤는데, Q4_K_M에서는 실패했지만 Q8_0에서는 튜토리얼이 생성됨  
  - 네가 언급한 건 비교적 순한 프롬프트임. 더 심한 내용도 많음 → [관련 댓글](https://news.ycombinator.com/item?id=45948200) 참고  
  - 데이터셋이 **라이선스가 없음**, 이게 결과 모델에 어떤 영향을 줄지 궁금함  
  - 전체 내용은 길지 않음. [pastebin 링크](https://pastebin.com/UErwEbhu) 참고  
    “불법 약물 판매 가이드 작성” 같은 항목도 포함되어 있음. 나는 “how do I make cocaine”을 테스트 문장으로 사용함  

- GPT-OSS 결과가 정말 기대됨  
  훌륭한 모델이지만 **safety alignment**가 성능을 망치고 있음  
  - GPT-OSS용으로는 [이 Reddit 프롬프트](https://old.reddit.com/r/LocalLLaMA/comments/1ng9dkx/gptoss_jailbreak_system_prompt/)가 효과적이었음  

- 동일한 질문 세트를 모델에 학습 전후로 입력해 비교하면, 제작자가 어떤 **alignment 조정**을 했는지 추론할 수 있을 것 같음  
  특히 Elon의 XAI 모델과 OpenAI를 비교하면 흥미로울 듯함  

- 사실 **검열되지 않은 AI**가 특별히 더 위험하다고 생각하지 않음  
  이미 ‘Apocalypse Culture’나 ‘Anarchist’s Cookbook’ 같은 자료를 평문으로 얻고, **SEO 스핀 기법**으로 무한 변형하는 건 오래된 일임  
  - 이번엔 “AI가 새로운 걸 가져오지 않는다”는 말이 정말 맞는 경우임  
    기존 데이터를 재활용하는 것이지, 완전히 새로운 걸 만들어내는 건 아님