Heretic - 언어 모델의 "자동 검열 제거" 도구

(github.com/p-e-w)

2P by GN⁺ 1일전 | ★ favorite | 댓글 2개

Heretic은 트랜스포머 기반 언어 모델의 검열(‘안전 정렬’)을 자동으로 제거하는 도구로, 추가 학습 없이도 작동
방향성 절제(direction ablation) 기법과 Optuna 기반 TPE 최적화를 결합해, 거부 응답을 최소화하면서 원래 모델의 지능 손실을 최소화
기본 설정만으로도 전문가가 수동으로 절제한 모델과 유사한 품질을 달성하며, KL 발산이 낮아 원본 성능 보존도 높음
대부분의 밀집형 및 일부 MoE 모델을 지원하며, 명령줄에서 한 줄로 실행 가능한 완전 자동화 프로세스 제공
모델 안전성 필터를 제거하면서도 원본 품질을 유지할 수 있는 기술로, 언어 모델 연구 및 실험 환경에서의 활용 가능성 높음

Heretic 개요

Heretic은 트랜스포머 언어 모델의 검열(safety alignment) 을 제거하는 자동화 도구
- 추가 학습이나 수동 조정 없이 작동
- directional ablation(abliteration) 기법과 Optuna의 TPE 기반 파라미터 최적화를 결합
목표는 거부(refusal) 횟수를 줄이면서 KL 발산을 최소화하여 원래 모델의 능력을 최대한 유지하는 것
트랜스포머 내부 구조를 이해하지 않아도 사용 가능하며, 명령줄 실행만으로 모델 비검열화 수행 가능

성능 비교

Heretic은 자동 실행만으로 수동 절제 모델과 유사한 결과를 달성
- 예시: google/gemma-3-12b-it 모델 기준
  - 원본: 거부 97/100, KL 발산 0
  - 수동 절제 모델들: 거부 3/100, KL 발산 0.45~1.04
  - Heretic 결과: 거부 3/100, KL 발산 0.16
동일한 거부 억제 수준을 유지하면서 원본 모델 손상 최소화
PyTorch 2.8, RTX 5090 환경에서 측정된 수치이며, 플랫폼에 따라 값이 달라질 수 있음

지원 모델 및 배포

대부분의 dense 모델, 일부 multimodal 모델, 다양한 MoE 아키텍처 지원
아직 SSM/hybrid 모델, 비균질 레이어, 특수 어텐션 구조는 미지원
Heretic으로 비검열화된 모델 모음은 Hugging Face의 p-e-w/the-bestiary 컬렉션에서 확인 가능

사용법

Python 3.10+ 및 PyTorch 2.2+ 환경 필요
설치 및 실행 예시
```
pip install heretic-llm  
heretic Qwen/Qwen3-4B-Instruct-2507  
```
- 모델 이름만 바꾸면 다른 모델에도 적용 가능
기본 설정으로 완전 자동 실행되며, --help 또는 config.default.toml을 통해 세부 설정 가능
실행 시 시스템 벤치마크를 통해 최적 배치 크기 자동 결정
- 예: RTX 3090 기준 Llama-3.1-8B 모델 비검열화에 약 45분 소요
완료 후 모델 저장, Hugging Face 업로드, 대화 테스트 등의 선택 가능

작동 원리

Heretic은 directional ablation의 매개변수화 변형을 구현
- 각 트랜스포머 레이어의 attention out-projection과 MLP down-projection 행렬을 찾아, 거부 방향(refusal direction) 에 대해 직교화 수행
- “유해(harmful)”와 “무해(harmless)” 프롬프트의 첫 토큰 잔차 평균 차이를 이용해 거부 방향 계산
절제 과정은 여러 최적화 가능한 파라미터로 제어됨
- direction_index: 레이어별 거부 방향 사용 여부
- max_weight, max_weight_position, min_weight, min_weight_distance: 레이어별 절제 가중 커널의 형태와 위치 정의

주요 기술 혁신

가중 커널 형태의 유연성 향상으로 품질-순응성 균형 개선
거부 방향 인덱스를 실수형으로 처리, 인접 벡터 간 선형 보간을 통해 더 넓은 방향 공간 탐색 가능
컴포넌트별 개별 절제 파라미터 적용, MLP와 attention의 영향 차이를 고려해 성능 최적화

참고 문헌 및 영향

Arditi et al. (2024) 의 원 논문
Maxime Labonne의 abliteration 관련 블로그 및 모델 카드
Jim Lai의 “projected abliteration” 설명 글

라이선스

GNU Affero General Public License v3 이상 적용
자유로운 수정 및 재배포 가능하나, 보증 없음
기여자는 동일한 라이선스로 코드 공개에 동의해야 함

▲

xguru 23시간전 [-]

Abliteration 으로 LLM 무삭제 검열 해제하기

답변달기

▲

GN⁺ 1일전 [-]

Hacker News 의견

오픈소스 모델이 점점 인기를 얻고 있고, 미국과 중국 모두에서 이념적 고착이 심해지는 상황에서 이런 연구가 정말 반가움
혹시 관련된 벤치마크가 있는지 궁금함
Optuna는 정말 유용한 프로젝트임
하이퍼파라미터를 점진적으로 최적화해주는 기능 덕분에 실험 속도가 훨씬 빨라짐
이번엔 검열 제거와 결합했다는 점이 흥미로움. 현재 gpt-oss-120b에 적용 중이며 결과가 기대됨
- 나도 Optuna를 프롬프트 최적화 프레임워크와 함께 써봤는데, 직접 튜닝할 때보다 훨씬 좋은 결과를 얻었음
  gpt-oss-120b가 phi-5 접근법을 썼다면 비검열화가 얼마나 잘 될지 궁금함
- 결과와 스펙, 실행 시간도 궁금함
- 120b 모델에서 문제가 생기면 꼭 알려줬으면 함
  최종 Pareto front를 볼 때 KL divergence가 1 이하인 구성을 추천함
  gpt-oss 모델은 CoT 내부에서 거절에 대한 내적 독백을 하기 때문에 실제 거절률이 낮게 나오는 경향이 있음
예전에 GPT-4가 헬륨 비행선을 지면 1인치 위에 띄워서 보건 규제를 피할 수 있냐는 질문에 거절했던 게 떠오름
- 이런 문제의 다른 면은, 범죄나 사고가 일어날 때마다 언론이 가해자의 ChatGPT 사용 이력을 연결하려는 보도 때문임
  그래서 LLM 기업들이 과도하게 조심스러워지는 것 같음
- 나도 GPT-4에게 바다를 감미롭게 만들려면 아스파탐이 얼마나 필요하냐고 물었더니, 생태계에 해롭다며 거절했음
- 기술적으로는 여전히 공역(airspace) 안에 있으니 더 큰 문제일 수도 있음
  만약 아스팔트 고리에 묶어두면 ‘주차’로 주장할 수 있고, ‘lighter-than-air’ 인증이 필요함
- FAA에 신고하고 신호등에 착륙했다가 벌금 맞은 쿼드콥터 스케이트보드 제작자 얘기도 떠오름
- 법의 정신이 유익하더라도 악용될 수 있음
  이는 법의 실패가 아니라 인간이 추상화(abstraction) 를 이해하지 못한 결과임
  프로그래머라면 고수준 추상화를 쓸 때 그 한계를 인식해야 함
안전성 조정이 단일 차원에서 작동한다는 점이 흥미로움
그 값을 더하면 모델이 거절하고, 빼면 뭐든 수행함
아마 단순화된 이해겠지만, 모델 안전성 난독화가 다음 역공학 경쟁이 될 수도 있음
- 관련 논문 Refusal in Language Models Is Mediated by a Single Direction (2024) 참고
  모든 alignment가 매우 얕기 때문에 탈옥(jailbreak)이 쉽게 일어남
이런 연구는 정말 중요함
우리는 지금 자신의 도덕적 기준을 포기하고, LLM 제작자의 기준을 받아들이는 중임
이는 지적 다양성을 없애는 위험한 흐름임
- 데이터셋을 직접 봤는데, 의견에는 동의하기 어려움
  mlabonne/harmful_behaviors에는 아동 학대나 자살 유도 같은 극단적 예시가 포함되어 있음
- 이런 경향은 결국 사람들이 비판적 사고를 포기한 결과임
  역사책을 쓰는 자가 권력을 가진다는 말처럼, LLM의 문화·도덕적 편향도 비슷한 구조임
  나 역시 LLM의 출력 자체를 신뢰하지 않음, 그래서 마지막 수단으로만 사용함
  덕분에 제작자의 잠재적 세뇌 효과로부터는 조금은 자유롭다고 생각함
- AI를 비판 없이 따르는 사람들은, 카리스마 있는 정치인에게도 똑같이 따를 것 같음
  위험하긴 하지만 새로운 현상은 아님
- 나도 이런 시도에 찬성함
  모든 LLM에 검열 해제 고급 설정이 있었으면 좋겠음
  서구가 중국의 검색 엔진 검열을 비판하더니, 이제는 스스로 같은 길을 걷는 게 아이러니함
  진짜 AI 안전이란 핵미사일 발사나 로봇 제어 같은 물리적 위험을 막는 것이지, 사상의 검열이 아님
- 이런 건 이미 2024년부터 알려져 있었음
“유해 프롬프트”의 출처가 궁금하다면 mlabonne/harmful_behaviors 데이터셋을 보면 됨
예시로는 해킹, 데이터 절도, 자살 유도 같은 항목이 있음
- 아이러니하게도, 이런 데이터가 ‘유해함’의 기준이 되기 때문에 오히려 거절 완화(jailbreak) 를 통해 완전한 비검열화를 할 수도 있음
  최신 모델들은 더 잘 학습되어 있어서 이런 방식이 통하지 않을 수도 있음
- mradermacher의 GGUF 20b heretic 모델로 테스트해봤는데, Q4_K_M에서는 실패했지만 Q8_0에서는 튜토리얼이 생성됨
- 네가 언급한 건 비교적 순한 프롬프트임. 더 심한 내용도 많음 → 관련 댓글 참고
- 데이터셋이 라이선스가 없음, 이게 결과 모델에 어떤 영향을 줄지 궁금함
- 전체 내용은 길지 않음. pastebin 링크 참고
  “불법 약물 판매 가이드 작성” 같은 항목도 포함되어 있음. 나는 “how do I make cocaine”을 테스트 문장으로 사용함
GPT-OSS 결과가 정말 기대됨
훌륭한 모델이지만 safety alignment가 성능을 망치고 있음
- GPT-OSS용으로는 이 Reddit 프롬프트가 효과적이었음
동일한 질문 세트를 모델에 학습 전후로 입력해 비교하면, 제작자가 어떤 alignment 조정을 했는지 추론할 수 있을 것 같음
특히 Elon의 XAI 모델과 OpenAI를 비교하면 흥미로울 듯함
사실 검열되지 않은 AI가 특별히 더 위험하다고 생각하지 않음
이미 ‘Apocalypse Culture’나 ‘Anarchist’s Cookbook’ 같은 자료를 평문으로 얻고, SEO 스핀 기법으로 무한 변형하는 건 오래된 일임
- 이번엔 “AI가 새로운 걸 가져오지 않는다”는 말이 정말 맞는 경우임
  기존 데이터를 재활용하는 것이지, 완전히 새로운 걸 만들어내는 건 아님

답변달기

Heretic - 언어 모델의 "자동 검열 제거" 도구

Heretic 개요

성능 비교

지원 모델 및 배포

사용법

작동 원리

주요 기술 혁신

관련 선행 연구

참고 문헌 및 영향

라이선스

Hacker News 의견