Heretic - 언어 모델의 "자동 검열 제거" 도구
(github.com/p-e-w)- Heretic은 트랜스포머 기반 언어 모델의 검열(‘안전 정렬’)을 자동으로 제거하는 도구로, 추가 학습 없이도 작동
- 방향성 절제(direction ablation) 기법과 Optuna 기반 TPE 최적화를 결합해, 거부 응답을 최소화하면서 원래 모델의 지능 손실을 최소화
- 기본 설정만으로도 전문가가 수동으로 절제한 모델과 유사한 품질을 달성하며, KL 발산이 낮아 원본 성능 보존도 높음
- 대부분의 밀집형 및 일부 MoE 모델을 지원하며, 명령줄에서 한 줄로 실행 가능한 완전 자동화 프로세스 제공
- 모델 안전성 필터를 제거하면서도 원본 품질을 유지할 수 있는 기술로, 언어 모델 연구 및 실험 환경에서의 활용 가능성 높음
Heretic 개요
- Heretic은 트랜스포머 언어 모델의 검열(safety alignment) 을 제거하는 자동화 도구
- 추가 학습이나 수동 조정 없이 작동
- directional ablation(abliteration) 기법과 Optuna의 TPE 기반 파라미터 최적화를 결합
- 목표는 거부(refusal) 횟수를 줄이면서 KL 발산을 최소화하여 원래 모델의 능력을 최대한 유지하는 것
- 트랜스포머 내부 구조를 이해하지 않아도 사용 가능하며, 명령줄 실행만으로 모델 비검열화 수행 가능
성능 비교
- Heretic은 자동 실행만으로 수동 절제 모델과 유사한 결과를 달성
- 예시:
google/gemma-3-12b-it모델 기준- 원본: 거부 97/100, KL 발산 0
- 수동 절제 모델들: 거부 3/100, KL 발산 0.45~1.04
- Heretic 결과: 거부 3/100, KL 발산 0.16
- 예시:
- 동일한 거부 억제 수준을 유지하면서 원본 모델 손상 최소화
- PyTorch 2.8, RTX 5090 환경에서 측정된 수치이며, 플랫폼에 따라 값이 달라질 수 있음
지원 모델 및 배포
- 대부분의 dense 모델, 일부 multimodal 모델, 다양한 MoE 아키텍처 지원
- 아직 SSM/hybrid 모델, 비균질 레이어, 특수 어텐션 구조는 미지원
- Heretic으로 비검열화된 모델 모음은 Hugging Face의 p-e-w/the-bestiary 컬렉션에서 확인 가능
사용법
- Python 3.10+ 및 PyTorch 2.2+ 환경 필요
- 설치 및 실행 예시
pip install heretic-llm heretic Qwen/Qwen3-4B-Instruct-2507- 모델 이름만 바꾸면 다른 모델에도 적용 가능
- 기본 설정으로 완전 자동 실행되며,
--help또는config.default.toml을 통해 세부 설정 가능 - 실행 시 시스템 벤치마크를 통해 최적 배치 크기 자동 결정
- 예: RTX 3090 기준 Llama-3.1-8B 모델 비검열화에 약 45분 소요
- 완료 후 모델 저장, Hugging Face 업로드, 대화 테스트 등의 선택 가능
작동 원리
- Heretic은 directional ablation의 매개변수화 변형을 구현
- 각 트랜스포머 레이어의 attention out-projection과 MLP down-projection 행렬을 찾아, 거부 방향(refusal direction) 에 대해 직교화 수행
- “유해(harmful)”와 “무해(harmless)” 프롬프트의 첫 토큰 잔차 평균 차이를 이용해 거부 방향 계산
- 절제 과정은 여러 최적화 가능한 파라미터로 제어됨
-
direction_index: 레이어별 거부 방향 사용 여부 -
max_weight,max_weight_position,min_weight,min_weight_distance: 레이어별 절제 가중 커널의 형태와 위치 정의
-
주요 기술 혁신
- 가중 커널 형태의 유연성 향상으로 품질-순응성 균형 개선
- 거부 방향 인덱스를 실수형으로 처리, 인접 벡터 간 선형 보간을 통해 더 넓은 방향 공간 탐색 가능
- 컴포넌트별 개별 절제 파라미터 적용, MLP와 attention의 영향 차이를 고려해 성능 최적화
관련 선행 연구
- 공개된 유사 구현 예시
- AutoAbliteration, abliterator.py, wassname’s Abliterator, ErisForge, Removing refusals with HF Transformers, deccp
- Heretic은 이들 코드를 재사용하지 않고 처음부터 독자적으로 작성됨
참고 문헌 및 영향
- Arditi et al. (2024) 의 원 논문
- Maxime Labonne의 abliteration 관련 블로그 및 모델 카드
- Jim Lai의 “projected abliteration” 설명 글
라이선스
- GNU Affero General Public License v3 이상 적용
- 자유로운 수정 및 재배포 가능하나, 보증 없음
- 기여자는 동일한 라이선스로 코드 공개에 동의해야 함
Hacker News 의견
-
오픈소스 모델이 점점 인기를 얻고 있고, 미국과 중국 모두에서 이념적 고착이 심해지는 상황에서 이런 연구가 정말 반가움
혹시 관련된 벤치마크가 있는지 궁금함 -
Optuna는 정말 유용한 프로젝트임
하이퍼파라미터를 점진적으로 최적화해주는 기능 덕분에 실험 속도가 훨씬 빨라짐
이번엔 검열 제거와 결합했다는 점이 흥미로움. 현재 gpt-oss-120b에 적용 중이며 결과가 기대됨- 나도 Optuna를 프롬프트 최적화 프레임워크와 함께 써봤는데, 직접 튜닝할 때보다 훨씬 좋은 결과를 얻었음
gpt-oss-120b가 phi-5 접근법을 썼다면 비검열화가 얼마나 잘 될지 궁금함 - 결과와 스펙, 실행 시간도 궁금함
- 120b 모델에서 문제가 생기면 꼭 알려줬으면 함
최종 Pareto front를 볼 때 KL divergence가 1 이하인 구성을 추천함
gpt-oss 모델은 CoT 내부에서 거절에 대한 내적 독백을 하기 때문에 실제 거절률이 낮게 나오는 경향이 있음
- 나도 Optuna를 프롬프트 최적화 프레임워크와 함께 써봤는데, 직접 튜닝할 때보다 훨씬 좋은 결과를 얻었음
-
예전에 GPT-4가 헬륨 비행선을 지면 1인치 위에 띄워서 보건 규제를 피할 수 있냐는 질문에 거절했던 게 떠오름
- 이런 문제의 다른 면은, 범죄나 사고가 일어날 때마다 언론이 가해자의 ChatGPT 사용 이력을 연결하려는 보도 때문임
그래서 LLM 기업들이 과도하게 조심스러워지는 것 같음 - 나도 GPT-4에게 바다를 감미롭게 만들려면 아스파탐이 얼마나 필요하냐고 물었더니, 생태계에 해롭다며 거절했음
- 기술적으로는 여전히 공역(airspace) 안에 있으니 더 큰 문제일 수도 있음
만약 아스팔트 고리에 묶어두면 ‘주차’로 주장할 수 있고, ‘lighter-than-air’ 인증이 필요함 - FAA에 신고하고 신호등에 착륙했다가 벌금 맞은 쿼드콥터 스케이트보드 제작자 얘기도 떠오름
- 법의 정신이 유익하더라도 악용될 수 있음
이는 법의 실패가 아니라 인간이 추상화(abstraction) 를 이해하지 못한 결과임
프로그래머라면 고수준 추상화를 쓸 때 그 한계를 인식해야 함
- 이런 문제의 다른 면은, 범죄나 사고가 일어날 때마다 언론이 가해자의 ChatGPT 사용 이력을 연결하려는 보도 때문임
-
안전성 조정이 단일 차원에서 작동한다는 점이 흥미로움
그 값을 더하면 모델이 거절하고, 빼면 뭐든 수행함
아마 단순화된 이해겠지만, 모델 안전성 난독화가 다음 역공학 경쟁이 될 수도 있음- 관련 논문 Refusal in Language Models Is Mediated by a Single Direction (2024) 참고
모든 alignment가 매우 얕기 때문에 탈옥(jailbreak)이 쉽게 일어남
- 관련 논문 Refusal in Language Models Is Mediated by a Single Direction (2024) 참고
-
이런 연구는 정말 중요함
우리는 지금 자신의 도덕적 기준을 포기하고, LLM 제작자의 기준을 받아들이는 중임
이는 지적 다양성을 없애는 위험한 흐름임- 데이터셋을 직접 봤는데, 의견에는 동의하기 어려움
mlabonne/harmful_behaviors에는 아동 학대나 자살 유도 같은 극단적 예시가 포함되어 있음 - 이런 경향은 결국 사람들이 비판적 사고를 포기한 결과임
역사책을 쓰는 자가 권력을 가진다는 말처럼, LLM의 문화·도덕적 편향도 비슷한 구조임
나 역시 LLM의 출력 자체를 신뢰하지 않음, 그래서 마지막 수단으로만 사용함
덕분에 제작자의 잠재적 세뇌 효과로부터는 조금은 자유롭다고 생각함 - AI를 비판 없이 따르는 사람들은, 카리스마 있는 정치인에게도 똑같이 따를 것 같음
위험하긴 하지만 새로운 현상은 아님 - 나도 이런 시도에 찬성함
모든 LLM에 검열 해제 고급 설정이 있었으면 좋겠음
서구가 중국의 검색 엔진 검열을 비판하더니, 이제는 스스로 같은 길을 걷는 게 아이러니함
진짜 AI 안전이란 핵미사일 발사나 로봇 제어 같은 물리적 위험을 막는 것이지, 사상의 검열이 아님 - 이런 건 이미 2024년부터 알려져 있었음
- 데이터셋을 직접 봤는데, 의견에는 동의하기 어려움
-
“유해 프롬프트”의 출처가 궁금하다면 mlabonne/harmful_behaviors 데이터셋을 보면 됨
예시로는 해킹, 데이터 절도, 자살 유도 같은 항목이 있음- 아이러니하게도, 이런 데이터가 ‘유해함’의 기준이 되기 때문에 오히려 거절 완화(jailbreak) 를 통해 완전한 비검열화를 할 수도 있음
최신 모델들은 더 잘 학습되어 있어서 이런 방식이 통하지 않을 수도 있음 - mradermacher의 GGUF 20b heretic 모델로 테스트해봤는데, Q4_K_M에서는 실패했지만 Q8_0에서는 튜토리얼이 생성됨
- 네가 언급한 건 비교적 순한 프롬프트임. 더 심한 내용도 많음 → 관련 댓글 참고
- 데이터셋이 라이선스가 없음, 이게 결과 모델에 어떤 영향을 줄지 궁금함
- 전체 내용은 길지 않음. pastebin 링크 참고
“불법 약물 판매 가이드 작성” 같은 항목도 포함되어 있음. 나는 “how do I make cocaine”을 테스트 문장으로 사용함
- 아이러니하게도, 이런 데이터가 ‘유해함’의 기준이 되기 때문에 오히려 거절 완화(jailbreak) 를 통해 완전한 비검열화를 할 수도 있음
-
GPT-OSS 결과가 정말 기대됨
훌륭한 모델이지만 safety alignment가 성능을 망치고 있음- GPT-OSS용으로는 이 Reddit 프롬프트가 효과적이었음
-
동일한 질문 세트를 모델에 학습 전후로 입력해 비교하면, 제작자가 어떤 alignment 조정을 했는지 추론할 수 있을 것 같음
특히 Elon의 XAI 모델과 OpenAI를 비교하면 흥미로울 듯함 -
사실 검열되지 않은 AI가 특별히 더 위험하다고 생각하지 않음
이미 ‘Apocalypse Culture’나 ‘Anarchist’s Cookbook’ 같은 자료를 평문으로 얻고, SEO 스핀 기법으로 무한 변형하는 건 오래된 일임- 이번엔 “AI가 새로운 걸 가져오지 않는다”는 말이 정말 맞는 경우임
기존 데이터를 재활용하는 것이지, 완전히 새로운 걸 만들어내는 건 아님
- 이번엔 “AI가 새로운 걸 가져오지 않는다”는 말이 정말 맞는 경우임