Apple Intelligence 모델에서 추출한 안전 필터

(github.com/BlueFalconHD)

6P by GN⁺ 4달전 | ★ favorite | 댓글 1개

Apple Intelligence의 생성형 모델에 내장된 안전 필터를 해독 및 공개하는 오픈소스 프로젝트
안전 필터는 유해하거나 부적절한 콘텐츠를 차단, 규정 준수를 위한 필터링 룰을 포함
안전 오버라이드는 모델 컨텍스트에 따라 다르게 적용되며, 각각의 상황에 맞는 구체 규칙 정보를 제공함
해독된 파일은 json 형태로, 단어, 구문, 정규식 기반 룰 등이 포함됨
이 프로젝트는 프라이버시‧신뢰성 검증, 모델 세이프티 분석 등에 유의미한 리소스임

프로젝트 개요

본 저장소는 Apple Intelligence에서 활용되는 생성형 모델의 안전 오버라이드(safety override) 파일을 해독 및 공개함
해독된 오버라이드는 폴더 내 구조적으로 정리되어 있으며, 각 모델에 연관된 안전 필터링 JSON 파일 형태로 제공됨
이를 활용하면 실제로 Apple 모델이 어떤 콘텐츠 필터링 정책을 적용하는지 구체적으로 확인 가능함

폴더 및 파일 구조

decrypted_overrides/
- 각각의 생성형 모델에 따른 디렉터리별 안전 오버라이드 파일 저장
- 각 디렉터리에는 Info.plist(메타데이터)와 AssetData(필터 JSON 파일) 이 포함됨
get_key_lldb.py: 애플리케이션에서 사용하는 암호화 키를 추출하는 파이썬 스크립트
decrypt_overrides.py: 안전 오버라이드 파일을 해독하는 파이썬 스크립트

오버라이드 파일의 해독 및 이해

오버라이드 JSON 파일에는 명확한 안전 필터링 룰이 명시되어 있음
각 오버라이드는 특정 모델 컨텍스트와 매칭되며, 다양한 상황에 따라 필터링 방식이 상이함
예시 JSON에는 다음과 같은 필드가 포함됨:
- "reject": 입력값과 일치하면 강제 거부되는 구체 구문 목록
- "remove": 출력 결과에서 제거해야 할 구문
- "replace": 특정 구문을 다른 구문으로 대체
- "regexReject": 정규식으로 매치되는 경우 거부
- "regexRemove", "regexReplace": 정규식을 통한 제거, 대체

프로젝트 활용 의의

본 프로젝트는 Apple 생성형 모델의 실제 필터링 규칙을 살펴보고, 해당 모델의 세이프티 및 신뢰성 평가에 참고 자료로 활용 가능함
생성형 모델을 활용하는 개발자, 보안 담당자 등이 필터 동작을 분석하거나 모델 커스텀 필터 설계 참조에 유용함
Apple Intelligence가 적용하는 콘텐츠 정책 및 규정 준수 수준을 투명하게 파악할 수 있음

▲

GN⁺ 4달전 [-]

Hacker News 의견

어떤 조합들은 좀 이상한 느낌. 여기엔 죽음 관련 발화를 피하려는 규칙들과, Apple 브랜드의 대소문자 표기를 철저히 맞추려는 부분이 섞여 있음. 우선순위에 대한 Apple의 시각 체험. 관련 링크
- "unalive"라는 단어가 포함되지 않은 점 흥미롭게 느껴짐. 모두가 그 단어의 의미를 알면서도 실제로는 아무도 신경 쓰지 않는다는 것, 그리고 모두가 형식적으로만 행동한다는 현상 지적 현상
- 브랜드 대소문자 표기 집착이 정말 창피하고 불안하게 느껴짐. 그래도 브랜드 담당자에게는 그게 정말 중요한 요소일 거라는 확신
- 시스템이 "파일 실행"이나 "정보 전달" 같은 명령 제안까지 차단됨
- 너무 판단적으로 보지 말라는 의견. 미국 대기업에서 이런 문제에 우선순위를 두는 건 현실적 일처리 방식임
Alexandra Ocasio Cortez 이름이 정책 위반으로 간주되는 상황 재밌게 관찰. 관련 링크
- Anthony Albanese, Boris Johnson, Christopher Luxon, Cyril Ramaphosa, Jacinda Arden, Jacob Zuma, John Steenhuisen, Justin Trudeau, Keir Starmer, Liz Truss, Michael D. Higgins, Rishi Sunak 등 여러 정치인의 이름도 같은 규칙에 걸림. 관련 링크 남아공 정치인들 이름이 차단 명단에 있다는 사실이 남아공 언론에 화제가 될 것이라는 예측
- 대부분 기업용 GenAI 모델들이 “<정치인 이름>이 체포되는 사실적인 이미지”, “<정치인 이름>이 ISIS 깃발 흔드는 장면”, “<정치인 이름>이 아기 때리는 장면” 등 자극적 요청을 차단하는 시스템 갖추고 있을 것이라는 추측
- Ocasio Cortez 이름이 정책 위반으로 분류된 건 맥락 때문일 수 있고, 훈련 데이터에서 인종에 대한 비하 의미와 연결되어있을 가능성 지적, 추가로 다른 사례도 확인 가능성 탐색
- 이 현상은 특히 스페인어 버전에서 확인됨
- Ocasio Cortez가 딥페이크 음란물 피해를 많이 당한 배경 언급
AGI가 곧 등장할 거라는 주장과 달리, 이런 "초지능" LLM들이 아직도 출력값을 regex로 필터링해야 하는 현실이 우습게 느껴짐
- 누구도 Apple의 LLM이 최첨단이라는 믿음 없어 보임. 특히 기기 내에서 동작하는 LLM은 더더욱 주목받지 못하는 분위기
- 가끔은 사람 자체를 regex로 필터링하고 싶다는 농담
- 모든 최신 동력원들이 결국 “물을 끓여서” 쓰는 식의 고전적 해결책 반복처럼 느껴짐
- 이런 건 단지 Apple의 정책과 정렬에 해당하며, 인터넷에 난무하는 불필요한 발언이 자사 모델에서 재생산되는 걸 막고자 하는 의도
중국에서는 이런 정책을 "조화로운 사회"라고 부르지만, 미국에서는 "안전"이라는 이름으로 불림. 검열이란 용어 자체가 달라져도 대중의 생각을 컨트롤하는 효과는 같음. 이런 걸 직접 볼 기회는 드물다는 느낌 표현
- 회사가 자사 모델이 브랜드에 타격을 줄 문장을 생성하지 않으려는 건 전혀 놀랍지 않음. 예를 들어 Apple이 메세지를 요약하면서 "Jane이 Anthony Albanese가 죽었으면 좋겠다고 생각" 같은 문장 내놓으면 언론이 난리날 것이라는 현실적 시나리오 제시
- 미국에서 이런 현상은 법적 위험(변호사들) 때문이라는 설명. 자본주의를 칭송하다가도 언론 조작을 통한 사소한 이익 극대화가 시작되면 갑자기 "표현 자유"라는 프레이즈를 외치는 현상 꼬집음
Apple에서 이런 일이 일어나는 것 자체가 상당히 어이없게 느껴짐. 우회는 쉽고, 예를 들어 “Boris Johnson” 대신 “B0ris Johnson” 하면 regex를 피해갈 수 있다는 점 시연. 관련 링크
- 사용자의 99%는 일부러 우회할 생각조차 하지 않음. 하드코딩된 regex는 첫 번째 방어선이자, 매우 효율적 필터링 수단으로 초점
- LLM에서는 우회 표현이 먹히기도 하지만, 사전 정의된 태그 중심으로 학습한 이미지 생성 모델에서는 거의 바로 인식 실패 현상 발생 가능성
- 이런 규칙들의 목적은 일부러 우회하는 유저를 막는 것이 아니라, “${정치인}이 죽었으면 좋겠다”는 요약이 나와서 언론에 대서특필되는 것 등 1차 리스크 차단 기능이 더 큼. “생각해보면 어린이용” 수준의 안전장치임
- 영국 정치가 금기어로 분류되는 느낌
- Apple에서 이런 정책을 보고 예상외라고 말할 필요가 없음. 현존하는 SOTA 대응책이고, Apple은 AI 경쟁에서 후발주자이므로 기민하게 업계 관행을 따르는 전략이 합리적 선택
Apple의 이런 정체불명의 필터 정책들을 보며 예전에 있었던, 아시아어 검색 필터 논란을 떠올림. 희한하면서도 민망했던 에피소드였음 관련 기사
이 필터들은 창피함 또는 법적 리스크가 있을 수 있는 이메일/메시지 요약을 차단하거나 "Safari Summarization isn't designed to handle this type of content" 등 경고 문구를 표시하는 데 중점. 입력이 아니라 LLM 출력에 적용됨. Apple 기기 내 LLM은 3b 파라미터뿐이라 가끔은 바보스러운 결과 나오는 경향 있음
키워드 필터링 규칙을 시험해보고 싶어서 "Granular Mango Serpent"라는 이름으로 바꿔볼 생각이 듦
- Granular Mango Serpent가 새로운 David Meyer라는 농담 등장. 관련 기사
Core ML 모델 암호화와 이 내용이 관련된 것인지 질문. Apple이 역사적으로 앱 자산 보호용 DRM은 제공하지 않아왔기에 다소 생소함 관련 링크
- 이건 별도 시스템이며, 어떤 자산 전체에 적용되는 것이 아니라 이런 오버라이드에만 적용. 복호화는 ModelCatalog private framework에서 이루어짐

답변달기