4P by GN⁺ 6시간전 | ★ favorite | 댓글 1개
  • Apple Intelligence의 생성형 모델에 내장된 안전 필터를 해독 및 공개하는 오픈소스 프로젝트
  • 안전 필터는 유해하거나 부적절한 콘텐츠를 차단, 규정 준수를 위한 필터링 룰을 포함
  • 안전 오버라이드는 모델 컨텍스트에 따라 다르게 적용되며, 각각의 상황에 맞는 구체 규칙 정보를 제공함
  • 해독된 파일은 json 형태로, 단어, 구문, 정규식 기반 룰 등이 포함됨
  • 이 프로젝트는 프라이버시‧신뢰성 검증, 모델 세이프티 분석 등에 유의미한 리소스임

프로젝트 개요

  • 본 저장소는 Apple Intelligence에서 활용되는 생성형 모델의 안전 오버라이드(safety override) 파일을 해독 및 공개함
  • 해독된 오버라이드는 폴더 내 구조적으로 정리되어 있으며, 각 모델에 연관된 안전 필터링 JSON 파일 형태로 제공됨
  • 이를 활용하면 실제로 Apple 모델이 어떤 콘텐츠 필터링 정책을 적용하는지 구체적으로 확인 가능함

폴더 및 파일 구조

  • decrypted_overrides/
    • 각각의 생성형 모델에 따른 디렉터리별 안전 오버라이드 파일 저장
    • 각 디렉터리에는 Info.plist(메타데이터)와 AssetData(필터 JSON 파일) 이 포함됨
  • get_key_lldb.py: 애플리케이션에서 사용하는 암호화 키를 추출하는 파이썬 스크립트
  • decrypt_overrides.py: 안전 오버라이드 파일을 해독하는 파이썬 스크립트

오버라이드 파일의 해독 및 이해

  • 오버라이드 JSON 파일에는 명확한 안전 필터링 룰이 명시되어 있음
  • 각 오버라이드는 특정 모델 컨텍스트와 매칭되며, 다양한 상황에 따라 필터링 방식이 상이함
  • 예시 JSON에는 다음과 같은 필드가 포함됨:
    • "reject": 입력값과 일치하면 강제 거부되는 구체 구문 목록
    • "remove": 출력 결과에서 제거해야 할 구문
    • "replace": 특정 구문을 다른 구문으로 대체
    • "regexReject": 정규식으로 매치되는 경우 거부
    • "regexRemove", "regexReplace": 정규식을 통한 제거, 대체

프로젝트 활용 의의

  • 본 프로젝트는 Apple 생성형 모델의 실제 필터링 규칙을 살펴보고, 해당 모델의 세이프티 및 신뢰성 평가에 참고 자료로 활용 가능함
  • 생성형 모델을 활용하는 개발자, 보안 담당자 등이 필터 동작을 분석하거나 모델 커스텀 필터 설계 참조에 유용함
  • Apple Intelligence가 적용하는 콘텐츠 정책 및 규정 준수 수준을 투명하게 파악할 수 있음
Hacker News 의견
  • 어떤 조합들은 좀 이상한 느낌. 여기엔 죽음 관련 발화를 피하려는 규칙들과, Apple 브랜드의 대소문자 표기를 철저히 맞추려는 부분이 섞여 있음. 우선순위에 대한 Apple의 시각 체험. 관련 링크
    • "unalive"라는 단어가 포함되지 않은 점 흥미롭게 느껴짐. 모두가 그 단어의 의미를 알면서도 실제로는 아무도 신경 쓰지 않는다는 것, 그리고 모두가 형식적으로만 행동한다는 현상 지적 현상
    • 브랜드 대소문자 표기 집착이 정말 창피하고 불안하게 느껴짐. 그래도 브랜드 담당자에게는 그게 정말 중요한 요소일 거라는 확신
    • 시스템이 "파일 실행"이나 "정보 전달" 같은 명령 제안까지 차단됨
    • 너무 판단적으로 보지 말라는 의견. 미국 대기업에서 이런 문제에 우선순위를 두는 건 현실적 일처리 방식임
  • Alexandra Ocasio Cortez 이름이 정책 위반으로 간주되는 상황 재밌게 관찰. 관련 링크
    • Anthony Albanese, Boris Johnson, Christopher Luxon, Cyril Ramaphosa, Jacinda Arden, Jacob Zuma, John Steenhuisen, Justin Trudeau, Keir Starmer, Liz Truss, Michael D. Higgins, Rishi Sunak 등 여러 정치인의 이름도 같은 규칙에 걸림. 관련 링크 남아공 정치인들 이름이 차단 명단에 있다는 사실이 남아공 언론에 화제가 될 것이라는 예측
    • 대부분 기업용 GenAI 모델들이 “<정치인 이름>이 체포되는 사실적인 이미지”, “<정치인 이름>이 ISIS 깃발 흔드는 장면”, “<정치인 이름>이 아기 때리는 장면” 등 자극적 요청을 차단하는 시스템 갖추고 있을 것이라는 추측
    • Ocasio Cortez 이름이 정책 위반으로 분류된 건 맥락 때문일 수 있고, 훈련 데이터에서 인종에 대한 비하 의미와 연결되어있을 가능성 지적, 추가로 다른 사례도 확인 가능성 탐색
    • 이 현상은 특히 스페인어 버전에서 확인됨
    • Ocasio Cortez가 딥페이크 음란물 피해를 많이 당한 배경 언급
  • AGI가 곧 등장할 거라는 주장과 달리, 이런 "초지능" LLM들이 아직도 출력값을 regex로 필터링해야 하는 현실이 우습게 느껴짐
    • 누구도 Apple의 LLM이 최첨단이라는 믿음 없어 보임. 특히 기기 내에서 동작하는 LLM은 더더욱 주목받지 못하는 분위기
    • 가끔은 사람 자체를 regex로 필터링하고 싶다는 농담
    • 모든 최신 동력원들이 결국 “물을 끓여서” 쓰는 식의 고전적 해결책 반복처럼 느껴짐
    • 이런 건 단지 Apple의 정책과 정렬에 해당하며, 인터넷에 난무하는 불필요한 발언이 자사 모델에서 재생산되는 걸 막고자 하는 의도
  • 중국에서는 이런 정책을 "조화로운 사회"라고 부르지만, 미국에서는 "안전"이라는 이름으로 불림. 검열이란 용어 자체가 달라져도 대중의 생각을 컨트롤하는 효과는 같음. 이런 걸 직접 볼 기회는 드물다는 느낌 표현
    • 회사가 자사 모델이 브랜드에 타격을 줄 문장을 생성하지 않으려는 건 전혀 놀랍지 않음. 예를 들어 Apple이 메세지를 요약하면서 "Jane이 Anthony Albanese가 죽었으면 좋겠다고 생각" 같은 문장 내놓으면 언론이 난리날 것이라는 현실적 시나리오 제시
    • 미국에서 이런 현상은 법적 위험(변호사들) 때문이라는 설명. 자본주의를 칭송하다가도 언론 조작을 통한 사소한 이익 극대화가 시작되면 갑자기 "표현 자유"라는 프레이즈를 외치는 현상 꼬집음
  • Apple에서 이런 일이 일어나는 것 자체가 상당히 어이없게 느껴짐. 우회는 쉽고, 예를 들어 “Boris Johnson” 대신 “B0ris Johnson” 하면 regex를 피해갈 수 있다는 점 시연. 관련 링크
    • 사용자의 99%는 일부러 우회할 생각조차 하지 않음. 하드코딩된 regex는 첫 번째 방어선이자, 매우 효율적 필터링 수단으로 초점
    • LLM에서는 우회 표현이 먹히기도 하지만, 사전 정의된 태그 중심으로 학습한 이미지 생성 모델에서는 거의 바로 인식 실패 현상 발생 가능성
    • 이런 규칙들의 목적은 일부러 우회하는 유저를 막는 것이 아니라, “${정치인}이 죽었으면 좋겠다”는 요약이 나와서 언론에 대서특필되는 것 등 1차 리스크 차단 기능이 더 큼. “생각해보면 어린이용” 수준의 안전장치임
    • 영국 정치가 금기어로 분류되는 느낌
    • Apple에서 이런 정책을 보고 예상외라고 말할 필요가 없음. 현존하는 SOTA 대응책이고, Apple은 AI 경쟁에서 후발주자이므로 기민하게 업계 관행을 따르는 전략이 합리적 선택
  • Apple의 이런 정체불명의 필터 정책들을 보며 예전에 있었던, 아시아어 검색 필터 논란을 떠올림. 희한하면서도 민망했던 에피소드였음 관련 기사
  • 이 필터들은 창피함 또는 법적 리스크가 있을 수 있는 이메일/메시지 요약을 차단하거나 "Safari Summarization isn't designed to handle this type of content" 등 경고 문구를 표시하는 데 중점. 입력이 아니라 LLM 출력에 적용됨. Apple 기기 내 LLM은 3b 파라미터뿐이라 가끔은 바보스러운 결과 나오는 경향 있음
  • 키워드 필터링 규칙을 시험해보고 싶어서 "Granular Mango Serpent"라는 이름으로 바꿔볼 생각이 듦
    • Granular Mango Serpent가 새로운 David Meyer라는 농담 등장. 관련 기사
  • Core ML 모델 암호화와 이 내용이 관련된 것인지 질문. Apple이 역사적으로 앱 자산 보호용 DRM은 제공하지 않아왔기에 다소 생소함 관련 링크
    • 이건 별도 시스템이며, 어떤 자산 전체에 적용되는 것이 아니라 이런 오버라이드에만 적용. 복호화는 ModelCatalog private framework에서 이루어짐