OpenAI의 새로운 오픈소스 모델은 사실상 Phi-5임
(seangoedecke.com)- OpenAI가 첫 오픈소스 대규모 언어 모델
gpt-oss-120b
와gpt-oss-20b
를 공개했으며, 일부 벤치마크에서는 뛰어나지만 실제 응용에서는 한계가 있음 - 이 모델들은 범용 지식은 갖추었으나 대중문화 등 특정 영역 지식이 부족하다는 평가를 받음
- Microsoft의 Phi 시리즈처럼 합성 데이터 중심 학습을 통해 벤치마크 성능은 높지만 실제 활용도는 떨어지는 경향이 있음
- 합성 데이터 학습은 안전성을 높여 오픈소스 공개 시 발생할 수 있는 오용 위험을 줄이는 장점이 있음
- OpenAI는 중국산 오픈소스 모델 대비 벤치마크 우위를 확보하면서도 안전성을 유지하기 위해 Phi 스타일 접근을 선택한 것으로 보임
OpenAI의 첫 오픈소스 LLM 공개
- OpenAI가
gpt-oss-120b
와gpt-oss-20b
라는 첫 오픈소스 대규모 언어 모델을 발표했으며, 웹에서 직접 대화 가능 - 일부 벤치마크에서는 우수한 성능을 보이지만, SimpleQA 같은 특정 테스트에서는 성능이 떨어짐
- 과학 분야 등 일반 지식은 풍부하지만 대중문화 지식은 부족하다는 평가가 있음
- 실제 활용성은 6개월 정도 후에 명확해질 것으로 예상되며, 벤치마크 대비 실전 성능이 낮을 가능성이 큼
Phi 모델과 합성 데이터 학습
- 2024년 Microsoft의 Sebastien Bubeck이 주도한 Phi 시리즈는 전적으로 합성 데이터로 학습된 모델
- 합성 데이터는 다른 언어 모델이 생성하거나 사람이 선별한 교재 기반 텍스트로, 품질과 통제가 용이하지만 생성 비용이 큼
- 이 방식은 벤치마크 성능을 높이지만, 실제 환경에서는 기대 이하의 결과를 보이는 경향이 있음
- 합성 데이터는 벤치마크 문제 유형에 맞춰 쉽게 생성할 수 있어 시험 대비형 학습이 가능하지만, 범용성은 떨어짐
Sebastien Bubeck의 OpenAI 합류와 gpt-oss
- 2024년 말 Bubeck이 Microsoft를 떠나 OpenAI에 합류
-
gpt-oss
모델의 사전학습 데이터 세부 내용은 공개되지 않았으나, 강하게 필터링되거나 합성된 데이터를 사용했을 가능성이 큼 - 이러한 접근은 Phi-5 및 Phi-5-mini와 유사한 특성을 가질 수 있음
합성 데이터의 안전성 이점
- 오픈소스 모델은 공개 후 무제한으로 파인튜닝이 가능해 안전성 문제가 발생할 수 있음
- 특히 소형 언어 모델의 주요 비공식 활용처 중 하나가 성인 역할극이어서, 안전성 관리가 중요
- 합성 데이터나 교재 기반 데이터로 학습하면 위험 콘텐츠를 포함하지 않아 안전성을 높일 수 있음
- OpenAI는 중국산 오픈소스 모델보다 벤치마크에서 우위를 점하면서도 안전성을 유지하는 전략을 선택한 것으로 보임
결론: 사실상 Phi-5 계열
-
gpt-oss
모델은 합성 데이터 기반의 안전 중심 설계로, 실전 성능보다 벤치마크 점수와 안전성을 우선한 것으로 추정 - 결과적으로 이 모델들은 사실상 Phi-5와 Phi-5-mini에 해당하는 성격을 가짐
Hacker News 의견
-
난 임의의 SF 소설 챕터를 번역시키며 테스트하는데, 이번 모델은 미성년자와 성적인 맥락을 다루는 것에 대해 거부하는 반응을 보였음. 대체 어디가 문제인지 찾으려고 소설 일부를 잘라가며 확인해보니, 완전히 순수하고 로맨틱한, 17살 보조 등장인물 두 명의 짧은 대화 한 줄이 원인이었음. 또 다른 문제는 가끔 대화 중 평범한 일상 이야기를 하려고 해도 전체 단락이 검열 문자로 바뀌거나 갑자기 거부 반응이 나타남. 이런 수준의 검열 때문에 이 모델은 창작이나 번역, 현실적 과제(수학/코딩 제외)에 전혀 쓸모 없음. 120B MoE 치고 지식 수준도 너무 낮음. 실제로 "추론"하는 척해도 대부분 정책 위반 여부만 검사하는 느낌임. 후훈련 과정에서 위험 발언만 지나치게 잡으려다 무뎌진 탓인 줄 알았지만, 원천적으로 합성 데이터 기반 사전학습 때문이라는 점도 어느 정도 이해함
-
이거 진짜 웃긴 경험인데, 나도 비슷하게 겪은 적 있음. 편집되지 않은 팟캐스트 대본에서 중요한 문장을 추출하려고 LLM에 넣으니 “침대에 묶인다”라는 자극적인 표현이 모두 완곡어법으로 바뀌어버렸음. 예전 번역 결과를 다시 찾아보고 싶지만, 이번엔 스페인어로 번역했다가 다시 돌려도 실제 문장이 거의 그대로 나와서 이상하게 반복되지 않았음
-
이 모델한테 '얼음과 불의 노래'와 같은 소설을 다루게 하면 어떻게 반응할지 궁금함
-
어차피 일반 소비자 대상 공개 모델이니 별로 놀랍지 않음. 원하는 걸 원한다면 덜 검열된 오픈 모델을 찾아 쓰는 게 맞음
-
-
트위터에서 사람들이 GPT-OSS가 커스터마이즈 안 되고 '영혼'이 없다고 불평하는 걸 봤는데, 정작 뭘 하려는지 밝히지 않는 경우가 대부분이었음. 결국 "소형 LLM 파인튜닝의 주요 목적은 에로틱 롤플레이이며, 실제 수요가 많다"는 답을 보고 좀 이해가 됨
-
단순히 에로틱 롤플레이에만 문제가 있는 게 아니라, 일상에서 성적인 대화가 자주 오가는 내 생활 패턴상, 평상시 대화 요약, 이메일 수정, 번역 작업도 모델이 바로 차단됨. 구글 번역이 너무 직역이라 LLM으로 자연스런 표현을 찾곤 하는데, 지금은 abliterated llama 3.1을 사용하고 있음. 비전 기능 필요 없고, 저장된 메모리를 문맥에 더 쓰고 싶어서임. gpt-oss가 언센서링(uncensoring) 되지 않으면 쓸모 없음. 하지만 훈련 데이터에 에로틱 내용이 하나도 없으면 당연히 억지로 뚫을 수도 없는 거고, 실제로 erotic roleplay 시키는 데 관심 없음. 진짜 사람이 아니면 흥미가 없기 때문임
-
꼭 롤플레이 목적이 아니라 내 언어 습관과 좀 더 어울렸으면 하는 것뿐임
-
에로틱한 롤플레이는 안 쓰지만, AI로 NetHack을 구현하고 싶음. 던전 구조 생성, NPC 대화, NetHack이 유명한 수많은 세부 상호작용도 AI에 맡기고 싶음. 이런 작업엔 '영혼'과 배경지식, 도구 사용 능력이 꼭 필요함
-
포르노는 언제나 창조적 프런티어였음. 비즈니스 모델도 단순하고, 매체 그 자체가 바로 상품인 경우가 많음. 80년대에 집에서 즐기는 포르노가 새로운 경험이었고, 1-900 전화선, 인터넷, 심지어 스마트폰 보급에도 큰 영향을 준 영역임. 대략 80%의 어덜트 콘텐츠 소비가 모바일에서 이루어짐. AI 기반, 맞춤형, 멀티미디어 상호작용의 온디맨드 경험이 이쪽 분야의 핵심임. 그리고, 실제 피해자 없이 금지된 역할 놀이를 할 수 있다는 점이 독특함. “AI랑 이야기하는 줄 알았더니...”라는 픽션도 충분히 쓸만한 소재임
-
그게 뭐가 문제인지 모르겠음. 수천 년 전부터 에로틱 문학은 인류가 글을 쓰기 시작한 순간부터 있었음. Istanbul 2461
-
-
기사 발췌: "Microsoft가 Phi 스타일 모델을 계속 훈련한 이유는 안전성 때문이다. 오픈소스로 공개하면 영원히 자기 이름이 따라다니고, 연구자들이 안전장치를 제거하려 애쓰게 됨." 하지만 실제로 문제가 되진 않는다고 생각함. Llama 2, 3도 일주일 만에 언센서링화됐고, 논란도 없음. 오히려 회사 평판에 진짜로 타격을 주는 건 질 낮은 모델임. Llama 4 실패가 meta의 AI 평판을 훨씬 더 손상시켰음
-
내가 Llama를 생각하면 언센서링 모델이 먼저 떠오름. 직접 써본 적은 없지만, 검열된 모델 쓸 바엔 더 좋은 모델들이 많았음
-
“연구자들이 안전장치 해제하려 혈안이 된다”는 건 핑계에 불과하다고 생각함. 사실 엉뚱한 검열 때문에 웃음거리 되는 게 더 큰 리스크임. 1985년에 Bill Gates가 MS Paint를 출시하지 않은 게 “누군가 불쾌한 그림을 그릴 수 있다” 때문이라면 얼마나 우스꽝스럽겠냐는 비유가 떠오름
-
-
집에서 Phi-4를 꽤 잘 써왔고, GPT-OSS 20B 버전도 여러 모델(Devstral 24B, Falcon 3 7B, Qwen2.5-coder 14B, Phi 4 14B)과 비교해 굉장히 인상적이었음. 모든 모델이 실패한 부분을 GPT-OSS는 잘 짚으며, 합리적인 추정을 함. 코드 설명도 훨씬 자세하게 해줘서, 놓치는 세부 정보까지 챙김. GPU 성능만 받쳐주면 진짜 완벽하겠음
-
Strix Point나 Strix Halo, 128GB DDR5 RAM 장착하면 gpt-oss 120B도 10-20+ TPS로 돌릴 수 있음
-
어떤 SQL 문제인지 공유 가능한지 궁금함, 아니면 일부러 훈련 데이터 유출을 막으려고 감춘 것임?
-
-
합성 데이터가 어떻게 만들어지는지 궁금함. 그냥 무작정 시작해서 샘플을 뽑는 건지, 프롬프트 자동 생성 및 필터링 기법, 훈련 중 피드백 메커니즘을 활용하는지 궁금함
-
Phi-5는 모르지만, 그 이전 Phi-모델들은 대부분 OpenAI GPT 시리즈와 같은 대형 모델이 진짜 데이터를 가지고 쓴 이야기를 학습 데이터로 쓴 걸로 알고 있음
-
meta/FAIR에서 직접 실험해봤고, Llama 3 논문에도 자세히 나옴. 임의로 뽑은 웹사이트/코드/이미지/목차/사용자 데이터를 시드로 삼고, 그와 관련한 데이터를 모델이 생성하게 함. 이후에 생성된 데이터는 일련의 검증기(Verifiers)를 통해 품질 검사를 거쳐야 함
-
랜덤 샘플을 만드는 한 가지 방법은 “PP가 XX에서 GG를 한다” 같은 틀에 사람/행동/장소를 알고리즘으로 넣어 요청하는 것임. 그런데 같은 프롬프트로 생성해도 완전히 랜덤하지는 않아서, temperature를 올려도 큰 차이가 없었음. 결국 데이터와 기법이 모델의 실질적 차이를 만드는 요소라 상세한 합성 방법은 거의 비밀로 붙이고 있음
-
보통은 리젝션 샘플링을 씀. 모델에게 샘플을 여러 번 뽑게 하고, 일정 기준(정확한 답변, 대형 모델로 판별 등)에 못 미치는 샘플은 버림
-
-
"과학 관련 지식은 광범위하지만, 대중문화는 잘 모른다"는 평가가 있었는데, 이런 접근이 좋은 방향성이라 생각함. 최근 공개된 정보는 하루아침에 달라질 수 있으니, 대중문화 리스트를 일일이 암기하는 대신, 전반적 이해력과 최신 정보 검색역량, 도구 활용에 더 초점 맞추는 게 바람직함
-
내용이 변화할 이유가 있을지 의문임. 세상의 거의 모든 글을 학습하면, '2025년 대중문화'가 2026년이 되었다고 크게 달라질 건 아님. 마치 1980년대 대중문화가 시간이 지나서도 고정되어 있는 것과 같음
-
인공지능이 해리포터, 포켓몬, 레딧 밈 등 백과사전식 대중지식에 모델 용량을 할애한다는 현실이 좀 씁쓸하게 느껴짐
-
-
Phi3 mini의 목표는 디바이스 온보드 구동 가능성과 속도였고, 128K 컨텍스트와 3B 파라미터로 상당히 쓸만했음. 작년에 프로젝트에 직접 써봤지만, 최종적으로는 성능에서 Open weights로 유명했던 Mistral 쪽 모델을 선택했음
-
모델이 합성 데이터만으로 훈련돼도 이런 결과가 나올 수 있는지 궁금함
-
원칙적으로 모델은 훈련셋 어딘가에 정보가 없으면 '안다'고 할 수 없음. 물론 툴을 써서 바깥 정보를 불러올 순 있지만, 실제로는 좋은 성능을 내려면 세상에 공개된 텍스트 대부분을 학습 데이터로 넣어야 함
-
이론적으로는 가능함. 참고 링크. 합성 데이터에 LSD나 VX 제조법 같이 특정하고 민감한 정보가 포함될 확률은 높지 않지만, 합성 데이터 내에 원하지 않는 정보가 일부 들어갈 가능성은 있음
-
-
Table 9(GPT-OSS 모델 카드) 기준, GPT-OSS-20b/120b의 정답률은 각 0.067/0.168, 환각률은 0.914/0.782임. o4-mini는 정답률 0.234, 환각률 0.750. 정리하면 GPT-OSS는 실제 세계 지식이 거의 없고, 환각 현상이 심함. Phi-LLM 시리즈 전체의 특징이기도 함. Table 4(OpenAI o3/o4-mini) 자료를 보면 o3가 정답률 0.49, o4-mini 0.20, 환각률은 각각 0.51과 0.79임. 요약하자면 o3와 o4-mini 사이, o4-mini와 GPT-OSS 사이에 실제 지식력 차이가 큼. GPT-OSS가 실제 지식이 부족한 건 오히려 이 시리즈의 특성이자, 대기업용 "안전장치" 혹은 사용자 기준 "검열" 때문임
모델카드 참고1
모델카드 참고2 -
"작은 LLM 파인튜닝의 주요 수요는 에로틱 RP이고, 실제 소규모 커뮤니티 절반은 이쪽 관심층"이라는 의견엔 정말 놀랍다는 생각이 듦
- 사실 초기 수십 년간 인터넷 소비자 트래픽의 대부분이 포르노였음. 과민반응할 필요 없이, 기술 문제를 무료로 풀어주는 이들의 노력을 잘 활용하는 것도 괜찮다고 생각함