OpenAI, 오픈 웨이트 모델 출시 연기

(twitter.com/sama)

1P by GN⁺ 3달전 | ★ favorite | 댓글 2개

OpenAI는 원래 다음 주 오픈 웨이트 모델 출시를 계획했으나, 추가적인 안전성 테스트와 고위험 영역 리뷰를 위해 출시를 연기한다고 발표함
Sam Altman은 "정확히 얼마나 걸릴지 아직 확신할 수 없다"고 밝힘
모델의 가중치(Weights) 가 한 번 공개되면 회수할 수 없기 때문에 신중한 접근이 필요하다고 설명함
OpenAI는 커뮤니티가 해당 모델을 통해 다양한 혁신을 만들어낼 것이라고 신뢰하지만, 이 방식이 OpenAI에게는 처음인 만큼 제대로 절차를 밟고자 함을 강조함
마지막으로 "좋은 소식이 아니라 미안하다. 우리는 정말 열심히 노력하고 있다"며 진심어린 사과와 함께 신중함을 거듭 강조함

▲

ng0301 3달전 [-]

또 속냐~

답변달기

▲

GN⁺ 3달전 [-]

Hacker News 의견

https://nitter.space/sama/status/1943837550369812814 링크 공유함
OpenAI의 오픈 웨이트(가중치) 모델 출시가 오늘 발표된 Kimi K2처럼 뛰어난 오픈 웨이트 모델 등장 직후 갑자기 연기된 게 우연인지 잘 모르겠음
Kimi K2 소개 링크
OpenAI가 출시할 때는 업계 수준을 한 단계 끌어올릴 필요가 있음
중간 정도의 품질인 공개 가중치 모델로는 통하지 않을 거라고 생각함
- 지금 OpenAI가 Grok 4를 능가하는 데 모든 리소스를 집중하고 있다고 봄
  xAi가 컴퓨팅 파워를 쌓는 데 상당히 앞서 있고 ARC, HLE 등 지능 테스트 분야에서 큰 격차를 벌리고 있음
  OpenAI가 추구하는 건 오픈 소스 경쟁이 아니라 경쟁에서 이기는 것임
- 그런데 Hacker News에서 K2에 대한 논의가 거의 없는 이유가 궁금함
  꽤 큰 뉴스라고 생각함
- 특히 최근 OpenAI가 최고의 오픈 소스 모델을 출시한다고 예고한 점에서 타이밍이 맞아떨어진다는 생각이 듦
- GPT-4 이후로 OpenAI의 모든 모델이 시장 흐름에 한참 뒤처지고 있다고 느낌
LLM의 "안전성 테스트" 언급이 마케팅용 문구라고 생각함
자동차, 비행기, 엘리베이터는 진짜 안전성 테스트를 하지만 LLM은 다름
LLM이 만든 결과물이 제작자 맘에 안 들어도 누가 죽는 건 아님
이들이 말하는 "안전성 테스트"란 결국 LLM이 자신들이 싫어하는 말을 어디까지 하는지 체크하는 것에 불과함
- LLM이 누군가에게 상호작용이 나쁜 약을 먹으라고 쉽게 안내할 수 있음
  정신 건강 위기를 자살로 몰기도 하고, 극단적으로 특정 인종이나 집단을 문제의 원인이라며 제거해야 한다는 주장을 설득력 있게 펼칠 수도 있음
  말은 사람을 직접 죽이지 못하지만 분명히 죽음으로 이끄는 경우가 생김
  이런 가능성 외에도 도구 사용과 관련한 위험성도 존재함
- 이 문맥에서 "안전성"이란 결국 누군가를 불쾌하게 하거나 PR 이슈가 될 만한 발언을 막는 걸 의미할 때가 많음
- 나도 마케팅이라고 생각하긴 하는데, 이유는 오히려 반대임
  지금 기술 수준에서는 진정으로 안전하게 만드는 게 불가능하다고 봄
- 이건 사용자보다 LLM 제공 업체의 안전을 위한 것임
내 취미는 냉소를 돈으로 바꾸는 것임
Polymarket에 들어가서 사회와 기술에 대해 나를 기쁘고 낙관적으로 만드는 이벤트를 찾아, 그 일이 일어나지 않을 것에 소액(잡코인)으로 베팅함
예를 들어 OpenAI가 9월 이전에 오픈소스 가중치 모델을 출시하느냐에 대한 베팅이 있는데 지금은 81%에 거래 중임
지난달엔 OpenAI도 공개하지 않았고, 휴전도 진짜 휴전이 아니었으며, 기후 지표도 악화되어서 10달러 정도 벌었음
존재의 절망을 완전히 헤지할 순 없지만, 그 고통을 조금 줄일 수 있음
- 내기를 하면 무조건 이기는 구조임
  내가 이기면 돈을 벌고(이득), 지면 사회에 좋은 일이 생긴 것(이득)
- 내 친구도 이걸 "인류 헤지하기"라고 부름
  정치적으로 우울한 일이 있을 때마다 몇백 달러씩 벌었음
- 크립토 화폐를 아직 쓰는 사람이 있다는 사실에 놀람
  AI 붐 이후로 이미 크립토는 끝난 줄 알았음
- "도박은 중독성이 있으니 책임감 있게 해야 하고, 18세 이상만 가능함
  도움이 필요하면 도박상담센터나 의사와 상담하길 바람"
Deepseek 및 Qwen(Alibaba)을 미국 AI 기업들보다 더 믿음
미국 AI 업계는 돈과 컴퓨트 자원을 먹어치우기만 한다는 인상이 강함
수십억이 투입돼도 내세울 게 별로 없어 보임
Deepseek은 단 5백만 달러로 개발됐고, 새로운 훈련 방식을 여러 개 선보였음
게다가 모델과 코드를 모두 FLOSS로 공개함
미국 회사들은 전부 닫힌 구조임
미국 AI 회사들은 서로를 죽이려 드는 독수리처럼 보임
- Deepseek 개발비 5백만 달러 관련해서 논란 많음
  잘못 이해된 건지, 의도적으로 잘못된 정보가 퍼진 건지 의견 분분함
  만약 악의가 없었다고 해도, 대형 모델을 훈련해 본 입장에서는 한 번의 훈련 비용만 보고 총비용을 논하는 게 무의미하다고 말하고 싶음
  실패한 실험들과 추가 훈련, 그 외 숱한 시도에 드는 비용도 상당함
  R2가 6개월이 지나도 나오지 않는 건 의미가 크다고 생각함
  가끔 멋진 결과가 나오기도 하지만, 실패에 드는 비용엔 아무도 주목하지 않음
- 실제로 Google의 모델 중 대다수가 오픈소스임
  AI 업계에서 일하면서 구글 연구 논문들을 많이 읽어왔는데, 업계 발전에 큰 기여를 했고 상용 라이선스로 모델을 공개해 준 점에 감사함
- 5백만 달러는 한 번의 GPU 훈련에 드는 시간 비용임
- 미국 AI 회사들이 돈과 컴퓨트만 먹는다고 했는데, 사실 그들은 책도 정말 문자 그대로 먹음
- 그 비용이 사실 GPU 값만 반영한 수치 아니었음?
아마 결과가 오늘 발표된 K2 모델보다 못해서 그런 듯함
제대로 된 엔지니어라면 "안전성" 때문이라고는 말하지 않을 것임
ablation 같은 방법을 쓰면 사후 안전성 훈련도 무력화됨
- 개인적으로 OpenAI가 공개할 오픈 가중치 모델이 K2보다 훨씬 작길 바람
  K2는 1조 파라미터에 다운로드 용량만 거의 1TB임
  내 노트북에서는 절대 못 돌림
  로컬 모델의 적당한 크기는 20B쯤이 최적이라 생각함
  Mistral Small 3.x나 Gemma 3 일부 모델들이 대표적임
  32GB 램 이하에서도 잘 돌아가고 성능 좋음
  OpenAI가 그 정도 사이즈로 하나 내놓기를 진심으로 바람
Llama 모델의 무검열 파인튜닝 사례에서 보듯, 안전성 제약은 쉽게 제거될 수 있음을 기억할 필요 있음
실질적으로 아무런 쓸모 없는 보안 퍼포먼스(대외 시늉)에 불과함
커뮤니티는 이미 보호장치를 다 쉽게 벗겨내는 방법을 오래전에 알아냈음
- 이런 주장만 보면 "Open"AI가 예전에 GPT2 XL을 "너무 강력하다"며 출시 거부했던 게 바로 떠오름
"이건 우리에게도 새로운 것"이라는 말은 해당 업체답지 않음
OpenAI가 왜 공개 가중치 모델을 공개하려고 하는지 genuinely 궁금함

답변달기