Apple도 비디오 이해 모델을 가지고 있음
시각장애인으로서 AI가 내 삶을 완전히 바꿔놓았음. 이번 모델로 접근성 기능이 어떻게 발전할지 정말 기대됨
이런 이야기는 뉴스 헤드라인에서 보기 힘든데, 정말 반가운 댓글임
몇 년 전에는 청각장애 부모를 위해 아기 울음소리를 감지해 알림을 주는 기능도 추가했었음
품질이 낮은 댓글일 수도 있지만, 진심으로 축하하고 기쁨을 느꼈음
AI가 어떻게 삶을 바꿨는지 구체적으로 공유해줄 수 있는지 궁금함
드물게 AI가 사람들에게 실제로 도움이 되는 좋은 소식이라 반가움
Apple의 라이선스는 비상업적 연구용으로만 제한되어 있어서 오픈소스 정의에는 부합하지 않음
그래서 ‘오픈소스’보다는 ‘weights available’이라고 부르는 게 더 정확하다고 생각함
사실 아직 weights조차 공개되지 않음
미국 법 기준으로는 모델 가중치는 창작물이 아니라 기계 산출물이므로 저작권이 없다고 봄
그래서 나는 이런 무의미한 라이선스는 무시하고 자유롭게 사용할 것 같음
“오픈 웨이트 모델”이라는 개념이 마치 ‘오픈소스 윈도우 기계어 버전’ 같아서 좀 불편함
Apple의 라이선스는 클릭랩 MIT 형태로, 수정과 재배포 권한이 있다는 점은 그나마 다행임
좋은 비유임. 확장하자면 “폐쇄형 기계어”는 전형적인 SaaS 모델과 같음
그래도 바이너리를 직접 쓸 수 있는 게 SaaS만 제공하는 것보단 낫다고 생각함
로컬에서 실행할 수 있다는 점이 중요함
오픈 웨이트는 재학습이나 distillation이 가능하다는 점에서 단순한 실행 파일과는 다름
아마 코드 라이선스와 모델 라이선스를 혼동한 것 같음
텍스트-투-비디오 예시를 봤는데, 솔직히 인상적이지 않았음
예전 Will Smith 국수 영상을 떠올리게 함. 내가 뭔가 놓친 게 있을까?
최신 기술 대비 약 2년 정도 뒤처져 보임
그래도 연구자들이 실험할 수 있도록 공개한 점은 의미 있음
다시 Will Smith 스파게티 영상을 보면 알겠지만, 이번 예시는 그보다는 훨씬 나음
완벽하진 않지만 공개된 모델 중에서는 가장 발전된 수준일 수도 있음
다만 라이선스가 충분히 ‘오픈’한지는 의문임
나도 같은 생각이었음. 컵에 액체가 멈췄는데도 계속 차오르는 등 어색한 부분이 있었음
이 프로젝트는 연구로서는 새로운 시도와 가능성을 보여줬지만
제품 관점에서는 컴퓨팅 자원 제약이 뚜렷하게 보임
CFO가 CEO의 ML 인프라 투자 결정을 막았다는 보고와도 일치함
JG의 퇴사, AI 부서 대규모 개편, Tim의 2026년 퇴임설 등으로 미루어
비(非)ML 진영이 사내 정치에서 이긴 듯함
그래도 접근 방식은 흥미로우니 다른 이들이 이를 기반으로 유용한 무언가를 만들길 바람
논문에 따르면 이 모델은 diffusion 비디오 모델의 누적 오류 문제를 해결하려는 연구용 모델임
잠재 공간을 인과적(causal) 구조로 설계해 일관성을 높였다고 함
7B 규모 모델 치고는 결과가 꽤 괜찮음
만약 Apple이 wan이나 veo 수준의 모델을 내놓는다면, 정말 세련된 데이터로 학습했을 것 같음
STARFlow-V는 96개의 H100 GPU로 약 2천만 개의 비디오를 학습했다고 함
다만 학습 기간은 명시되지 않음
Apple Intelligence가 Nvidia GPU와 Linux로 학습된 점이 흥미로움
레포의 예시들이 Mac에서도 추론이 가능한지 궁금함
제목이 잘못됨. 모델은 아직 공개되지 않았고, 링크에도 그런 내용이 없음
왜 편집된 제목을 쓴 건지 의문임
모델이 좋아 보이긴 하지만, Apple이 어떤 사용 사례를 염두에 두었는지 궁금함
단순히 연구자들의 관심사일 수도 있고, 대기업 연구의 방향성이 위에서 내려오는지 모르겠음
Apple은 Pixar, Disney와의 연관으로 영상·애니메이션 분야에 강함
Jobs 시절부터 이어진 인연이 많음
아마도 아이폰으로 찍은 영상에 생성형 효과를 추가하는 용도일 듯함
TikTok이나 Instagram이 곧 이런 기능을 넣을 테지만, Apple은 자체적으로 제공하려는 듯함
개인적으로는 Snapchat 인수가 좋은 전략일 것 같음
레포에는 “Pretrained checkpoints will be released soon”이라고 되어 있음
즉, 아직은 오픈 웨이트가 아님
실제로 가중치가 공개되어야 진정한 오픈 모델이 될 것임
“Soon”이라는 말이 언제일지는 미지수임
Hacker News 의견
Apple도 비디오 이해 모델을 가지고 있음
시각장애인으로서 AI가 내 삶을 완전히 바꿔놓았음. 이번 모델로 접근성 기능이 어떻게 발전할지 정말 기대됨
Apple의 라이선스는 비상업적 연구용으로만 제한되어 있어서 오픈소스 정의에는 부합하지 않음
그래서 ‘오픈소스’보다는 ‘weights available’이라고 부르는 게 더 정확하다고 생각함
미국 법 기준으로는 모델 가중치는 창작물이 아니라 기계 산출물이므로 저작권이 없다고 봄
그래서 나는 이런 무의미한 라이선스는 무시하고 자유롭게 사용할 것 같음
“오픈 웨이트 모델”이라는 개념이 마치 ‘오픈소스 윈도우 기계어 버전’ 같아서 좀 불편함
Apple의 라이선스는 클릭랩 MIT 형태로, 수정과 재배포 권한이 있다는 점은 그나마 다행임
그래도 바이너리를 직접 쓸 수 있는 게 SaaS만 제공하는 것보단 낫다고 생각함
오픈 웨이트는 재학습이나 distillation이 가능하다는 점에서 단순한 실행 파일과는 다름
텍스트-투-비디오 예시를 봤는데, 솔직히 인상적이지 않았음
예전 Will Smith 국수 영상을 떠올리게 함. 내가 뭔가 놓친 게 있을까?
그래도 연구자들이 실험할 수 있도록 공개한 점은 의미 있음
완벽하진 않지만 공개된 모델 중에서는 가장 발전된 수준일 수도 있음
다만 라이선스가 충분히 ‘오픈’한지는 의문임
이 프로젝트는 연구로서는 새로운 시도와 가능성을 보여줬지만
제품 관점에서는 컴퓨팅 자원 제약이 뚜렷하게 보임
CFO가 CEO의 ML 인프라 투자 결정을 막았다는 보고와도 일치함
JG의 퇴사, AI 부서 대규모 개편, Tim의 2026년 퇴임설 등으로 미루어
비(非)ML 진영이 사내 정치에서 이긴 듯함
그래도 접근 방식은 흥미로우니 다른 이들이 이를 기반으로 유용한 무언가를 만들길 바람
논문에 따르면 이 모델은 diffusion 비디오 모델의 누적 오류 문제를 해결하려는 연구용 모델임
잠재 공간을 인과적(causal) 구조로 설계해 일관성을 높였다고 함
7B 규모 모델 치고는 결과가 꽤 괜찮음
만약 Apple이 wan이나 veo 수준의 모델을 내놓는다면, 정말 세련된 데이터로 학습했을 것 같음
STARFlow-V는 96개의 H100 GPU로 약 2천만 개의 비디오를 학습했다고 함
다만 학습 기간은 명시되지 않음
레포의 예시들이 Mac에서도 추론이 가능한지 궁금함
제목이 잘못됨. 모델은 아직 공개되지 않았고, 링크에도 그런 내용이 없음
왜 편집된 제목을 쓴 건지 의문임
모델이 좋아 보이긴 하지만, Apple이 어떤 사용 사례를 염두에 두었는지 궁금함
단순히 연구자들의 관심사일 수도 있고, 대기업 연구의 방향성이 위에서 내려오는지 모르겠음
Jobs 시절부터 이어진 인연이 많음
TikTok이나 Instagram이 곧 이런 기능을 넣을 테지만, Apple은 자체적으로 제공하려는 듯함
개인적으로는 Snapchat 인수가 좋은 전략일 것 같음
레포에는 “Pretrained checkpoints will be released soon”이라고 되어 있음
즉, 아직은 오픈 웨이트가 아님
실제로 가중치가 공개되어야 진정한 오픈 모델이 될 것임
“Soon”이라는 말이 언제일지는 미지수임