8P by ysc7064 2023-08-07 | favorite | 댓글 3개

안녕하세요
저는 플릭이란 운동 기록 앱을 개발, 운영한 적이 있고
현재는 LLM, Multimodal, Langchain, 특히 LLM agent와 영상의 교점을 찾는데에 관심이 많은 개발자입니다.

소개드릴 프로젝트는 업로드 된 비디오 내에서 원하는 장면, 비디오 클립을 텍스트 또는 이미지로 검색할 수 있는 검색엔진 입니다.

현재 대부분 영상은 사람이 다루고 있지만, Video를 다루는 API가 있다면 AI agent가 직접 영상을 편집하거나 추출 할 수 있지 않을까? 하는 생각으로 시작하게 된 프로젝트입니다.

시험 삼아 사용하실 수 있도록 Playground에 랜덤 유튜브 영상들을 업로드 해 두었습니다.
사용에 대한 피드백을 주시면 너무 감사하겠습니다.

P.S, 직접 영상을 업로드 하시고 싶으시거나, API 형태의 결과가 필요하시다면 언제든지 연락 주십시오.

옛날부터 홈 비디오를 관리하는 프로그램 중에
영상에서 여러 장면을 추출해서 전통적인(?) CNN을 통해 장면을 분류하고 검색할 수 있게 해주는 프로그램들이 몇 가지 있었는데...

이건 그런 방법과는 차원이 다를 정도로 잘 되는 것 같네요.

몇 번 검색해보니 결과중에 한 70~80%정도는 진짜 제가 찾던 장면들인 것 같습니다.
예를 들어 "A scene where something explodes"를 검색하니 주로 스파이더맨 영화에서 뭔가 번쩍이는 장면을 잘 찾아주더군요.

물론 장면이 빠르게 바뀌는 것들도 폭발이라고 찾아주긴 하는데... 그래도 너무 신기합니다.
넷플릭스 로고가 있는 사진을 올리니까, 넷플릭스를 포함해서 뭔가 기업 로고가 떠 있으면 모두 찾아주네요.

(그래도 한국어가 안되는 점은 조금 아쉽긴 합니다.)

이 기능은 이미지에도 잘 동작할 것 같은데, 이러면 개개인이 동영상을 포함한 자신의 전체 앨범을
AI로 검색할 수 있는 날도 머지않았다는 생각이 듭니다.

아니면 라이브 방송이나 길이가 아주 긴 영상을 편집할 때 영상을 전부 보지 않아도
AI를 통해 하이라이트나 딱 필요한 부분을 찾아서 가져온다던가...

기업에서 생각해보면 유튜브에 자연어+장면으로 검색하는 기능이 들어갈 수도 있겠네요.

아무튼 멋진 프로젝트 공개해 주셔서 감사합니다.
지금 개발하시는 방향성과는 조금 다른 것 같지만, 언젠가 이런 프로젝트가 오픈 소스로 공개되어 Self host가 가능해지면 좋겠네요.

안녕하세요 kuroneko님, 프로젝트를 재미있게 가지고 놀아 주신 것 같아 감사드립니다.

  1. '개개인이 동영상을 포함한 자신의 전체 앨범을 AI로 검색할 수 있는 날'
    -> 앨범을 뒤적여 사진을 찾던 제 모습이 바로 생각나네요...

  2. '길이가 아주 긴 영상을 편집, AI를 통해 하이라이트나 필요한 부분을 찾아서 가져온다'
    -> 맞습니다. AI를 이용해 영상 생산의 한계비용을 낮추는 데에 관심이 있습니다.

상세한 사용 후기를 이렇게 전달 주셔서 다시 한번 너무 감사드립니다.
잘 읽어보고 프로젝트에 영감을 줄 수 있는 부분을 추출해 계속 적용해 나가겠습니다.